AIME 2025.

Name: AIME 2025 Benchmark Results
Creator: Unknown
License: https://creativecommons.org/licenses/by/4.0/

AIME I + II 2025. 30 problems total. Metric is average number of correct problems out of 30 (or % correct). Frontier models now achieve near-perfect scores.

Paper ↗Leaderboard ↓

§ 01 · SOTA history

Year over year.

Not enough data to show trend.

§ 02 · Leaderboard

Results by metric.

accuracy

Higher is better

Trust tiers for accuracyverifiedpapervendorcommunityunverified

Rank	Model	Trust	Score	Year	Source
01	o4-mini Average over AIME 2025 I+II. Source: OpenAI o4-mini system card (April 2025).	verified	92.7	2026	Source ↗
02	o3 Average over AIME 2025 I+II (30 problems). Source: OpenAI (2025).	verified	86.7	2026	Source ↗
03	Gemini 2.5 Pro Average over AIME 2025 I+II. Source: Gemini 2.5 Pro technical report (April 2025).	verified	86.7	2026	Source ↗
04	Claude Opus 4.5 Average over AIME 2025 I+II. Source: Claude Opus 4.5 model card, Anthropic (2025).	verified	80	2026	Source ↗
05	DeepSeek R1 Average AIME 2025 I+II (estimated from leaderboard). Source: DeepSeek-R1 technical report.	verified	72	2026	Source ↗

§ 04 · Submit a result

Add to the leaderboard.

← Back to Mathematical Reasoning