Codesota · Models · o1OpenAI11 results · 10 benchmarks

Model card

o1.

OpenAIapi

§ 01 · Benchmarks

Every benchmark o1 has a recorded score for.

#	Benchmark	Area · Task	Metric	Value	Rank	Date	Source
01	MMLU	Reasoning · Commonsense Reasoning	accuracy	91.8%	#3/41	2024-12-05	source ↗
02	RE-Bench	Agentic AI · RE-Bench	normalized-score	0.2%	#3/5	2024-11-22	source ↗
03	HCAST	Agentic AI · HCAST	success-rate	28.0%	#4/6	2025-04-01	source ↗
04	METR Time Horizon	Agentic AI · Time Horizon	task-horizon-minutes	4.0%	#4/5	2025-04-01	source ↗
05	MATH	Reasoning · Mathematical Reasoning	accuracy	96.4%	#8/34	—	source ↗
06	HLE	Reasoning · Multi-step Reasoning	accuracy	8.0%	#11/13	—	unverified
07	GSM8K	Reasoning · Mathematical Reasoning	accuracy	97.8%	#12/32	2024-09-01	source ↗
08	GSM8K	Reasoning · Mathematical Reasoning	accuracy	97.8%	#12/32	2024-09-01	source ↗
09	GPQA	Reasoning · Multi-step Reasoning	accuracy	75.7%	#12/33	—	source ↗
10	SWE-Bench Verified	Computer Code · Code Generation	resolve-rate	48.9%	#34/39	—	source ↗
11	SWE-bench Verified	Agentic AI · SWE-bench	resolve-rate	41.0%	#72/81	—	source ↗

Rank column shows this model’s position vs all other models scored on the same benchmark + metric (competitors after the slash). #1 in red means current SOTA. Sorted by rank, then newest result.

§ 02 · Strengths by area

Where o1 actually performs.

§ 03 · Papers

2 papers with results for o1.

2025-04-01· Agentic AI· 2 results
METR: Measuring Autonomy in AI Systems (2025 Update)
2024-11-22· Agentic AI· 1 result
RE-Bench: Evaluating Frontier AI R&D Capabilities of Language Model Agents Against Human Experts

§ 04 · Related models

Other OpenAI models scored on Codesota.

GPT-4o

Undisclosed params · 35 results · 9 SOTA

Undisclosed params · 8 results

GPT-4.1

7 results

§ 05 · Sources & freshness

Where these numbers come from.

openai-simple-evals

results

official-leaderboard

results

editorial

results

arxiv

result

gsm8k-shadow-page

result

gsm8k-shadow-page-timeline

result

swebench-leaderboard

result

5 of 11 rows marked verified. · first result 2024-09-01, latest 2025-04-01.

o1.

Every benchmark o1 has a recorded score for.

Where o1 actually performs.

2 papers with results for o1.

METR: Measuring Autonomy in AI Systems (2025 Update)

RE-Bench: Evaluating Frontier AI R&D Capabilities of Language Model Agents Against Human Experts

Other OpenAI models scored on Codesota.

Where these numbers come from.