Recent Papers / arXiv:2602.10604

Step 3.5 Flash: Open Frontier-Level Intelligence with 11B Active Parameters

arXiv:2602.10604Submitted Feb 11, 202619 benchmark results

Authors pending

View PDF ↗arXiv page ↗Code ↗Edit

Tasks

Results

19 results reproduced from this paper.

MetricSort byDirectionSorted instantly in-page

Results

17

SOTA rows

1

Models

3

Datasets

0

#	Model	Vendor	Benchmark	Value	SOTA	Date	Source
01	Step-3.5-Flash PaCoRe	—	AIME 2025	99.9%	#1	—	source ↗
02	Step-3.5-Flash	—	AIME 2025	97.3%	—	—	source ↗
03	Step-3.5-Flash Base	—	HellaSwag	90.2%	—	—	source ↗
04	Step-3.5-Flash Base	—	BIG-Bench Hard	88.2%	—	—	source ↗
05	Step-3.5-Flash Base	—	GSM8K	88.2%	—	—	source ↗
06	Step-3.5-Flash	—	Tau2-Bench	88.2%	—	—	source ↗
07	Step-3.5-Flash Base	—	MMLU	85.8%	—	—	source ↗
08	Step-3.5-Flash PaCoRe	—	GPQA Diamond	85.0%	—	—	source ↗
09	Step-3.5-Flash	—	GPQA Diamond	83.5%	—	—	source ↗
10	Step-3.5-Flash Base	—	WinoGrande	79.1%	—	—	source ↗
11	Step-3.5-Flash	—	SWE-Bench Verified	74.4%	—	—	source ↗
12	Step-3.5-Flash Base	—	MATH	66.8%	—	—	source ↗
13	Step-3.5-Flash	—	BrowseComp	51.6%	—	—	source ↗
14	Step-3.5-Flash Base	—	GPQA Diamond	41.7%	—	—	source ↗
15	Step-3.5-Flash Base	—	SimpleQA	31.6%	—	—	source ↗
16	Step-3.5-Flash PaCoRe	—	HLE	27.9%	—	—	source ↗
17	Step-3.5-Flash	—	HLE	23.1%	—	—	source ↗

CodeSOTA extraction

Benchmark evidence

Link this paper to benchmark rows, datasets, model cards, and reproduced results as evidence is extracted.

§ 02 · Models

3 models from this paper.

Step-3.5-Flash Base

Step-3.5-Flash PaCoRe

Add or update benchmark results

Logged-in editor · benchmark trail

Read next

Three places to go from here.

All tracked papers in the registry, with benchmark result, model, and leaderboard linkage where available.

Papers with Code is dead — alternatives

What replaced PWC for each use case: LLMs, OCR, speech, vision, robotics.

Every frontier LLM benchmark, scored.