OmniDocBench

Shanghai AI Laboratory

Comprehensive benchmark for evaluating PDF document parsing models across diverse document types with multi-level annotations.

Total Results

Models Tested

Metrics

2025-12-19

Last Updated

Composite Score

((1-TextEditDist)*100 + TableTEDS + FormulaCDM) / 3

Higher is better

Rank	Model	Score	Source
1	paddleocr-vl End-to-end document parsing. Score = ((1-TextEditDist)*100 + TableTEDS + FormulaCDM) / 3	92.86	alphaxiv-leaderboard
2	paddleocr-vl-0.9b	92.56	alphaxiv-leaderboard
3	mineru-2.5	90.67	alphaxiv-leaderboard
4	qwen3-vl-235b	89.15	alphaxiv-leaderboard
5	monkeyocr-pro-3b	88.85	alphaxiv-leaderboard
6	ocrverse-4b 4B parameter model. Text Edit: 0.058, Formula CDM: 86.91, Table TEDS: 84.55	88.56	github-leaderboard
7	dots-ocr-3b 3B parameter model. Text Edit: 0.048, Formula CDM: 83.22, Table TEDS: 86.78	88.41	github-leaderboard
8	gemini-25-pro	88.03	alphaxiv-leaderboard
9	qwen25-vl	87.02	alphaxiv-leaderboard
10	mistral-ocr-3 INDEPENDENTLY VERIFIED by CodeSOTA. Full benchmark run on 1355 images. Text Edit: 0.099 (90.1%), Formula Edit: 0.218 (78.2%), Table TEDS: 70.9%. Reading Order: 91.6%.	79.75	codesota-verified
11	clearocr-teamquest INDEPENDENTLY VERIFIED by CodeSOTA. Traditional OCR - text only, no table/formula recognition. Text Edit: 0.154 (84.6%), Table TEDS: 0.8%, Formula Edit: 0.902.	31.7	codesota-verified

Higher is better

Rank	Model	Score	Source
1	clearocr-teamquest Text block recognition. 84.6% accuracy. Best on research reports (95.4%), academic papers (95.0%).	0.15	codesota-verified
2	mistral-ocr-3 Text block recognition. 90.1% accuracy. Best on academic papers (97.9%), exam papers (92.8%).	0.10	codesota-verified

Tree Edit Distance Score for table recognition

Higher is better

Rank	Model	Score	Source
1	paddleocr-vl Table structure recognition score (TEDS)	93.52	alphaxiv-leaderboard
2	mistral-ocr-3 Table structure recognition. TEDS Structure: 75.3%. Best on exam papers (88.0%).	70.88	codesota-verified
3	clearocr-teamquest No structured table recognition. Outputs tables as plain text.	0.80	codesota-verified

Higher is better

Rank	Model	Score	Source
1	clearocr-teamquest No LaTeX formula recognition. Outputs formulas as plain text.	0.90	codesota-verified
2	mistral-ocr-3 Display formula recognition. 78.2% accuracy.	0.22	codesota-verified

Higher is better

Rank	Model	Score	Source
1	mistral-ocr-3 Reading order accuracy. 8.4% edit distance error.	91.63	codesota-verified
2	clearocr-teamquest Reading order accuracy. 14.0% edit distance error.	86.04	codesota-verified

Character-level edit distance for text extraction

Lower is better

Rank	Model	Score	Source
1	gpt-4o OCR Edit Distance (lower is better). Best on English text extraction.	0.02	alphaxiv-leaderboard

Mean Average Precision for layout detection

Higher is better

Rank	Model	Score	Source
1	mineru-2.5 Layout detection mAP (highest)	97.5	alphaxiv-leaderboard