CC-OCR

South China University of Technology

Benchmark for OCR across multi-scene, multilingual, and document parsing tasks.

Total Results

Models Tested

Metrics

2025-12-19

Last Updated

Multi-Scene F1

F1 score on multi-scene text reading

Higher is better

Rank	Model	Score	Source
1	gemini-15-pro Multi-Scene Text Reading - Overall F1 score	83.25 %	alphaxiv-leaderboard
2	qwen2-vl-72b	77.95 %	alphaxiv-leaderboard
3	internvl2-76b	76.92 %	alphaxiv-leaderboard
4	gpt-4o	76.4 %	alphaxiv-leaderboard
5	claude-35-sonnet	72.87 %	alphaxiv-leaderboard

F1 score on key information extraction

Higher is better

Rank	Model	Score	Source
1	qwen2-vl-72b Key Information Extraction - Overall F1 score	71.76 %	alphaxiv-leaderboard
2	gemini-15-pro	67.28 %	alphaxiv-leaderboard
3	claude-35-sonnet	64.58 %	alphaxiv-leaderboard
4	gpt-4o	63.45 %	alphaxiv-leaderboard

F1 score on multilingual text (10 languages)

Higher is better

Rank	Model	Score	Source
1	gemini-15-pro Multilingual Text Reading - 10 languages	78.97 %	alphaxiv-leaderboard
2	gpt-4o	73.44 %	alphaxiv-leaderboard

Average score on document parsing

Higher is better

Rank	Model	Score	Source
1	gemini-15-pro Document Parsing - Average Score	62.37	alphaxiv-leaderboard