Llama 3.1 405B.

Metaopen-source

Meta Llama 3.1, 405B parameter instruct variant. Released July 2024.

§ 01 · Benchmarks

Every benchmark Llama 3.1 405B has a recorded score for.

#	Benchmark	Area · Task	Metric	Value	Rank	Date	Source
01	HellaSwag	Reasoning · Commonsense Reasoning	accuracy	89.0%	#3/5	—	source ↗
02	CNN/DailyMail	Natural Language Processing · Text Summarization	rouge-1	45.1%	#4/6	2024-07-31	source ↗
03	CNN/DailyMail	Natural Language Processing · Text Summarization	rouge-l	42.3%	#4/6	2024-07-31	source ↗
04	CoNLL-2003	Natural Language Processing · Named Entity Recognition	f1	90.6%	#4/7	2024-07-31	source ↗
05	SNLI	Natural Language Processing · Natural Language Inference	accuracy	91.2%	#5/8	2024-07-31	source ↗
06	BIG-Bench Hard	Reasoning · Multi-step Reasoning	accuracy	85.9%	#5/5	—	source ↗
07	SuperGLUE	Natural Language Processing · Text Classification	average-score	86.7%	#6/7	2024-07-31	source ↗
08	ARC-Challenge	Reasoning · Commonsense Reasoning	accuracy	96.9%	#6/10	—	source ↗
09	SQuAD v2.0	Natural Language Processing · Question Answering	f1	88.7%	#12/22	2024-07-31	source ↗
10	HumanEval	Computer Code · Code Generation	pass@1	89.0%	#20/42	—	source ↗
11	MMLU	Reasoning · Commonsense Reasoning	accuracy	88.6%	#21/41	—	source ↗
12	GPQA	Reasoning · Multi-step Reasoning	accuracy	50.7%	#26/33	—	source ↗
13	MATH	Reasoning · Mathematical Reasoning	accuracy	73.8%	#28/34	—	source ↗

Rank column shows this model’s position vs all other models scored on the same benchmark + metric (competitors after the slash). #1 in red means current SOTA. Sorted by rank, then newest result.

§ 02 · Strengths by area