DeepSeek-R1效果与其他模型对比方法
大模型工坊
对于所有的模型,最大生成长度设定为 32768 个词元。对于需要采样的基准测试,我们采用 0.6 的温度参数、0.95 的核采样概率(top - p 值),并且每个查询生成 64 个回复,以此来估计单次尝试通过率(pass)。
- 最大生成长度(maximum generation length):指模型在生成文本时,最多能够输出的词元数量。词元(token)是文本处理中的基本单位,它可以是一个单词、一个子词或者一个字符,具体取决于分词方法。
- 温度(tperature):在文本生成中,是用于控制生成文本随机性的超参数。较高的温度值(如接近 1)会使模型生成更加随机、多样化的文本;较低的温度值(如接近 0)会使模型生成更加确定、保守的文本,倾向于选择概率最高的词元。
- 核采样( - p sampling):一种文本生成采样策略,也称为 nucleus sampling。它根据词元概率的累积分布来选择一个子集,使得该中词元概率之和达到 p(即 top - p 值),然后再从这个子集中采样选择下一个词元。
- :是一种评估指标,通常用于衡量模型在单次尝试中完成特定任务的成功率。比如在多项选择任务中,模型给出的第一个答案如果正确,就算作一次成功,统计多次尝试中的成功比例,就是 pass。
Category
Benchmark (Metric)
Claude-3.5-Sonnet-1022
GPT-4o 0513
DeepSeek V3
OpenAI o1-mini
OpenAI o1-1217
DeepSeek R1
Architecture
MoE
MoE
Activated Params
37B
37B
Total Params
671B
671B
English
MMLU (Pass)
88.3
87.2
88.5
85.2
91.8
90.8
MMLU-Redux (EM)
88.9
88.0
89.1
86.7
92.9
MMLU-Pro (EM)
78.0
72.6
75.9
80.3
84.0
DROP (3-shot F1)
88.3
83.7
91.6
83.9
90.2
92.2
IF-eval (prompt Strict)
86.5
84.3
86.1
84.8
83.3
GPQA-Diamond (Pass)
65.0
49.9
59.1
60.0
75.7
71.5
SimpleQA (Correct)
28.4
38.2
24.9
7.0
47.0
30.1
frameS (Acc.)
72.5
80.5
73.3
76.9
82.5
Alpacaeval2.0 (LC-winrate)
52.0
51.1
70.0
57.8
87.6
ArenaHard (GPT-4-1106)
85.2
80.4
85.5
92.0
92.3
Code
LiveCodeBench (Pass-COT)
33.8
34.2
53.8
63.4
65.9
Codeforces (Percentile)
20.3
23.6
58.7
93.4
96.6
96.3
Codeforces (Rating)
717
759
1134
1820
2061
2029
SWE Verified (Resolved)
50.8
38.8
42.0
41.6
48.9
49.2
Aider-Polyglot (Acc.)
45.3
16.0
49.6
32.9
61.7
53.3
Math
AIME 2024 (Pass)
16.0
9.3
39.2
63.6
79.2
79.8
MATH-500 (Pass)
78.3
74.6
90.2
90.0
96.4
97.3
CNMO 2024 (Pass)
13.1
10.8
43.2
67.6
78.8
Chinese
CLUEWSC (EM)
85.4
87.9
90.9
89.9
92.8
C-eval (EM)
76.7
76.0
86.5
68.9
91.8
C-SimpleQA (Correct)
55.4
58.7
68.0
40.3
本文地址:http://www.tpjde.com/quote/13236.html 推平第 http://www.tpjde.com/ , 查看更多