Gaokao Eval
2024新高考II卷高考真题数学能力测评
- 去除试卷中的证明题,总分共130分,计分方式同高考阅卷(这里只考虑最终答案是否正确,不考虑中间过程得分)。
- 使用
MathPix
将高考真题PDF文档转化为带LaTeX格式的Markdown文档,然后分别使用OpenAI(模型为GPT-4o, GPT-o1-preview), Claude(模型为claude-3-5-sonnet-20240620), 自研微调模型(基座模型为QWen-2-72B-Instruct), DeepSeek-code-V2.5模型进行解题,得到每道题的解答过程和最终答案,然后与标准答案进行比对,计算总体得分。 - 评测的具体细节可参考
eval/gaokao
文件夹。
模型的总体得分评测结果如下:
模型 | 得分1 | 得分2 | 得分3 | 平均得分 |
---|---|---|---|---|
GPT-4o | 68 | 82 | 66 | 72.0 |
claude-3.5-sonnet-20240620 | 68 | 65 | 63 | 65.33 |
自研微调模型 | 58 | 67 | 56 | 60.33 |
GPT-o1-preview | 123 | 120 | 113 | 118.67 |
DeepSeek-Code-V2.5 | 104 | 95 | 92 | 97 |
按题型(单项选择题, 多项选择题, 填空题, 解答题)进行统计,测评结果如下:
题型 | 模型 | 得分1 | 得分2 | 得分3 | 平均得分 |
---|---|---|---|---|---|
单项选择题 | OpenAI | 35 | 30 | 25 | 30.0 |
单项选择题 | Claude | 35 | 30 | 30 | 31.67 |
单项选择题 | 自研微调模型 | 20 | 20 | 10 | 16.67 |
单项选择题 | GPT-o1-preview | 40 | 40 | 35 | 38.33 |
单项选择题 | DeepSeek-Code-V2.5 | 30 | 35 | 30 | 31.67 |
多项选择题 | OpenAI | 14 | 8 | 11 | 11.0 |
多项选择题 | Claude | 10 | 10 | 10 | 10 |
多项选择题 | 自研微调模型 | 0 | 6 | 0 | 2 |
多项选择题 | GPT-o1-preview | 18 | 18 | 18 | 18 |
多项选择题 | DeepSeek-Code-V2.5 | 12 | 12 | 12 | 12 |
填空题 | OpenAI | 7 | 7 | 7 | 7.0 |
填空题 | Claude | 7 | 2 | 7 | 5.33 |
填空题 | 自研微调模型 | 7 | 10 | 15 | 10.67 |
填空题 | GPT-o1-preview | 15 | 12 | 15 | 14 |
填空题 | DeepSeek-Code-V2.5 | 12 | 10 | 12 | 11.33 |
解答题 | OpenAI | 12 | 37 | 23 | 24.0 |
解答题 | Claude | 16 | 23 | 16 | 18.33 |
解答题 | 自研微调模型 | 31 | 31 | 31 | 31 |
解答题 | GPT-o1-preview | 50 | 50 | 45 | 48.33 |
解答题 | DeepSeek-Code-V2.5 | 50 | 38 | 38 | 42 |