Skip to content

Gaokao Eval

2024新高考II卷高考真题数学能力测评

  • 去除试卷中的证明题,总分共130分,计分方式同高考阅卷(这里只考虑最终答案是否正确,不考虑中间过程得分)。
  • 使用MathPix将高考真题PDF文档转化为带LaTeX格式的Markdown文档,然后分别使用OpenAI(模型为GPT-4o, GPT-o1-preview), Claude(模型为claude-3-5-sonnet-20240620), 自研微调模型(基座模型为QWen-2-72B-Instruct), DeepSeek-code-V2.5模型进行解题,得到每道题的解答过程和最终答案,然后与标准答案进行比对,计算总体得分。
  • 评测的具体细节可参考 eval/gaokao 文件夹。

模型的总体得分评测结果如下:

模型 得分1 得分2 得分3 平均得分
GPT-4o 68 82 66 72.0
claude-3.5-sonnet-20240620 68 65 63 65.33
自研微调模型 58 67 56 60.33
GPT-o1-preview 123 120 113 118.67
DeepSeek-Code-V2.5 104 95 92 97

score_0913_1.jpg

按题型(单项选择题, 多项选择题, 填空题, 解答题)进行统计,测评结果如下:

题型 模型 得分1 得分2 得分3 平均得分
单项选择题 OpenAI 35 30 25 30.0
单项选择题 Claude 35 30 30 31.67
单项选择题 自研微调模型 20 20 10 16.67
单项选择题 GPT-o1-preview 40 40 35 38.33
单项选择题 DeepSeek-Code-V2.5 30 35 30 31.67
多项选择题 OpenAI 14 8 11 11.0
多项选择题 Claude 10 10 10 10
多项选择题 自研微调模型 0 6 0 2
多项选择题 GPT-o1-preview 18 18 18 18
多项选择题 DeepSeek-Code-V2.5 12 12 12 12
填空题 OpenAI 7 7 7 7.0
填空题 Claude 7 2 7 5.33
填空题 自研微调模型 7 10 15 10.67
填空题 GPT-o1-preview 15 12 15 14
填空题 DeepSeek-Code-V2.5 12 10 12 11.33
解答题 OpenAI 12 37 23 24.0
解答题 Claude 16 23 16 18.33
解答题 自研微调模型 31 31 31 31
解答题 GPT-o1-preview 50 50 45 48.33
解答题 DeepSeek-Code-V2.5 50 38 38 42

score_0913_2.jpg