Gaokao Eval

2024新高考II卷高考真题数学能力测评

去除试卷中的证明题，总分共130分，计分方式同高考阅卷（这里只考虑最终答案是否正确，不考虑中间过程得分）。
使用MathPix将高考真题PDF文档转化为带LaTeX格式的Markdown文档，然后分别使用OpenAI(模型为GPT-4o, GPT-o1-preview), Claude(模型为claude-3-5-sonnet-20240620), 自研微调模型（基座模型为QWen-2-72B-Instruct）, DeepSeek-code-V2.5模型进行解题，得到每道题的解答过程和最终答案，然后与标准答案进行比对，计算总体得分。
评测的具体细节可参考 eval/gaokao 文件夹。

模型的总体得分评测结果如下：

按题型(单项选择题, 多项选择题, 填空题, 解答题)进行统计，测评结果如下：