Skip to content

Welcome to LLM Math Solver Project

欢迎来到LLM Math Solver项目,本项目旨在使用大模型来解决数学习题.

最新的微调模型QWen-2-72B-Instruct-math已在Huggingface上发布,可以下载使用,点击这里

Content

Evaluation

不同模型经过微调的数学能力测评表如下:

基座模型 GSM8K MATH 样本数
QWen1.5-32B 79.68% 43.58% 2402
Yi-1.5-34B 83.47% 52.76% 3480
Yi-1.5-34B-Chat 85.67% 57.22% 3479
QWen-2-72B-Instruct 93.03% 68.54% 3469
QWen-2-72B-Instruct 93.56% 69.66% 4799

其它模型的数学能力测评:LLM Leaderboard

More

  1. NLP(九十七)大模型数学解题能力的初步探索
  2. NLP(九十九)大模型的数学能力微调及测评
  3. NLP(一百)大模型数学能力测评
  4. Open WebUI的Pipelines学习之使用大模型解数学题
  5. 笔记:大模型数学解题能力
  6. NLP(一百零六)GSM8K测试集中答案错误的4道题目
  7. NLP(一百零七)大模型解答高考数学题评测实验