Skip to content

SFT

使用 LLaMA-Factory 框架进行模型SFT训练和模型推理。

基座模型:

  • QWen-1.5-32B
  • Yi-1.5-34B

数据合成

对大模型微调,使其具备数学解题能力,高质量的数据集是最重要的保障之一。

业界、数学界关于大模型数学解题能力方面的研究,已经有不少研究成果和数据集。在LLaMa-Factory中,内置了两类数学方面的数据集,它们为BelleGroup/school_math_0.25MTIGER-Lab/MathInstruct,前者是包含约25万条由BELLE项目生成的中文数学题数据,包含解题过程,但题目偏简单,多为小学数学题;后者由13个具有中间原理的数学数据集编译而成,其中6个为新数据集,混合了思想链(CoT)和思想程序(PoT),确保覆盖了广泛的数学领域。

但是,这两个数据集并没有调用Python代码去解题,仅仅是利用了大模型本身的世界知识和推理能力(如COT)。

我们希望在用大模型解决数学题目时,能够按照我们读书时的解题过程,先给出思考过程,再调用合适的知识点(这里是Python)代码,最后给出结果。下面是一个数学题目的解答过程:

[
    {
        "from": "human",
        "value": "计算 345 * 321 = ?"
    },
    {
        "from": "gpt",
        "value": "首先给出思考过程:这是一道简单的数学运算题目,考察的是两个整数的乘法。直接调用Python代码计算即可。"
    },
    {
        "from": "function_call",
        "value": "```python\ndef multiply(num1, num2):\n    return num1 * num2\n\nnum1 = 345\nnum2 = 123\n\nprint(f'{num1} * {num2} = {multiply(num1, num2)}')\n```\n"
    },
    {
        "from": "observation",
        "value": "现在将上面的代码复制到Python环境中运行,运行以上代码,输出会是: ```345 * 123 = 42435```"
    },
    {
        "from": "gpt",
        "value": "因此,345 * 123 = 42435"
    }
]

基于上述的这种格式,我们借助GPT-4-turbo模型进行数据合成,其中一个模板(即Prompt)如下:

现在,请你开始编写一个给初中生做的数学运算题目。
数学运算题目的出题方式要丰富多样,可以是加减乘除,也可以是分数、小数等,也可以出现复杂的运算,比如开方、对数、三角函数等。
在回答过程中,你可以调用Python代码,使用math或sympy模块,并给出Python代码的运行结果,要求输出格式与上述例子的输出相同,以```json开头,以```结尾,中间是JSON字符串,第一步一定要给出思考过程。

以下是一个示例的JSON格式的输出结果:

[
    {
        "from": "human",
        "value": "计算 345 * 321 = ?"
    },
    {
        "from": "gpt",
        "value": "首先给出思考过程:这是一道简单的数学运算题目,考察的是两个整数的乘法。直接调用Python代码计算即可。"
    },
    {
        "from": "function_call",
        "value": "```python\ndef multiply(num1, num2):\n    return num1 * num2\n\nnum1 = 345\nnum2 = 123\n\nprint(f'{num1} * {num2} = {multiply(num1, num2)}')\n```\n"
    },
    {
        "from": "observation",
        "value": "现在将上面的代码复制到Python环境中运行,运行以上代码,输出会是: ```345 * 123 = 42435```"
    },
    {
        "from": "gpt",
        "value": "因此,345 * 123 = 42435"
    }
]

出题要求:
1. 题目要求随机生成,不能是固定的题目。
2. 题目要求有一定的难度,不能太简单。
3. 题目的描述要清晰明了,且表达形式要丰富多样,有时候可以用中文来描述。
4. 计算题中可以包含一些特殊的数学符号,比如分数、小数、开方、对数、三角函数等。

如何写好合适的Prompt,使得GPT-4-turbo能够遵循指令,给出高质量的数学解题过程,也是值得探索的,笔者这里只是给出了初步尝试的结果,这中间的过程还是有待提升的。

使用GPT-4-turbo模型生成数据,再经过大量时间的数据清洗与合成,最终我们得到547个样本(包含重复样本),它们都满足sharegpt格式,格式样例如下:

[
    {
        "conversations": [
            {
                "from": "human",
                "value": "题目:苹果的价格是每公斤3元,小明买了2.5公斤的苹果,他一共需要支付多少钱?"
            },
            {
                "from": "gpt",
                "value": "首先给出思考过程:这是一个简单的乘法问题,其中涉及到的是单价和数量的乘积计算。我们需要用苹果的单价乘以小明购买的苹果的重量来找出总金额。\n生成的Python代码如下:\n计算总金额的公式是: \\[ 总金额 = 单价 \\times 数量 \\] 在这个具体例子中,苹果的单价为3元每公斤,小明购买了2.5公斤。\n生成的Python代码如下:\n```python\ndef total_cost(price_per_kg, weight):\n    return price_per_kg * weight\n\n# 苹果的单价(每公斤)\nprice_per_kg = 3\n\n# 小明购买的苹果重量(公斤)\nweight = 2.5\n\n# 计算总金额\ncost = total_cost(price_per_kg, weight)\nprint('小明需要支付的总金额为:', cost)\n```\n"
            },
            {
                "from": "human",
                "value": "现在将上面的代码复制到Python环境中运行,我们应得到小明需要支付的总金额。运行结果将告诉我们具体的金额数值。 运行以上代码,输出会是: ```小明需要支付的总金额为: 7.5```"
            },
            {
                "from": "gpt",
                "value": "因此,小明购买2.5公斤苹果,总共需要支付7.5元。"
            }
        ]
    }
    ...
]

这就是我们最终送入LLaMa-Factory的数据格式了。

模型微调

使用LLaMa-Factory微调框架对大模型进行SFT,笔者之前在很多文章中已经介绍多次了,并没有太多新意,这里也不再给出详细的微调过程。

我们使用Qwen/Qwen1.5-32B模型,对上述合成的少量数据集进行SFT,训练完毕后导出模型为Qwen1.5-32B-math,再使用下面的脚本启动训练后模型的推理服务:

CUDA_VISIBLE_DEVICES=0 python -m llmtuner.api.app --model_name_or_path /models/Qwen1.5-32B-math --template qwen

模型预测

参考examples.pdf文档。