NLP(七十三)从BERT模型训练到量化、蒸馏之路
本文将会介绍笔者从BERT模型训练到模型量化、蒸馏的旅程,通过一系列文章的回顾,不难掌握模型训练和模型压缩的技能。
在工业界中,常见的模型压缩方法有知识蒸馏(Knowledge Distillation,KD)、剪枝(Pruning)、量化(Quantization)等。
以往,笔者只注重模型训练,而忽略了模型压缩的办法。不知不觉间,在这一段时间内,笔者研究了BERT分类模型训练、量化、知识蒸馏相关内容,形成了一系列文章。
本文希望通过对以往历史文章的回顾,来更好地梳理从模型训练到模型量化、蒸馏的发展阶段,理清模型训练和推理性能之间的平衡方法,形成自己的方法论。
模型训练
对于模型训练,大家都接触过著名的HuggingFace
社区的Transformers
模块。在Transformers
模块中,模型训练的优雅解法应该是使用Trainer
类,其强大的功能足以完成我们绝大部分的BERT系列模型的NLP任务,且十分高效、简洁,代码操作也较为统一、优雅。
关于使用Trainer
类进行BERT模型文本分类任务,可以参考下面的文章,模型训练、推理的代码十分简洁。
NLP(六十六)使用HuggingFace中的Trainer进行BERT模型微调
如果需要对模型进行自动化参数优化,Optuna
会是你理想的工具,一个很好的例子见诸下文:
模型量化
模型量化是指通过将神经网络模型中的部分参数的数据类型从FP32或FP16转化为INT8或UINT8,在损失部分模型效果的前提下,缩小量化后模型大小,提升量化后推理性能。
PyTorch自身提供了模型训练后动态量化(Post Training Dynamic Quantization, PTDQ),参考文章如下:
HuggingFace社区也提供了好用的第三方量化工具:Optimum
,关于使用Optimum
来更方便地进行模型量化,可参考:
知识蒸馏
知识蒸馏同样也是模型压缩办法,它通过Teacher模型(一般为复杂的大模型)来指导小模型的方法,提升小模型的表现能力,使用小模型进行推理,从而加速模型推理。关于知识蒸馏的基本概念、原理和代码实现,下面的文章值得一读:
推理性能提升
综上所述,我们整理出一个模型推理性能提升的表格:
实验的数据集为sougou分类小数据集,基座模型采用bert-base-chinese(Teacher模型),文本最大长度为128。量化工具使用Optimum,自动化参数优化框架采用Optuna,知识蒸馏(KD)的小模型(Student模型)采用ckiplab/bert-tiny-chinese。
下表中的推理性能衡量指标为测试数据集上的平均推理时间,单位ms,推理效果为测试数据集上的weighted F1值。
模型压缩方案 | 推理性能 | 推理效果 | 模型大小 |
---|---|---|---|
原始BERT模型 | 341.6 | 0.9737 | ~412MB |
量化 | 215.1 | 0.9737 | ~152MB |
KD | 45.55 | 0.9454 | ~46MB |
KD+量化 | 35.4 | 0.9475 | ~12MB |
总结
笔者的研究起于整理之前的模型量化的笔记,经过这一段时间的探索,形成了这一系列的文章,差不多完成了从模型训练、推理到模型压缩的完整链路。因此,BERT模型方面的探索将暂告一段落,后续将开始开始探索大模型(LLM)。
在不久的将来,BERT系列模型将缓缓退出历史舞台,LLM粉墨登场,引领风骚,成为下一个时代的弄潮儿。旧王退位,新王登基,一个崭新的时代已经曙光初现,于惊鸿一瞥中展现了它迷人的身姿和无穷的魅力,未来它的光芒将照耀每一个人。
欢迎关注我的公众号NLP奇幻之旅,原创技术文章第一时间推送。欢迎关注我的知识星球“自然语言处理奇幻之旅”,笔者正在努力构建自己的技术社区。