NLP（十九）首次使用BERT的可视化指导

本文（部分内容）翻译自文章A Visual Guide to Using BERT for the First Time，其作者为Jay Alammar，访问网址为：http://jalammar.github.io/a-visual-guide-to-using-bert-for-the-first-time/ ，可以作为那些不熟悉BERT的读者首次阅读。文章中如有翻译不当之处，还请批评指正。

本文是关于如何使用BERT的变异版本来进行句子分类的简单教程。该例子足够简单，因此可以作为首次使用BERT的介绍，当然，它也包含了一些关键性的概念。

数据集：SST2

本文中使用的数据集为SST2，它包含了电影评论的句子，每一句带有一个标签，或者标注为正面情感（取值为1），或者标注为负面情感（取值为0）。

模型：句子情感分类

我们的目标是创建一个模型，它能够处理一个句子（就行我们数据集中的句子那样）并且输出1（表明该句子具有正面情感）或者0（表明该句子具有负面情感）。我们设想它长这样：

事实上，该模型包含两个模型：

DistillBERT会处理句子并把它提取后的信息传递给下一个模型。DistillBERT是BERT的变异版本，由HuggingFace小组开发和开源。它是BERT的更轻量、更快速的版本，同时它的表现基本与BERT相近。
下一个模型，从scikit learn中导入的一个基本的逻辑回归模型（Logistic Regression model），它会利用 DistillBERT的处理结果，然后将句子进行分类成正面情感或者负面情感（分别为1或者0）。

在两个模型之间传递的数据为1个768维的向量。我们可以把这个向量理解为这个句子的嵌入向量（Embedding Vector），用于分类。

模型训练

尽管我们用了两个模型，但是我们只会训练逻辑回归模型。对于DistillBERT，我们会使用已经预训练好的英语模型。该模型，既不会被训练也不会做微调（fine-tuned），直接进行句子分类。这是因为，我们可以从BERT中获得句子分类的能力。这尤其适合BERT输出的第一个位置（跟[CLS]标志相关）。我相信这是由于BERT的第二个训练模型——下一句分类（Next sentence classification）。该模型的目标在于封装句子级别的语料进行训练，并输出第一个位置。transformers库已经提供了DistillBERT的操作，作为其预训练模型版本。

教程总览

以下是该教程的计划安排。首先我们会使用DistillBERT来产生2000个句子的句子向量。

这一步之后我们不会接触DistillBERT。接下去只是Scikit Learn的操作。我们将数据集分为训练集和测试集。

将数据集经过Distilll处理后划分为训练集和测试集，注意sklearn的划分是将数据集打乱(shuffle)后再进行划分，所以不是取数据集的前75%作为训练集。

接下来我们在训练集上使用逻辑回归模型进行训练。

单次预测如何计算

在我们讲解代码和解释如何训练模型之前，让我们看一下已预训练好的模型如何进行预测。我们尝试着预测句子“a visually stunning rumination on love”。第一步是使用BERT tokenizer 将句子划分成tokens。然后加上句子分类的特殊tokens（[CLS]在开始位置，[SEP]在句子结尾）。