1 引言

各位朋友大家好,欢迎来到月来客栈,我是掌柜空字符。

经过前面四篇文章(BERT原理与NSL和MLM[1]BERT模型的分步实现[2]基于BERT预训练模型的文本分类任务[3]基于BERT预训练模型的文本蕴含任务[4])的介绍,相信大家对于BERT预训练模型的使用已经有了的认识。不过为了满足不同人群的学习需求,在这篇文章中掌柜将会介绍基于BERT预训练模型的第三个下游任务场景,即如何完成推理问答选择任务。所谓问答选择指的就是同时给模型输入一个问题和若干选项的答案,最后需要模型从给定的选项中选择一个最符合问题逻辑的答案。可问题在于我们应该怎么来构建这个模型呢?

通常来说,在NLP领域的很多场景中模型最后所做的基本上都是一个分类任务,虽然表面上看起来不是。例如:文本蕴含任务其实就是将两个序列拼接在一起,然后预测其所属的类别;基于神经网络的序列生成模型(翻译、文本生成等)本质就是预测词表中下一个最有可能出现的词,此时的分类类别就是词表的大小。因此,从本质上来说本文介绍的问答选择任务以及在下一篇文章中将要介绍的问题回答任务其实都是一个分类任务,而关键的地方就在于如何构建模型的输入和输出。

以下所有完整示例代码均可从仓库 https://github.com/moon-hotel/BertWithPretrained 中获取!

2 模型构建

2.1 构建原理

正如前面所说,对于问答选择这个任务场景来说其本质上依旧可以归结为分类任务,只是关键在于如何构建这个任务以及整个数据集。对于问答选择这个场景来说,其整体原理如图1所示。

图 1. 问答选择原理图

如图1所示,是一个基于BERT预训练模型的四选一问答选择模型的原理图。从图中可以看出,原始数据的形式是一个问题和四个选项,模型需要做的就是从四个选项中给出最合理的一个,于是也就变成了一个四分类任务。同时,构建模型输入的方式就是将原始问题和每一个答案都拼接起来构成一个序列中间用[SEP]符号隔开,然后再分别输入到BERT模型中进行特征提取得到四个特征向量形状为[4,hidden_size],最后再经过一个分类层进行分类处理得到预测选项。值得一提的是,通常情况下这里的四个特征都是直接取每个序列经BERT编码后的[CLS]向量。

到此,对于问答选择整个模型的原理我们算是清楚了,下面首先来看如何构造数据集。

2.2 语料介绍

在这里,我们使用到的也是论文中所提到的SWAG(The Situations With Adversarial Generations )数据集[5] [6],即给定一个情景(一个问题或一句描述),任务是模型从给定的四个选项中预测最有可能的一个。

如下所示便是部分原始示例数据:

如上所示数据集中一共有12个字段包含两个样本,我们这里需要用到的就是sent1,ending0,ending1,ending2,ending3,label这6个字段。例如对于第一个样本来说,其形式如下:

同时,由于该数据集已经做了训练集、验证集和测试集(没有标签)的划分,所以后续我们也就不需要来手动划分了。

后台回复“数据集”即可获取网盘链接!

2.3 数据集预览

同样,在正式介绍如何构建数据集之前我们先通过一张图来了解一下整个大致构建的流程。假如我们现在有两个样本构成了一个batch,那么其整个数据的处理过程则如图2所示。

图 2. 问答选择数据集构建流程图

如图2所示,首先对于原始数据的每个样本(一个问题和四个选项),需要将问题同每个选项拼接在一起构造成为四个序列并添加上对应的分类符[CLS]和分隔符[SEP],即图中的第①步重构样本。紧接着需要将第①步构造得到的序列转换得到Token id并进行padding处理,此时便得到了一个形状为[batch_size,num_choice,seq_len]的三维矩阵,即图2中第2步处理完成后形状为[2,4,19]的结果。同时,在第②步中还要根据每个序列构造得到相应的attention_mask向量和token_types_ids向量(图中未画出),并且两者的形状也是[batch_size,num_choice,seq_len]

其次是将第②步处理后的结果变形成[batch_size*num_choice,seq_len]的二维形式,因为BERT模型接收输入形式便是一个二维的矩阵。在经过BERT模型进行特征提取后,将会得到一个形状为[batch_size*num_choice,hidden_size]的二维矩阵,最后再乘上一个形状为[hidden_size,1]的矩阵并变形成[batch_size,num_choice]即可完成整个分类任务。

2.4 数据集构建

在说完数据集构造的整理思路后,下面我们就来正式编码实现整个数据集的构造过程。同样,对于数据预处理部分我们可以继续继承之前文本分类处理的这个类LoadSingleSentenceClassificationDataset,然后再稍微修改其中的部分方法即可。同时,由于在前两个示例[3] [4]中已经就tokenize和词表构建等内容做了详细的介绍,所以这部分内容就不再赘述。

第1步:重构样本和Tokenize

如图2过程所示,需要对原始样本进行重构以及转换得到每个序列对应的Token id,下面首先是在data_process()函数中来定义如何读取原始数据:

在上述代码中,第1-4行用于继承之前的LoadSingleSentenceClassificationDataset类以及添加一个新的参数num_choice也就是分类数;第7-10行则是根据文件路径来读取原始数据并按对应字段取得问题和答案;第11-13行则是用来判断是否存在正确标签,因为测试集中不含有标签;max_len则是用来保存数据集中最长序列的长度。

下面则是进一步对数据进行处理:

在上述代码中,第3行为一个循环用来遍历每一个问题以及对应的答案;第5-6行是将原始问题根据词表转换为对应的Token id,同时在序列的起止位置分别加上[CLS][SEP]符号;第8-13行是将每个问题对应的四个选项转换为对应的Token id,以及保存最大序列的长度;第14-19行是用来构造对应的token_type_ids向量;第20-22行是分别将每一个问题以及对应的四个选项处理后的结果保存和返回最后的结果。注意,这里还没有将每个问题同对应的四个选项进行拼接。

第2步:拼接与padding

在处理得到每个问题以及对应选项的Token id和token_type_ids后,我们再来定义一个generate_batch()方法对每个batch中的数据集进行拼接和padding处理,代码如下:

在上述代码中,第3-7行的get_seq()方法用于根据传入的问题Token id和答案Token id拼接得到一个完整的Token id并将超过长度的部分进行截取;第8-13行则是将每个问题分别与其对应的四个选项进行拼接;第15-18行是分别构造得到每个问题与其对应的四个选项所形成的token_type_ids向量;最后3行则是保存每个Batch所有样本处理好的结果。

在完成上述处理后,接下来就是分别对各部分的输入进行padding处理并返回相应的结果,代码如下:

此处关于pad_sequence()函数的详细介绍可以参见文章[3]

第3步:使用示例

在完成上述两个步骤之后,整个数据集的构建就算是已经基本完成了,可以通过如下代码进行数据集的载入:

上述代码运行结束后的输出结果如下所示:

在上述结果中,其中第25-28行为根据Token id再转换为字符串后的结果。

到此,对于整个数据集的构建过程就介绍完了,下面掌柜开始继续介绍问答选择模型的实现内容。

3 问答选择模型

3.1 前向传播

正如第1节内容所介绍,我们只需要在原始BERT模型的基础上再加一个分类层即可,因此这部分代码相对来说也比较容易理解。首先需要定义一个类以及相应的初始化函数,如下:

在上述代码中,第8-11行便是根据相应的条件返回一个BERT模型,第13行则是定义了一个分类层。

然后再是定义完成整个前向传播过程,代码如下:

在上述代码中,第6-8行用于将三维的输入变成二维的输入(也就是图2中的第③步),这是因为BERT所接收的输入形式便是两个维度;同时根据需要还将src_len这个维度放到了最前面。第10-14行则是通过原始的BERT模型提取得到每个序列(指的是每个问题和其中一个选项所构成的序列,即图2中第③步后的每一行)的特征表示,其形状为[batch_size*num_choice, hidden_size];第16-17行则是先进行分类处理,然后再变形得到每个问题所对应预测选项的logits值,形状为[batch_size, num_choice];第18-23行则是根据相应的判断条件返回损失或者logits值。

3.2 模型训练

首先,我们需要定义一个ModelConfig类来对分类模型中的超参数以及其它变量进行管理,代码如下所示:

在上述代码中,第3-12行分别用来获取各个文件的所在路径;第13-19行则是设置模型对应的超参数;第20-33行则是日志打印的相关信息。

同时,为了展示训练时的预测结果,这里我们需要写一个函数来进行格式化:

在上述函数调用结束可以输出类似如下所示的结果:

最后,我们便可以通过如下方法完成整个模型的微调:

在上述代码中,第2-3行用来根据指定预训练模型的路径初始化一个基于BERT的文本分类模型;第9-18行则是载入相应的数据集;第20-44行则是整个模型的训练过程,完整示例代码可在仓库[7]中进行获取。

如下便是网络的训练结果:

到此,对于整个基于BERT预训练模型的SWAG数据集的问答模型就介绍完了!

5 总结

在这篇文章中,掌柜首先介绍了基于BERT网络的问答选择模型的基本思想,并详细地介绍了模型的构建原理;接着介绍了问答数据集SWAG的基本信息,以及如何一步一步地来构造整个数据集;最后详细介绍了选择模型的实现方式以及整个模型的训练过程。总的来讲,对于问答选择这一任务场景来说,只需要将每个问题与其对应的各个选项看成两个拼接在一起的序列,再输入到BERT模型中进行特征提取最后进行分类即可。在下一篇文章中,掌柜将会详细介绍如何在问题回答任务(即输入一段文本描述和一个问题,让模型给出答案在文本中的起止位置)场景下进行BERT预训练模型的微调。

本次内容就到此结束,感谢您的阅读!如果你觉得上述内容对你有所帮助,欢迎点赞转发分享!若有任何疑问与建议,请添加掌柜微信nulls8或加群进行交流。青山不改,绿水长流,我们月来客栈见

引用

[1]BERT原理与NSL和MLM

[2]BERT模型的分步实现

[3]基于BERT预训练模型的文本分类任务

[4]基于BERT预训练模型的文本蕴含任务

[5]https://rowanzellers.com/swag/

[6]https://github.com/rowanz/swagaf/tree/master/data

[7] https://github.com/moon-hotel/BertWithPretrained