NLP(五十三)抽取式词义消歧(WSD)
在文章NLP入门(九)词义消岐(WSD)的简介与实现中,笔者介绍了词义消歧的含义以及如何使用简单的算法来实现词义消歧。在本文中,笔者将介绍如何使用抽取式NLP模型来实现词义消歧(WSD),模型灵感来源于论文ExtEnD: Extractive Entity Disambiguation。
所谓词义消岐,指的是在特定的语境中,识别出某个歧义词的正确含义,即通常所说的一词多义。比如,苹果一词在句子我今天吃了一个苹果
和句子苹果手机好用吗?
中的含义是不同的,词义消歧需要对同一词语判断其在特定语境下的含义。词义消歧与实体链接有分别又有联系,后面将会介绍。
在通常的NLP模型中,常常会把词义消歧任务当做文本分类去完成,取得了不错的效果。但论文ExtEnD: Extractive Entity Disambiguation提出了一种新的范式,它通过抽取式NLP模型(即阅读理解模型)来完成词义消歧,也取得了不错的效果。
词义消歧与实体链接
应当说,词义消歧
属于实体链接
中的一部分。在实体链接(Entity
Linking)任务中,一般分为三个阶段:
- 实体识别
- 候选词生成
- 候选词匹配
在词义消歧中,同一词语的不同义项会作为候选词生成,在第三阶段的候选词匹配找到最接近的那个义项。我们以实体本草纲目
为例,其在百度百科中共有15个义项,如下:
在特定的句子中,本草纲目的具体含义是可以确定的,看下面的例子:
在上述句子中,本草纲目
的正确义项应该是中医典籍,这是一个典型的实体链接任务,也可当作词义消歧任务。
个人观点是,实体链接一般是将实体
链接至图谱中的正确实体,而词义消歧稍微有点区别,绝大多数词语是图谱中的实体,但也有少部分仅仅是词语,而不是实体,比如汉语词语清风、指针等。因此,词义消歧可以通过实体链接很好地实现,但本文仅讨论如何通过抽取式NLP模型(新的范式)来实现词义消歧,以期该模型能在新的数据上有较好的表现。
数据介绍
截止今日,笔者通过假期时间,共构建了26个词语,327个义项,2889条标注样本。绝大多数样本均来自于百度百科。每个样本均会给出文本、mention(待消歧词语)、正确义项以及url(正确义项对应网址),比如:
文本 | mention | 正确义项 | url |
---|---|---|---|
药圣李时珍和他的《本草纲目》 | 本草纲目 | 中医典籍 | https://baike.baidu.com/item/本草纲目/15342 |
将标注数据划分为训练集和测试集,比例为8:2,训练集共有个2233样本,测试集共有656个样本。
模型输入如下图:
文本中的mention需要用特殊符号标识出来,比如用<e>
和</e>
标识,候选集集合组合输入为下一句,将</ec>
标识添加至每个义项的结尾。
模型
一般使用文本多分类
或者文本多标签文本
这个模型范式来进行正确义项匹配。本文借鉴Sapienza NLP Group, Sapienza University of Rome
在ACL2022论文《ExtEnD:
Extractive Entity
Disambiguation》中给出的抽取式模型,使用较为简单的阅读理解模型(MRC)来实现。模型结构如下图所示:
对标注数据进行模型训练,文本最大长度为500,batch
size取16,训练12轮次,学习率取0.00001,在测试集上的Exact Match
为0.9029。
模型预测
1. 在原有词语义项上的预测结果
我们对标注过的词语苹果
进行预测,其百度百科义项为:
随便选取两个网上的句子进行消歧,结果如下:
文本:【苹果的做法大全_苹果怎么做好吃_菜谱大全】_下厨房 正确义项:蔷薇科苹果属植物
苹果2022财年Q2业绩:手机业务增长亮眼 转型初见成效-股票... 正确义项:苹果产品公司
2. 在新词语义项上的预测结果
我们对未标注过的词语南京
进行预测,其百度百科义项为:
随便选取两个网上的句子进行消歧,结果如下:
文本:南京的饮食以金陵菜著名,金陵菜是指以南京为中心,一直延伸到江西九江的菜系,是苏菜的四大代表菜之一。 正确义项:江苏省辖地级市、省会
文本:影片制片人莱昂西斯是在2004年萌发拍摄纪录片《南京》的念头的。 正确义项:美国2007年雨果·阿姆斯特朗主演的电影
我们对未标注过的词语平凡的世界
进行预测,其百度百科义项为:
随便选取两个网上的句子进行消歧,结果如下:
文本:《平凡的世界》:永恒的魅力--文史--中国作家网 正确义项:路遥著长篇小说
文本:《平凡的世界》的主演是谁 正确义项:2015年王雷、佟丽娅、袁弘主演电视剧
我们对未标注过的词语碧血剑
进行预测,其百度百科义项为:
随便选取两个网上的句子进行消歧,结果如下:
文本:《碧血剑》是当代作家金庸先生的长篇武侠小说。大家都知道金庸老先生的著名小说都被翻拍成了电视剧,《碧血剑》也不例外。 正确义项:金庸创作长篇小说
文本:2000年版《碧血剑》是由李添胜监制,林家栋、佘诗曼、江华领衔主演的古装武侠电视剧。故事还原度并不是很高,这部剧中我真的很喜欢佘诗曼扮演的阿九啊! 正确义项:2000年香港TVB版林家栋主演电视剧
总结
本项目已经开源至Github,网址为:https://github.com/percent4/WSD_With_Text_Extraction。
如有任何疑问,欢迎交流~
欢迎关注我的公众号NLP奇幻之旅,原创技术文章第一时间推送。欢迎关注我的知识星球“自然语言处理奇幻之旅”,笔者正在努力构建自己的技术社区。