NLP(三十二)利用doccano进行文档标注

doccano是一个开源的文本标注工具,适合于机器学习和深度学习的使用者,提供了文档分类、序列标注和sequence to sequence任务的标注,操作简单,上手也快,界面友好,能够让你在几个小时内建立一个可实际训练的数据集。

doccano的Github访问网址为:https://github.com/doccano/doccano

安装方式

doccano的安装也比较简单,我们可以通过Docker很方便地完成安装。

首先,先从Github上下载该项目,命令如下:

1
2
$ git clone https://github.com/doccano/doccano.git
$ cd doccano

接着,使用docker-compose来启动该项目,命令如下:

1
docker-compose -f docker-compose.prod.yml up -d

这时候docker-compose会先拉取镜像,然后在后台启动整个程序。

在浏览器中输入http://localhost:3000即可访问该服务,首次创建项目需要输入账号和密码,在docker-compose.yml文件中已经设置过了。

使用举例

本文将演示如何使用doccano来进行序列标注方面的人工标注。

首先我们创建一个标注项目,名称为example_tagging_platform,项目类型选择Sequence Labeling,如下页面:

创建标注任务

假设我们需要标注的实体标签为时间人物职位公司。我们可以先创建标签,选择标签颜色,如下页面:

创建标签

其中的k,c,p,t分别是这些标签的标注快捷键,我们在真实标注的时候,选择好标注文字后再按这些快捷键可以快速完成标注。

接着我们上传标注文档。假设我们的标注文档格式为txt,一行就是一个标注样本,那么在Dataset选择上传数据(Import Dataset )的时候,可以选择Plain Text。当然也可以选择其它格式的上传文档,比如Json,但需要按照指定格式来。

上传文档

我们上传的txt文档(a.txt)内容如下:

1
2
3
4
“我们欣喜地看到,科创板和香港联交所推出了一系列改革和创新的举措,为新经济公司能更好地获得资本市场支持包括国际资本支持创造了良好条件,我们很高兴能有机会参与其中。”蚂蚁集团董事长井贤栋说。
720日,支付宝母公司蚂蚁集团宣布,启动在香港联合交易所有限公司主板寻求同步发行上市的计划,以进一步支持服务业数字化升级做大内需,加强全球合作助力全球可持续发展,以及支持公司加大技术研发和创新。
记者从官方获悉,小鹏汽车于今日宣布完成了近5亿美元(约35亿元人民币)C+轮融资,投资方包括Aspex、Coatue、高瓴资本和红杉中国等投资机构。
作为百度的总部,百度大厦于2009年11月17日投入使用,就承载了百度所有的辉煌。

上传后的界面如下:

上传后的界面

点击左上方的Start Annotation即可开始标注。如下图:

利用doccano进行标注

当我们完成部分(或全部)数据的标注时,可以在Statistics中查看标注文档数量,每个标签的标注数量以及每个用户的标注文档数量,如下页面:

标注统计

本次演示到此结束。

笔者在实际使用的时候,发现doccano确实是一个不错的标注工具。它还有很多强大的功能,比如它可以记忆当前的标注文档,当你退出页面再次访问时,点击Start Annotation按钮即可从上次标注的文档开始进行标注。同时,它还支持多人协同标注和检查机制,非常好用。

本次分享到此结束~

大家以后如果有文档标注的任务,不妨可以试试用doccano~

欢迎关注我的公众号NLP奇幻之旅,原创技术文章第一时间推送。

欢迎关注我的知识星球“自然语言处理奇幻之旅”,笔者正在努力构建自己的技术社区。


NLP(三十二)利用doccano进行文档标注
https://percent4.github.io/NLP(三十二)利用doccano进行文档标注/
作者
Jclian91
发布于
2023年7月10日
许可协议