NLP(三十二)利用doccano进行文档标注
doccano是一个开源的文本标注工具,适合于机器学习和深度学习的使用者,提供了文档分类、序列标注和sequence to sequence任务的标注,操作简单,上手也快,界面友好,能够让你在几个小时内建立一个可实际训练的数据集。
doccano的Github访问网址为:https://github.com/doccano/doccano 。
安装方式
doccano的安装也比较简单,我们可以通过Docker很方便地完成安装。
首先,先从Github上下载该项目,命令如下:
1 |
|
接着,使用docker-compose来启动该项目,命令如下:
1 |
|
这时候docker-compose会先拉取镜像,然后在后台启动整个程序。
在浏览器中输入http://localhost:3000
即可访问该服务,首次创建项目需要输入账号和密码,在docker-compose.yml
文件中已经设置过了。
使用举例
本文将演示如何使用doccano来进行序列标注方面的人工标注。
首先我们创建一个标注项目,名称为example_tagging_platform
,项目类型选择Sequence Labeling
,如下页面:

假设我们需要标注的实体标签为时间
、人物
、职位
和公司
。我们可以先创建标签,选择标签颜色,如下页面:

其中的k,c,p,t分别是这些标签的标注快捷键,我们在真实标注的时候,选择好标注文字后再按这些快捷键可以快速完成标注。
接着我们上传标注文档。假设我们的标注文档格式为txt,一行就是一个标注样本,那么在Dataset选择上传数据(Import Dataset )的时候,可以选择Plain Text。当然也可以选择其它格式的上传文档,比如Json,但需要按照指定格式来。

我们上传的txt文档(a.txt)内容如下:
1 |
|
上传后的界面如下:

点击左上方的Start Annotation
即可开始标注。如下图:

当我们完成部分(或全部)数据的标注时,可以在Statistics
中查看标注文档数量,每个标签的标注数量以及每个用户的标注文档数量,如下页面:

本次演示到此结束。
笔者在实际使用的时候,发现doccano确实是一个不错的标注工具。它还有很多强大的功能,比如它可以记忆当前的标注文档,当你退出页面再次访问时,点击Start Annotation
按钮即可从上次标注的文档开始进行标注。同时,它还支持多人协同标注和检查机制,非常好用。
本次分享到此结束~
大家以后如果有文档标注的任务,不妨可以试试用doccano~
欢迎关注我的公众号NLP奇幻之旅,原创技术文章第一时间推送。
欢迎关注我的知识星球“自然语言处理奇幻之旅”,笔者正在努力构建自己的技术社区。
