NLP入门(七)中文预处理之繁简体转换及获取拼音
在日常的中文NLP中,经常会涉及到中文的繁简体转换以及拼音的标注等问题,本文将介绍这两个方面的实现。
首先是中文的繁简体转换,不需要使用额外的Python模块,至需要以下两个Python代码文件即可:
langconv.py 地址: https://raw.githubusercontent.com/skydark/nstools/master/zhtools/langconv.py
zh_wiki.py 地址:https://raw.githubusercontent.com/skydark/nstools/master/zhtools/zh_wiki.py
示例代码如下(将代码文件与langconv.py与zh_wiki.py放在同一目录下):
1 |
|
输出的结果如下:
台北市长柯文哲今在脸书开直播,先向网友报告自己3月16日至24日要出访美国东部4城市,接着他无预警宣布,2月23日要先出访以色列,预计停留4至5天。虽他强调台北市、以色列已在资安方面有所交流,也可到当地城市交流、参观产业创新等内容,但柯也说「也是去看看一个小国在这么恶劣环境,howtosurvive,他的祕诀是什么?」这番话,也被解读,颇有更上层楼、直指总统大位的思维。 憂郁的臺灣烏龜
接着是获取中文汉字的拼音,这方面的Python模块有xpinyin, pypinyin等。本文以xpinyin为例,展示如何获取汉字的拼音。示例代码如下:
1 |
|
输出结果如下:
1 |
|
本次分享到此结束,感谢大家阅读~
欢迎关注我的公众号NLP奇幻之旅,原创技术文章第一时间推送。欢迎关注我的知识星球“自然语言处理奇幻之旅”,笔者正在努力构建自己的技术社区。
NLP入门(七)中文预处理之繁简体转换及获取拼音
https://percent4.github.io/NLP入门(七)中文预处理之繁简体转换及获取拼音/