中文分词
中文分词的工具有:
中科院计算所 NLPIR、哈工大 LTP、清华大学 THULAC 、斯坦福分词器、Hanlp 分词器、jieba 分词、IKAnalyzer 等
其中 jieba 分词可以做下面这些事情:
1. 精确分词
试图将句子最精确地切开
2. 全模式
把句子中所有的可能是词语的都扫描出来,速度非常快,但不能解决歧义
3. 搜索引擎模式
在精确模式的基础上,对长词再次切分,提高召回率,适合用于搜索引擎分词
4. 用 lcut 生成 list
jieba.lcut 对 cut 的结果做了封装,l 代表 list,即返回的结果是一个 list 集合
5. 获取词性
jieba.posseg 模块实现词性标注
6. 获取分词结果中词列表的 top n
7. 自定义添加词和字典
使用默认分词,是识别不出一句话中的新词,需要添加新词到字典
8. 还可以做:
关键词提取、自动摘要、依存句法分析、情感分析等任务
学习资料:
《中文自然语言处理入门实战》