中文NLP笔记:2. 中文分词的工具 jieba

2019-01-28 11:41:04 浏览数 (1)

中文分词

中文分词的工具有

  中科院计算所 NLPIR、哈工大 LTP、清华大学 THULAC 、斯坦福分词器、Hanlp 分词器、jieba 分词、IKAnalyzer 等


其中 jieba 分词可以做下面这些事情:

  1. 精确分词

  试图将句子最精确地切开

  2. 全模式

  把句子中所有的可能是词语的都扫描出来,速度非常快,但不能解决歧义

  3. 搜索引擎模式

  在精确模式的基础上,对长词再次切分,提高召回率,适合用于搜索引擎分词

  4. 用 lcut 生成 list

  jieba.lcut 对 cut 的结果做了封装,l 代表 list,即返回的结果是一个 list 集合

  5. 获取词性

  jieba.posseg 模块实现词性标注

  6. 获取分词结果中词列表的 top n

  7. 自定义添加词和字典

  使用默认分词,是识别不出一句话中的新词,需要添加新词到字典

  8. 还可以做:

  关键词提取、自动摘要、依存句法分析、情感分析等任务


学习资料:

《中文自然语言处理入门实战》

0 人点赞