"Set the shape to semi-transparent by calling set_trans(5)"标准分词器(默认使用)分词结果:set, the, shape, to, semi, transparent, by, calling, set_trans, 5POST _analyze...
这是一个基于n-Gram+CRF+HMM的中文分词的java实现。分词速度达到每秒钟大约200万字左右(mac air下测试),准确率能达到96%以上。目前实现了中文分词、中文姓名识别、用户自定义词典、关键字提取、自动摘要、关键字标记等...
这次我打算用一部127W字的小说——《天龙八部》作为数据示例,这样能更好表现出效率高不高!
Git地址:https://github.com/medcl/elasticsearch-analysis-pinyin