为什么选择结巴分词
- 分词效率高
- 词料库构建时使用的是jieba (python)
结巴分词Java版本
- 下载
git clone https://github.com/huaban/jieba-analysis
- 编译
-
cd jieba-analysis
-
mvn install
- 注意
如果mvn版本较高,需要修改pom.xml文件,在plugins前面增加
或者直接下载jieba-analysis-1.0.2.jar:链接:https://pan.baidu.com/s/1kt3wE7v-hdrM_04asLyFGg 密码:boda
solr tokenizer版本
- https://github.com/sing1ee/analyzer-solr (solr 5)编译
./gladlew build
集成到solr
代码语言:javascript复制拷贝上面两个jar包到solr的目录下:server/solr-webapp/webapp/WEB-INF/lib