Elasticsearch6.0 IKAnalysis分词使用

2018-01-10 10:20:57 浏览数 (1)

Elasticsearch 内置的分词器对中文不友好，会把中文分成单个字来进行全文检索，不能达到想要的结果，在全文检索及新词发展如此快的互联网时代，IK可以进行友好的分词及自定义分词。

IK Analyzer是一个开源的，基于java语言开发的轻量级的中文分词工具包。从2006年12月推出1.0版，目前支持最新版本的ES6.X版本。

ik 带有两个分词器

ik_max_word：会将文本做最细粒度的拆分；尽可能多的拆分出词语

ik_smart：会做最粗粒度的拆分；已被分出的词语将不会再次被其它词语占有

1. 安装插件

如果是集群模式，则每个节点都需要安装ik分词，安装插件完毕后需要重启服务，创建mapping前如果有机器未安装分词，则可能该索引可能为RED，需要删除后重建。

2. 创建索引

可以使用CURL命令，6.0版本也可以在Kibana插件x-pack的DevTools中进行调试API

3. 创建mappiing

4. 创建文档

5. 查询文档

同时还支持热更新配置，配置remote_ext_dict为http地址，输入一行一个词语，注意文档格式要为UTF8无BOM格式，如果词库发生更新，只需要更新response header中任意一个字段Last-Modified或ETag即可。

github地址：

https://github.com/medcl/elasticsearch-analysis-ik

拼音分词

https://github.com/medcl/elasticsearch-analysis-pinyin

0 人点赞