阅读量: 68
本文es版本7.6.1 本文ik分词器版本7.6.1 es所在环境:ubuntu
神马是IK分词器?
分词:即把一段中文或者别的划分成一个个的关键字,我们在搜时候会把自己的信息进行分词,会把数据库中或者索引库中的数据进行分词,然后进行一个匹配操作,默认的中文分词是将每个字看成一个词,比如“我习惯记笔记学习”会被分为:
- 我
- 习
- 惯
- 记
- 笔
- 记
- 学
- 习
这显然是符合要求的,所以我们需要安装中文分词器IK来解决这个问题!
如果要使用中文,建议使用IK分词器!
IK提供了两个分词算法:ik_smart 和 ik_max_word ,其中 ik_smart 为最少切分,ik_max_word 为最细粒度划分!
如何安装?
下载地址:点我跳转
ik分词器版本大纲:点我跳转
下载完毕之后,放入到我们的es的 plugins 目录下即可即可!
重启es观察
进入es容器中,通过 elasticsearch-plugin 查看插件是否加载进来
使用 kibana 测试
查看不同的分词器效果
其中 ik_smart 为最少切分
ik_max_word 为最细粒度划分,穷尽所有可能!
问题
我们输入:我习惯记笔记学习
发现一个问题:记笔记学习,被拆开了!
这种情况,需要自己把关键词,加入到分词器的字典中!
IK分词器增加自己的配置
重启es看细节
若有多个dic,可以用 ; 分割
再次输入:我习惯记笔记学习 ,看下效果
以后的业务流程中,我们需要自己配置分词就在自定义的dic文件中进行配置即可!