首先,我们知道倒排索引的原理,我们需要构建一个单词词典,但是这个词典里面的数据怎么来呢?我们需要对输入的东西进行分词。这个ES
已经考虑过了,所以它内置了一些分词器,但是中国文化,博大精深
,有时候自己断句都会有误差,所以我们会用一些国人的插件进行中文分词。这篇文章的重点也就是介绍ES
分词原理、内置分词和中文分词。
ES分词是如何实现?
Analysis(分析)
是通过Analyzer(分析器)
实现的,分析也是有步骤的,所以我们说一下Analyzer
的组成。
分词器主要由三部分组成:
- Character Filters 字符过滤器 比方说
剔除html代码
、特殊符号
等等,可以有多个字符过滤器 - Tokenizer 分词器 对语句进行
分词
,只能有一个 - Token Filter token过滤器 对词
进行过滤
、或者转小写
、等等,可以有多个token filter,依次执行
ES内置分词器分析
我们知道了分词器的组成,只需要再知道它的一些实现即可。我们也列出来方便查看
- standard
默认的分词器,按词分类并且小写处理。这个我们举个例子,其余大家照葫芦画瓢就行
我这里是利用Kibana
的dev tool
进行api
调试,大家也可以用postman
等工具进行测试。ES
提供_analyze api
来测试分词。
GET _analyze
{
"analyzer": "standard", # 分词器
"text": "The quick brown fox." # 输入的语句
}
- simple
安照非字母切分,不是字母就剔除了,包括标点符号数字等,并对单词进行小写处理
- stop
对输入进行小写处理,并将停用词过滤,例如这些单词(the,a, is)
- whitespace
按空格切分
- keyword
不分词,当成一整个 term
输出
- pattern
通过正则表达式进行分词,默认是 W (非字母进行分隔)
- Language
举个例子按英文拆分,它支持不同的语言,例如:arabic, armenian, basque, bengali, bulgarian, catalan, czech, dutch, english, finnish, french, galician, german, hindi, hungarian, indonesian, irish, italian, latvian, lithuanian, norwegian, portuguese, romanian, russian, sorani, spanish, swedish, turkish.
代码语言:javascript复制#english
GET _analyze
{
"analyzer": "english",
"text": "I'm Aoppp 憧憬"
}
上面例子典型对中文就不太友好,中文分词要比英文分词难,英文都以空格分隔,中文理解通常需要上下文理解才能有正确的理解,比如 [苹果,不大好吃]和[苹果,不大,好吃],这两句意思就不一样。
中文分词
这个中文分词插件也不少,我也列举一些给大家。
- analysis-icu
地址:https://github.com/elastic/elasticsearch-analysis-icu
直接安装就行 bin/plugin install analysis-icu
- analysis-ik
地址:https://github.com/medcl/elasticsearch-analysis-ik
IK Analysis
插件将Lucene IK
分析器集成到elasticsearch
中,支持自定义词典。
- elasticsearch-thulac-plugin
地址:https://github.com/microbun/elasticsearch-thulac-plugin
THULAC(THU Lexical Analyzer for Chinese)由清华大学自然语言处理与社会人文计算实验室研制推出的一套中文词法分析工具包,具有中文分词和词性标注功能。
这里的话ik
还不错,可以自定义词典等等,我来用它举个例子吧
安装
这里我的ES
是7.6的,你们要安装对应版本改一下就行
./bin/elasticsearch-plugin install https://github.com/medcl/elasticsearch-analysis-ik/releases/download/v7.6.0/elasticsearch-analysis-ik-7.6.0.zip
安装完成重启一下ES
效果
代码语言:javascript复制GET _analyze
{
"analyzer": "ik_max_word", # 穷进可能
"text": "这是憧憬的技术分享博客啊"
}
比因为的单字拆分还是漂亮。