搜索如何倒排索引?如何模糊匹配?

2021-12-17 11:53:52 浏览数 (1)

一、 索引数据结构

搜索引擎使用倒排索引来组织数据,比如源文档

代码语言:javascript复制
{"id":1,"title":"这是一张很贵的名画","tag":12345}
{"id":2,"title":"这是一幅相当贵的名画","tag":54321}

title 可以分词为

  • "这/是/一张/很/贵/名画/画”
  • "这/是/一幅/相当/贵/名画/画"("的"字作为停止词没有进入到索引)

分词得到的每一个词元,比如"画",称作一个term,那么倒排索引存储的数据将会变成:

title

tag

term

文档id

term

文档id

1,2

12345

1

1,2

54321

2

一张

1

一幅

2

1

相当

2

1,2

名画

1,2

1,2

二、搜索如何进行模糊匹配

搜索引擎使用倒排索引来进行模糊匹配,以上文为例,输入"很贵的画”搜索时:

首先输入词也进行分词"很/贵/画",然后用得到的term去和索引数据进行比对,得到:"很"->{1},“贵”->{1,2},"画"->{1,2},然后"很"∩"贵"∩"画"={1},得到文档1为结果,模糊匹配在索引内部都是通过分词后的term精确匹配来计算的

2.1 关于匹配度

es的match查询通常可以带匹配度(默认是75%),依旧输入"很贵的画",如果匹配度是100%,那么结果就是"很"∩"贵"∩"画"={1},如果匹配度降到75%(搜索词越短,75%的范围越模糊),那么结果(按正常理解)可以是("很"∩"贵)υ("贵"∩"画")υ("很"∩"画")={1,2}

2.2 关于短的搜索词

上面说到短的搜索词75%的匹配度很模糊,因为貌似es有个匹配度自动降级,短词搜索的时候匹配度会自动降到最低,只要有一个term匹配就可以当作结果。

还是上面的例子,输入"很贵的画",分词得到"很/贵/画",按照75%的匹配度,结果应该是("很"∩"贵)υ("贵"∩"画")υ("很"∩"画")={1,2},但是实际的搜索结果是"很"υ"贵"υ"画"={1,2}

0 人点赞