西瓜书习题详解 机器学习能在互联网搜索的哪些环节起什么作用?

2021-12-07 13:51:50 浏览数 (1)

看完了西瓜书的第一章,课后习题有这个问题。我先将这个问题定义为:机器学习在搜索引擎上的应用

维基百科:搜索引擎(英语:Search Engine)是一种信息检索系统,旨在协助搜索存储在计算机系统中的信息。

1. 搜索引擎

我们先得明白搜索引擎都干了啥,然后看哪些部分可以用机器学习来提高用户体验的,下图出自:第 1 章 搜索引擎是如何工作的

构成搜索引擎的全部要素

1、文档管理器:存储作为检索对象的文档。当查询到相匹配的文档时,会取出该文档的一部分作为摘要。 2、索引构建器:从检索对象的文本文档中构建文本的索引。 3、索引管理器:管理带有索引结构的数据,索引结构是一种用于进行高速检索的数据结构。 4、索引检索器:利用用户的查询进行文本检索,并根据某种规则进行排序并将结果返回给应用。

除了以上的组建除外,一个完整的搜索引擎还包括:爬虫、搜索排序系统。

2. 机器学习对搜索引擎可进行哪些优化

根据搜索引擎的结构,我们可以进行以下的机器学习优化

  1. 文档管理器:生成更精准的摘要。本质就是文档摘要的自动生成,涉及神经网络、NLP。
  2. 索引构建器:索引构建已很成熟,但我发现仍有学者将机器学习应用于这部分,主要是用机器学习算法代替标准哈希函数,但效果还不太好。
  3. 索引管理器:暂无。
  4. 索引检索器:这里涉及查询与文本间的匹配,以及搜索结果的排序,也是直接面向用户的部分。

综上分析,我们主要来看索引检索器的部分,这部分可以有哪些优化呢:

  1. 搜索引擎直接给出搜索的答案:这里用到神经网络,它可以通过分析大量数据从而完成特定的任务,如从相关网页中获取长句子和段落,然后给出有关问题答案的信息。
  1. 直接进行图片、视频(等多元数据)的搜索:图片识别如今已经是常见的技术了,那直接从视频中提出信息呢?谷歌推出Video Intelligence API,不仅可以从视频中提取特定的信息,还能总结视频的脉络、记录视频中的场景,从而对视频进行准确的分类。
  2. 更精准的网页排序(也可成为「精准营销」的部分):如使用神经网络、决策树等为基础的网页排序算法:RankNet, LambdaRank 和 LambdaMART。2015年,谷歌推出RankBrain,它可以选择最适合当前搜索类型的结果,相当于为每个搜索都提供个性化的算法组合。
  3. 对用户行为进行综合分析(如历史搜索数据、点击模式、身份信息等进行结构化信息整合):更多使用在电子商务的搜索系统中。这在电商网站中的使用,应该是很流行的。
  4. 对话式智能交互搜索:如 Baidu 的语音搜索、利用 Siri 进行搜索又或者是 Google Assistant 等。涉及自然语言处理、知识图谱及神经网络等内容。
  1. 对垃圾网站和广告网页的筛选(模式识别):这部分可以用 Outlier 的检测来实现,尤其对以前的标题党,或者以前针对算法进行 SEO 的网站进行甄别。

最理想的模型应该是:搜索引擎**成为一个具备不断自我学习和改善的系统。**也就是将机器学习应用于搜索引擎的所有方面,一个全自动化的搜索引擎系统。

3. 目前的难点有哪些呢?

  1. 搜索引擎是否真正第理解自然语言查询词及文档的意义,还不得知。
  2. 仍需要大量的人工对相关数据进行标记,尤其需要大量的语言学家进行这方面的工作。
  3. 跨语言搜索精确度的问题,当然这部分也是机器学习能够改善的部分。
  4. 其他的自然语言遇到的问题,例如歧义等,讲到底还是语意的理解

0 人点赞