最新 最热

Python Jieba库

NLP(自然语言)领域现在可谓是群雄纷争,各种开源组件层出不穷,其中一支不可忽视的力量便是 jieba 分词,号称要做最好的 Python 中文分词组件。

2022-03-29
3

【深度学习】自然语言处理

NLP(Nature Language Processing,自然语言处理)是计算机学科及人工智能领域一个重要的子学科,它主要研究计算机如何处理、理解及应用人类语言。所谓自然语言,指人说的话、人写的文章,是人类在长期进化过程中形成的一套复杂...

2022-03-20
2

搜索引擎配置优化笔记 - 老板的讲课

2.索引 (正向索引 -> like %key% ; 反向索引 -> 先建关键词列表)

2022-03-16
3

由浅到深,入门搜索原理

SkrShop系列终于更新了,本次带来电商搜索页面的介绍,本电商搜索系列分为两篇文章:

2022-03-14
2

elasticsearch中文分词器ik-analyzer安装

前面我们介绍了Centos安装elasticsearch 6.4.2 教程,elasticsearch内置的分词器对中文不友好,只会一个字一个字的分,无法形成词语,别急,已经有大拿把中文分词器做好了,elasticsearch配套的ik-analyzer,我们一起来看看如何安...

2022-03-14
3

关于自然语言处理系列-分词

在英文中单词之间是以空格作为自然分界符的,大多数情况下一个字即一个词;而中文分词则缺乏形式上的分界符,词以双字或多字组合居多。

2022-03-11
3

中文分词器 jcseg 和 IK Analyzer

在 lucene 的开发过程中,常常会遇到分词时中文识别的问题,lucene提供了 lucene-analyzers-common-5.0.0.jar包来支持分词,但多的是对英语,法语,意大利语等语言的支持,对中文的支持不太友好,因此需要引入中文分词器。...

2022-03-08
3

全文搜索引擎技术详解之Apache Solr的使用

Solr是Lucene的Java API包装,使用Solr,就可以使用Lucene的所有功能

2022-01-22
2

中文世界又多一个评测语言大模型能力的基准CUGE,覆盖17种主流NLP任务

在自然语言处理(NLP)领域,预训练模型刷榜已经成为行业惯例。目前,面向英文任务的评测基准有 GLUE、SuperGLUE,面向中文任务的有 ChineseGLUE(简称 CLUE)。...

2022-01-20
2

4 ElasticSearch 中文分词器 (Elastic 技术栈)

这样我们古诗就变成 床、前、明、月、光了。加入我们搜索“月光”,就很尴尬只能通过合并集来得到”月光”这个词汇。下图就是相关的分词结果:

2022-01-14
3