最新 最热

【NLP自然语言处理】文本处理的基本方法

jieba是一个流行的中文分词工具,它能够将一段中文文本切分成有意义的词语。jieba是目前Python中最常用的中文分词库之一,具有简单易用、高效准确的特点。...

2024-09-10
5

【自然语言处理】统计中文分词技术(一):1、分词与频度统计

本质上是字符串匹配的方法,将一串文本中的文字片段和已有的词典进行匹配,如果匹配到,则此文字片段就作为一个分词结果。 1)正向最大匹配法(从左到右的方向); 2)逆向最大匹配法(从右到左的方向); 3)最小切分(每一句中切出的词数最小...

2024-07-30
2

Elasticsearch分词

Elasticsearch搜索中比较重要的就是分词了,通过分词将内容拆分成不同的关键词,然后通过关键词的匹配度来打分排序选择结果,Elasticsearch默认是支持分词的,但是对中文的分词就可想而知了,所以中文分词需要自行安装差件,推荐...

2024-07-22
4

.NET 使用 Jieba.NET 库实现中文分词匹配

中文文本通常没有像英文那样的明确分隔符,因此需要使用分词技术将连续的汉字序列切分成有意义的词语。

2024-05-11
2

中文分词 - 正向最大匹配

上面方法虽然可行,但是当字符串长度特别长的时候耗时比较久,性能上有一些缺陷,这时候我们可以利用前缀字典进行优化,提高代码执行效率

2024-04-30
2

ES中文检索须知:分词器与中文分词器

分词即为将doc通过Analyzer切分成一个一个Term(关键字),es分词在索引构建和数据检索时均有体现:

2024-04-22
3

Python selenium爬取影评生成词云图

运行命令 pip install selenium jieba wordcloud matplotlib numpy 进行下载

2024-02-29
3

Lucene5.5学习(6)-Analyzer中文分词IKAnalyzer与paoding

中文分词(Chinese Word Segmentation) 指的是将一个汉字序列切分成一个一个单独的词。分词就是将连续的字序列按照一定的规范重新组合成词序列的过程。我们知道,在英文的行文中,单词之间是以空格作为自然分界符的,而中文...

2023-11-18
3

ElasticSearch实战指南必知必会:安装中文分词器、ES-Python使用、高级查询实现位置坐标搜索以及打分机制

elasticsearch 提供了几个内置的分词器:standard analyzer(标准分词器)、simple analyzer(简单分词器)、whitespace analyzer(空格分词器)、language analyzer(语言分词器)...

2023-11-03
3

Docker 安装7.12.1版本ElasticSearch、Kibana及中文分词器

好久没有更文,先给广大读者致个歉!最近新找了工作,新工作前面的试用期几乎全力投入工作中去了,另外自己这段时间也在研究一些开源项目,在笔者本为了跑起来花时间填了不少坑,以致于公众号更文的事情被一推再推而被耽误就是一...

2023-11-01
4