最新 最热

Elasticsearch分词:内置分词器

"Set the shape to semi-transparent by calling set_trans(5)"标准分词器(默认使用)分词结果:set, the, shape, to, semi, transparent, by, calling, set_trans, 5POST _analyze...

2021-08-13
2

Elasticsearch分词:Ansj分词器

这是一个基于n-Gram+CRF+HMM的中文分词的java实现。分词速度达到每秒钟大约200万字左右(mac air下测试),准确率能达到96%以上。目前实现了中文分词、中文姓名识别、用户自定义词典、关键字提取、自动摘要、关键字标记等...

2021-08-13
2

用Python分析领导讲话,原来隐藏了 "这些" 重要信息......

如何用Python分析领导讲话呢?正好庆祝中国共产党成立100周年大会,7月1日上午在北京天安门广场隆重举行。中共中央总书记、国家主席、中央军委主席习近平发表重要讲话。...

2021-08-09
1

Python实战 | 100毫秒过滤一百字万字文本的停用词

这次我打算用一部127W字的小说——《天龙八部》作为数据示例,这样能更好表现出效率高不高!

2021-08-09
1

ES 基础知识点总结

在传统的数据库中,如果使用某列记录某件商品的标题或简介。在检索时要想使用关键词来查询某个记录,那么是很困难的,假设搜索关键词 "小米",那么 sql 语句就是...

2021-07-22
2

自然语言处理(NLP)——简介

自然语言处理(NLP Natural Language Processing)是一种专业分析人类语言的人工智能。就是在机器语⾔和⼈类语言之间沟通的桥梁,以实现人机交流的目的。 在人工智能出现之前,机器智能处理结构化的数据(例如Excel里的数据)。但...

2021-07-19
1

Elasticsearch分词:拼音分词器

Git地址:https://github.com/medcl/elasticsearch-analysis-pinyin

2021-07-16
2

文本分析之gensim处理文本【语料库与词向量空间】

文本分析是指对文本的表示及其特征项的选取;文本分析是文本挖掘、信息检索的一个基本问题,它把从文本中抽取出的特征词进行量化来表示文本信息。文本(text),与 讯息(message)的意义大致相同,指的是由一定的符号或符码组成的信...

2021-07-09
1

如何生成自定义的逆向文件频率(IDF)文本语料库

jieba分词中,关键词提取使用逆向文件频率文本语料库时,除了使用现有的语料库外,还可以自定义生成文本语料库。

2021-06-24
1

Jieba中文分词 (二) ——词性标注与关键词提取

上一篇jieba中文分词(一)分词与自定义字典已介绍了jieba中文分词安装,分词原理,分词方法,自定义字典,添加字典等多种常用分词方法。本篇将继续介绍jieba分词关键词提取、词性标注、及常见问题。...

2021-06-24
1