最新 最热

做项目一定用得到的NLP资源【分类版】

原文链接:https://github.com/fighting41love/funNLP

2022-09-20
3

使用hmmlearn框架实现中文分词

隐马尔可夫模型(Hidden Markov Model,HMM)是统计模型,它用来描述一个含有隐含未知参数的马尔可夫过程。其难点是从可观察的参数中确定该过程的隐含参数。然后利用这些参数来作进一步的分析,例如模式识别。...

2022-09-19
2

NLP-结巴分词

结巴分词是有国内程序员(https://github.com/fxsjy/jieba)做的一个分词工具,刚开始是Python版本的,后来由anderscui(https://github.com/anderscui/jieba.NET )移植到.Net上面。...

2022-09-12
2

数据挖掘与数据分析[通俗易懂]

数据挖掘和数据分析都是从数据中提取一些有价值的信息,二者有很多联系,但是二者的侧重点和实现手法有所区分。 数据挖掘和数据分析的不同之处: 1、在应用工具上,数据挖掘一般要通过自己的编程来实现需要掌握编程语言;而...

2022-09-06
3

python jieba库_Python jieba库的使用说明「建议收藏」

txt= open(“D:\三国演义.txt”, “r”, encoding=’utf-8′).read()

2022-08-31
2

【Python | 词云】聊天记录绘制超美词云(七夕快乐 ,曾同学)

本次聊天记录是收集于我和曾同学QQ一年以来的聊天记录,一起看看你们情侣间说过最多的是哪句话吧!

2022-08-23
2

Elasticsearch之IKAnalyzer

通过测试结果我们可以发现,使用标准分词器的分词结果,是去掉标点符号,然后一个一个字符来分词,这就是我们上一章提到的中文搜索的问题,这显然不是我们想要的分词效果,接下来我们来看中文分词器。...

2022-08-12
2

使用Redisearch实现的全文检索功能服务

“检索”是很多产品中无法绕开的一个功能模块,当数据量小的时候可以使用模糊查询等操作凑合一下,但是当面临海量数据和高并发的时候,业界常用 elasticsearch 和 lucene 等方案,但是elasticsearch对运行时内存有着最低限额...

2022-08-08
2

Sphinx + Coreseek 实现中文分词搜索

全文检索是数据库的有力补充,全文检索并不能替代数据库在应用系统中的作用。当应用系统的数据以大量的文本信息为主时,採用全文检索技术能够极大的提升应用系统的价值。...

2022-07-20
2

Elasticsearch 学习笔记

es提供了一个测试分词的 api 接口,方便验证分词效果,endpoint 是 _analyze

2022-07-17
2