最新 最热

Elasticsearch 8.X 分词插件版本更新不及时解决方案

球友在 ElasticSearch 版本选型问题中提及:如果要使用ik插件,是不是就使用目前最新的IK对应elasticsearch的版本“8.8.2”?

2023-10-25
3

asp.net 下的中文分词检索工具 - jieba.net

jieba是python下的一个检索库, 有人将这个库移植到了asp.net 平台下, 完全可以替代lucene.net以及盘古分词的搭配

2023-10-18
3

数据清洗:文本规范化

前面章节初步学习数据的采集和一些快速的数据分析方法,如果需要更加深入去做数据分析,那么会使用到更加丰富的知识。自然语言处理(NLP)的其中一个方向就是文本处理。后面两章节将讲解基础的文本分类的知识点,学习完成入门...

2023-09-02
2

使用 chatgpt 来做中文分词(续)

假设小龙女称杨过为过儿,请对下面这句话进行中文分词,注意不要漏字:来到杨过曾经生活过的地方,小龙女动情地说:“我也想过过过儿过过的生活。”...

2023-08-26
3

这个Python项目让古诗变得更易读,看完《长安三万里》惊艳了!

回家以后,我赶紧打开电脑,开发了一个给古诗注音的开源项目:pohan。实现的效果如下。

2023-08-02
4

应用jieba分词(java版)并提供jar包

huaban/jieba-analysis是java版本最常用的分词工具。github上很详细的介绍了使用方法。

2023-06-02
3

WordPress SEO 中文插件

众所周知,英文是以词为单位的,词和词之间是靠空格隔开,而中文是以字为单位,句子中所有的字连起来才能描述一个意思。例如,英文句子 I am a student,用中文则为:“我是一个学生”。计算机可以很简单通过空格知道 student 是一...

2023-04-14
3

使用 JavaScript 统计段落,单词,字符:Countable

Countable 是一个 JavaScript 函数,可以用来统计某个 HTML 元素中包含文本的段落数、单词数和字符数。不依赖于其他库,体积非常小。

2023-04-14
3

二维卷积中文微博情感分类项目

这里完成一个中文微博情感分类项目。这里我使用的数据集是从新浪微博收集的 12 万条数据,正负样本各一半。标签中 1 表示正面评论,0 表示负面评论。数据来源为https://github.com/SophonPlus/ChineseNlpCorpus/blob/mas...

2023-02-25
3