中文分词_字节宝

Elasticsearch 8.X 分词插件版本更新不及时解决方案

球友在 ElasticSearch 版本选型问题中提及：如果要使用ik插件，是不是就使用目前最新的IK对应elasticsearch的版本“8.8.2”？

中文分词 elasticsearch 插件解决方案源码

2023-10-25

asp.net 下的中文分词检索工具 - jieba.net

jieba是python下的一个检索库, 有人将这个库移植到了asp.net 平台下, 完全可以替代lucene.net以及盘古分词的搭配

中文分词 asp jieba 工具交换机

2023-10-18

数据清洗：文本规范化

前面章节初步学习数据的采集和一些快速的数据分析方法，如果需要更加深入去做数据分析，那么会使用到更加丰富的知识。自然语言处理（NLP）的其中一个方向就是文本处理。后面两章节将讲解基础的文本分类的知识点，学习完成入门...

中文分词规范化模型数据数据清洗

2023-09-02

使用 chatgpt 来做中文分词（续）

假设小龙女称杨过为过儿，请对下面这句话进行中文分词，注意不要漏字：来到杨过曾经生活过的地方，小龙女动情地说：“我也想过过过儿过过的生活。”...

中文分词 chatgpt 工程师模型算法

2023-08-26

这个Python项目让古诗变得更易读，看完《长安三万里》惊艳了！

回家以后，我赶紧打开电脑，开发了一个给古诗注音的开源项目：pohan。实现的效果如下。

中文分词 python长安三万里电影开源 Github

2023-08-02

应用jieba分词（java版）并提供jar包

huaban/jieba-analysis是java版本最常用的分词工具。github上很详细的介绍了使用方法。

Java 中文分词 jar

2023-06-02

WordPress SEO 中文插件

众所周知，英文是以词为单位的，词和词之间是靠空格隔开，而中文是以字为单位，句子中所有的字连起来才能描述一个意思。例如，英文句子 I am a student，用中文则为：“我是一个学生”。计算机可以很简单通过空格知道 student 是一...

中文分词 wordpress seo 插件日志

2023-04-14

使用 JavaScript 统计段落，单词，字符：Countable

Countable 是一个 JavaScript 函数，可以用来统计某个 HTML 元素中包含文本的段落数、单词数和字符数。不依赖于其他库，体积非常小。

JavaScript HTML 中文分词函数统计

2023-04-14

二维卷积中文微博情感分类项目

这里完成一个中文微博情感分类项目。这里我使用的数据集是从新浪微博收集的 12 万条数据，正负样本各一半。标签中 1 表示正面评论，0 表示负面评论。数据来源为https://github.com/SophonPlus/ChineseNlpCorpus/blob/mas...

Python 中文分词 import jieba

2023-02-25

如果还不会Elasticsearch这七个问题那么你的Elasticsearch白学

答：elasticsearch-6.8.15binelasticsearch.bat

ElasticsearchService 中文分词

2023-02-24

1 2 3 4 5