最新 最热

Sphinx&coreseek实现中文分词索引

众所周知,mysql等数据库的LIKE模糊搜索不支持索引,因此查询效率极低,需要结合第三方索引引擎程序(索引程序)来提高查询性能。

2018-10-11
1

hanlp自然语言处理包的基本使用--python

hanlp拥有:中文分词、命名实体识别、摘要关键字、依存句法分析、简繁拼音转换、智能推荐。

2018-10-08
0

工具 | jieba分词快速入门

全自动安装:easy_install jieba 或者 pip install jieba

2018-09-29
0

全文检索Solr集成HanLP中文分词

以前发布过HanLP的Lucene插件,后来很多人跟我说其实Solr更流行(反正我是觉得既然Solr是Lucene的子项目,那么稍微改改配置就能支持Solr),于是就抽空做了个Solr插件出来,开源在Github上,欢迎改进。...

2018-09-26
0

IK分词器访问远程词典功能实现

IKAnalyzer是一个开源的,基于java语言开发的轻量级的中文分词工具包。从2006年12月推出1.0版开始,IKAnalyzer已经推出了3个大版本。最初,它是以开源项目Luence为应用主体的,结合词典分词和文法分析算法的中文分词组件。新...

2018-09-26
1

(三)solr的dataimport的配置以及中文分词

并可以在apache-tomcat-7.0.73webappssolrWEB-INFclasses下新建自己的扩展词典

2018-09-19
0

NLP系统体系结构及主要流程

词性,也称为词类,是词汇的语法属性,是连接词汇到句法的桥梁。词性标注(Part-of-Speech Tagging或POS Tagging),又称为词类标注,是指判断出在一个句子中每个词所扮演的语法角色。...

2018-09-17
0

学习使用Jieba1.Jieba2. 特点3.功能4.安装5.使用6.其他中文分词工具

1.Jieba相信大多数知道NLP的人都知道什么是Jieba,但对于像我这样的新手而言,也仅限于知道而已,并没有学习过它,使用过它,打算用几天的时间来记录自己学习、使用Jieba的过程。jieba是一款开源的中文分词工具 github ,“结巴...

2018-04-11
0

达观数据NLP技术的应用实践和案例分析

达观文本挖掘系统整体方案达观文本挖掘系统整体方案包含了NLP处理的各个环节,从处理的文本粒度上来分,可以分为篇章级应用、短串级应用和词汇级应用。篇章级应用有六个方面,已经有成熟的产品支持企业在不同方面的文本挖...

2018-03-15
1

中文分词实践(基于R语言)

背景:分析用户在世界杯期间讨论最多的话题。思路:把用户关于世界杯的帖子拉下来,然后做中文分词+词频统计,最后将统计结果简单做个标签云.后续:中文分词是中文信息处理的基础,分词之后,其实还有特别多有趣的文本挖掘工作可以...

2018-03-14
0