众所周知,mysql等数据库的LIKE模糊搜索不支持索引,因此查询效率极低,需要结合第三方索引引擎程序(索引程序)来提高查询性能。
hanlp拥有:中文分词、命名实体识别、摘要关键字、依存句法分析、简繁拼音转换、智能推荐。
全自动安装:easy_install jieba 或者 pip install jieba
以前发布过HanLP的Lucene插件,后来很多人跟我说其实Solr更流行(反正我是觉得既然Solr是Lucene的子项目,那么稍微改改配置就能支持Solr),于是就抽空做了个Solr插件出来,开源在Github上,欢迎改进。...
IKAnalyzer是一个开源的,基于java语言开发的轻量级的中文分词工具包。从2006年12月推出1.0版开始,IKAnalyzer已经推出了3个大版本。最初,它是以开源项目Luence为应用主体的,结合词典分词和文法分析算法的中文分词组件。新...
并可以在apache-tomcat-7.0.73webappssolrWEB-INFclasses下新建自己的扩展词典
词性,也称为词类,是词汇的语法属性,是连接词汇到句法的桥梁。词性标注(Part-of-Speech Tagging或POS Tagging),又称为词类标注,是指判断出在一个句子中每个词所扮演的语法角色。...
1.Jieba相信大多数知道NLP的人都知道什么是Jieba,但对于像我这样的新手而言,也仅限于知道而已,并没有学习过它,使用过它,打算用几天的时间来记录自己学习、使用Jieba的过程。jieba是一款开源的中文分词工具 github ,“结巴...
达观文本挖掘系统整体方案达观文本挖掘系统整体方案包含了NLP处理的各个环节,从处理的文本粒度上来分,可以分为篇章级应用、短串级应用和词汇级应用。篇章级应用有六个方面,已经有成熟的产品支持企业在不同方面的文本挖...
背景:分析用户在世界杯期间讨论最多的话题。思路:把用户关于世界杯的帖子拉下来,然后做中文分词+词频统计,最后将统计结果简单做个标签云.后续:中文分词是中文信息处理的基础,分词之后,其实还有特别多有趣的文本挖掘工作可以...