最新 最热

部分常用分词工具使用整理

HanLP是一系列模型与算法组成的NLP工具包,由大快搜索主导并完全开源,目标是普及自然语言处理在生产环境中的应用。HanLP具备功能完善、性能高效、架构清晰、语料时新、可自定义的特点。...

2019-05-29
0

初学者|分词的那些事儿

本文谈一谈分词的那些事儿,从定义、难点到基本方法总结,文章最后推荐一些不错的实战利器。

2019-05-29
0

初学者|知否?知否?一文学会Jieba使用方法

我始终觉得,入门学习一件事情最好的方式就是实践,加之现在python如此好用,有越来越多的不错nlp的python库,所以接下来的一段时间里,让我们一起来感受一下这些不错的工具。后面代码我均使用jupyter编辑。先来罗列一波:jieba...

2019-05-29
0

Mysql几种索引类型的区别及适用情况

即为全文索引,目前只有MyISAM引擎支持。其可以在CREATE TABLE ,ALTER TABLE ,CREATE INDEX 使用,不过目前只有 CHAR、VARCHAR ,TEXT 列上可以创建全文索引。值得一提的是,在数据量较大时候,现将数据放入一个没有全局索引的表...

2019-05-28
0

R语言︱文本挖掘之中文分词包——Rwordseg包(原理、功能、详解)

笔者寄语:与前面的RsowballC分词不同的地方在于这是一个中文的分词包,简单易懂,分词是一个非常重要的步骤,可以通过一些字典,进行特定分词。大致分析步骤如下:...

2019-05-28
0

R语言︱文本挖掘——jiabaR包与分词向量化的simhash算法(与word2vec简单比较)

版权声明:博主原创文章,微信公众号:素质云笔记,转载请注明来源“素质云博客”,谢谢合作!! https://blog.csdn.net/sinat_26917383/article/details/51068097...

2019-05-27
0

R语言实现︱局部敏感哈希算法(LSH)解决文本机械相似性的问题(二,textreuse介绍)

上一篇(R语言实现︱局部敏感哈希算法(LSH)解决文本机械相似性的问题(一,基本原理))讲解了LSH的基本原理,笔者在想这么牛气冲天的方法在R语言中能不能实现得了呢?...

2019-05-26
0

Solr搜索引擎 — 查询命令和两种中文分词使用

已经和mysql建立好了关联,可以查询和更新mysql的数据量,接下来就是进阶的使用方式了

2019-05-26
0

NLP+词法系列(一)︱中文分词技术小结、几大分词引擎的介绍与比较

版权声明:博主原创文章,微信公众号:素质云笔记,转载请注明来源“素质云博客”,谢谢合作!! https://blog.csdn.net/sinat_26917383/article/details/52275328...

2019-05-26
0

ACL2019 | 中文到底需不需要分词

AI 科技评论按,本文转载自微信号“香侬科技”,AI 科技评论获授权转载。近日,香侬科技发表论文Is Word Segmentation Necessary for Deep Learning of

2019-05-24
0