最新 最热

北大开源分词工具包: 准确率远超THULAC、jieba 分词

pkuseg 是由北京大学语言计算与机器学习研究组研制推出的一套全新的中文分词工具包。pkuseg 具有如下几个特点:

2019-12-05
0

初学者 | 分词的那些事儿

本文谈一谈分词的那些事儿,从定义、难点到基本方法总结,文章最后推荐一些不错的实战利器。

2019-11-19
0

NLP入门实战:一文教会你完整机器处理流程

无论是初入 AI 行业的新人,还是想转行成为 AI 领域的技术工程师,都可以在本篇文章中,收获入门 NLP 和实战的相关知识。

2019-11-19
0

NLP入门+实战必读:一文教会你完整机器处理流程

无论是初入 AI 行业的新人,还是想转行成为 AI 领域的技术工程师,都可以在本篇文章中,收获入门 NLP 和实战的相关知识。

2019-11-19
0

不知道给女朋友买什么 ?让爬虫告诉你 !

你是否曾经遇到过要给女朋友、父母、好朋友送礼物却不知道买什么的情况?小编作为一个直男,每次都在给朋友选礼物的事情上费劲脑筋,实在是不知道买什么东西好。但事情总是要解决,小编萌生了一个想法,在某购物网站搜索关键字...

2019-11-12
0

中文预训练模型ZEN开源,效果领域内最佳,创新工场港科大出品

而且现在,ZEN开源了。源代码和训练好的模型均已发布,未来还承诺会有更大数据和其他语言版本迭代上新。

2019-11-12
0

学界 | 北大开源中文分词工具包 pkuseg

考虑到 jieba 分词和 THULAC 工具包等并没有提供细领域的预训练模型,为了便于比较,开发团队重新使用它们提供的训练接口在细领域的数据集上进行训练,用训练得到的模型进行中文分词。他们选择 Linux 作为测试环境,在新闻数...

2019-10-31
0

Elasticsearch 6.x版本全文检索学习之倒排索引与分词、Mapping 设置

1、Elasticsearch的常见术语。注意:Elasticsearch6.x版本以后概念发生了变化。

2019-10-30
0

基于LSTM搭建文本情感分类的深度学习模型:准确率95%

传统的基于情感词典的文本情感分类,是对人的记忆和判断思维的最简单的模拟,如上图。我们首先通过学习来记忆一些基本词汇,如否定词语有“不”,积极词语有“喜欢”、“爱”,消极词语有“讨厌”、“恨”等,从而在大脑中形成一...

2019-10-28
0

ElasticSearch安装中文分词器IK

1、安装IK分词器,下载对应版本的插件,elasticsearch-analysis-ik中文分词器的开发者一直进行维护的,对应着elasticsearch的版本,所以选择好自己的版本即可。IKAnalyzer中文分词器原作者已经不进行维护了,但是Lucece在不断...

2019-10-23
1