最新 最热

【全文检索_03】Lucene 基本使用

在上一文 【全文检索_02】Lucene 入门案例 中我们使用 Lucene 默认分词器对中文版双城记进行分词,这个操作其实是有问题的。哎?!我们明明分词成功而且搜索到了啊,怎么会有问题。我们之前成功搜索是因为我们搜索的是一个关...

2021-02-01
0

数据挖掘与数据分析

数据挖掘和数据分析都是从数据中提取一些有价值的信息,二者有很多联系,但是二者的侧重点和实现手法有所区分。 数据挖掘和数据分析的不同之处: 1、在应用工具上,数据挖掘一般要通过自己的编程来实现需要掌握编程语言;而数...

2021-01-29
0

IK分词器详解

分词:即把一段中文或者别的划分成一个个的关键字,我们在搜索时候会把自己的信息进行分词,会把数据库中或者索引库中的数据进行分词,然后进行一个匹配操作,默认的中文分词器是将每个字看成一个词,比如"我爱技术"会被分...

2021-01-20
0

Python数据挖掘-NLTK文本分析+jieba中文文本挖掘

NLTK的全称是natural language toolkit,是一套基于python的自然语言处理工具集。

2021-01-15
0

ElasticSearch学习笔记(三)-可视化界面Kibana及ES中文分词配置

在之前的博客里面我们已经简单的讲解了ES的安装以及基本的增删改查,但是在讲解增删改查操作之前呢,忘记了一点就是教大家怎么安装 可视化界面Kibana .这里呢,跟大家讲一下....

2021-01-13
0

IKAnalyzer 中文分词的不同版本切词方式

最近公司在做一个题库的功能,需要用到 中文分词和公式分词的工具,最开始用 IKAnalyzer 2012F 版本 + lunece 6.5.1做了一版中文分词工具。具体如下:

2020-12-24
0

纯Python方案实现中英文全文搜索

在互联网上的各类网站中,无论大小,基本上都会有一个搜索框,用来给用户对内容进行搜索,小到站点搜索,大到搜索引擎搜索。

2020-12-07
0

弹幕挖掘在综艺节目热点分析中的应用初探

作者:黄耀鹏, 腾讯PCG数据分析工程师 |导语 视频弹幕作为视频内容延伸、以及用户喜好反馈的一部分,有着巨大的挖掘价值。本文旨在通过运用文本挖掘技术,从弹幕中挖掘综艺节目热点话题,助力平台精准把握用户消费偏好、提...

2020-12-02
0

Lucene 和 Kibana、ElasticSeach、Spring Data ElasticSearch

结构化数据 - 行数据,可以用二维表结构来逻辑表达实现的数据;指具有固定格式或有限长度的数据,如数据库,元数据等。

2020-12-02
0

docker(Elasticsearch和nacos)

首先进入到ES容器中, 然后进入到指定目录修改elasticsearch.yml文件

2020-11-16
0