最新 最热

中文语言能力评测基准「智源指数」

智源指数排行榜提供多层次维度的评测方案,提供数据集、任务、能力得分,以及智源指数总体得分。智源指数根据标准基线模型(mT5-small)的得分,对参与评测模型的得分进行归一化(括号中显示),最大程度消除不同数据集和评测指标的...

2022-01-06
1

ElasticSearch 7.x.x IK分词器-安装及使用

分词:即把一段中文或者别的划分成一个个的关键字,我们在搜时候会把自己的信息进行分词,会把数据库中或者索引库中的数据进行分词,然后进行一个匹配操作,默认的中文分词是将每个字看成一个词,比如“我习惯记笔记学习”会被分...

2021-12-24
1

ElasticSearch集群安装及Java客户端使用

ElasticSearch的官方地址:https://www.elastic.co/guide/en/elasticsearch/reference/master/index.html

2021-11-26
2

全文搜索引擎技术详解之Apache Solr的使用

SolrSolr是一个可扩展的,可部署,搜索,存储引擎,优化搜索大量以文本为中心的数据库Solr是开源搜索平台,用于构建搜索应用程序建立在Lucene(全文搜索引擎)之上Solr是企业级的,快速的和高度可扩展的,使用Solr构建的应用...

2021-11-08
2

2021年大数据Spark(二十一):Spark Core案例-SogouQ日志分析

使用搜狗实验室提供【用户查询日志(SogouQ)】数据,使用Spark框架,将数据封装到RDD中进行业务数据处理分析。数据网址:http://www.sogou.com/labs/resource/q.php

2021-10-09
2

用 Python 分析领导讲话,原来隐藏了 "这些" 重要信息......

如何用 Python 分析领导讲话呢?正好庆祝中国共产党成立 100 周年大会,7 月 1 日上午在北京天安门广场隆重举行。中共中央总书记、国家主席、中央军委主席习近平发表重要讲话。...

2021-10-08
1

NLP BERT GPT等模型中 tokenizer 类别说明详解

在使用GPT BERT模型输入词语常常会先进行tokenize ,tokenize具体目标与粒度是什么呢?tokenize也有许多类别及优缺点,这篇文章总结一下各个方法及实际案例。...

2021-08-20
6

个人永久性免费-Excel催化剂功能第18波-在Excel上也能玩上词云图

原文在简书上发表,再同步到Excel催化剂微信公众号或其他平台上,文章后续有修改和更新将在简书上操作, 其他平台不作同步修改更新,因此建议阅读其他出处的文章时,尽可能跳转回简书平台上查看。...

2021-08-19
2

白话Elasticsearch29-IK中文分词之IK分词器配置文件+自定义词库

配置文件位置: ${ES_HOME}/plugins/ik/config/IKAnalyzer.cfg.xml

2021-08-17
1

Elasticsearch分词:自定义分词器

虽然Elasticsearch带有一些现成的分析器,然而在分析器上Elasticsearch真正的强大之处在于,你可以通过在一个适合你的特定数据的设置之中组合字符过滤器、分词器、词汇单元过滤器来创建自定义的分析器。...

2021-08-13
2