最新 最热

搜索引擎技术之概要预览

近些天在学校静心复习功课与梳理思路(找工作的事情暂缓),趁闲暇之际,常看有关搜索引擎相关技术类的文章,接触到不少此前未曾触碰到的诸多概念与技术,如爬虫,网页抓取,分词,索引,查询,排序等等,更惊叹于每一幅精彩的架构图,特此,便有...

2022-07-09
3

01 、Solr7.3.1 在Win10平台下使用jetty的部署及配置

Solr 是Apache下的一个顶级开源项目,采用Java开发,它是基于Lucene的全文搜索服务器。Solr提供了比Lucene更为丰富的查询语言,同时实现了可配置、可扩展,并对索引、搜索性能进行了优化...

2022-07-05
3

python停用词表整理_python停用词表

大家好,又见面了,我是你们的朋友全栈君。

2022-07-02
3

01_ElasticSearch学习笔记

如何能正确的显示出用户想要的商品,并进行合理的过滤,尽快促成交易,是搜索系统要研究的核心。面对这样复杂的搜索业务和数据量,使用传统数据库搜索就显得力不从心,一般我们都会使用全文检索技术。 常见的全文检索技术有 Lu...

2022-06-30
3

爱数课实验 | 第五期-基于机器学习方法的商品评论情感判定

简介:商品评论可以帮助购买用户更加了解产品,做出更优的购买决策,也可以帮助商家获知商品的优缺点,获取消费者的喜好。本次实验我们将学习中文商品情感判定,通过构建高斯朴素贝叶斯模型和SVM模型和对商品评论进行分类。...

2022-06-27
3

基于机器学习的文本分类算法的研究[通俗易懂]

文本分类的方法属于有监督的学习方法,分类过程包括文本预处理、特征抽取、降维、分类和模型评价。本文首先研究了文本分类的背景,中文分词算法。然后是对各种各样的特征抽取进行研究,包括词项频率-逆文档频率和word2vec,...

2022-06-27
3

自然语言处理 NLP(1)

NLP 自然语言:指一种随着社会发展而自然演化的语言,即人们日常交流所使用的语言; 自然语言处理:通过技术手段,使用计算机对自然语言进行各种操作的一个学科; NLP研究的内容词意消歧;指代理解;自动生成语言;机器翻译;人机对话系...

2022-06-15
2

基于Trie 树实现简单的中文分词

中文分词是中文自然语言处理的基础,中文分词的正确率如何直接影响后续的词性标注(也有些词性标注算法不需要事先分词,但标注效果往往比先分词后标注差),实体识别、句法分析、语义分析。常用的分词方法主要有依赖词典的机械...

2022-05-13
2

ik分词器

ik分词器出现的背景: 分词:即把一段中文或者别的划分成一个个的关键字,我们在搜索时候会把自己的信息进行分词,会把数据库中或者索引库中的数据进行分词,然后进行一个匹配操作, 默认的中文分词是将每个字看成一个词,比...

2022-05-13
3

《自然语言处理实战入门》 ---- 第4课 :中文分词原理及相关组件简介 之 语言学与分词技术简介...

《自然语言处理实战入门》 ---- 第4课 :中文分词原理及相关组件简介 之 语言学与分词技术简介

2022-05-10
2