最新 最热

Gensim如何冻结某些词向量进行增量训练

比如像是Word2Vec,我们通过简单的几行代码就可以实现词向量的生成,如下所示:

2021-11-24
2

从EMD、WMD、WRD:文本向量序列的相似度计算

在NLP中,我们经常要比较两个句子的相似度,其标准方法是将句子编码为固定大小的向量,然后用某种几何距离(欧氏距离、cos距离等)作为相似度。这种方案相对来说比较简单,而且检索起来比较快速,一定程度上能满足工程需求...

2021-05-27
1

self-attention 的本质

self-attention 的本质就是从一个矩阵生成三个新的矩阵,这三个矩阵分别记作 qkv,然后将 q 乘以 k 的转置,得到的结果再与 v 相乘,再将最后得到的结果送入下游任务。因此实际上任何网络都可以融入 self-attention,生成三个...

2021-05-12
1

pyspark做Item2vec

Item2vec 是基于自然语言处理模型 Word2vec 提出的,所以 Item2vec 要处理的是类似文本句子的观影序列:

2021-03-20
1

基于梯度下降的单词向量化

情感分析是一个必不可少的工具,用于许多不同的任务。这包括从基于tweets预测股市情绪,到预测客户自动生成响应。Google的Word2Vec运行良好,但有一个很大的问题。...

2020-12-29
2

conceptnet-numberbatch: 结合常识知识的词向量 - 概述及使用

在NLP领域,常识知识的使用越发成为热点,因为其有希望帮助克服现有模型的局限:它们仅从训练数据中学到的有偏的、浅薄的知识,而并不擅长像人一样进行真正的推理。...

2020-12-01
1

在python下实现word2vec词向量训练与加载实例

项目中要对短文本进行相似度估计,word2vec是一个很火的工具。本文就word2vec的训练以及加载进行了总结。

2020-10-29
2

从单词嵌入到文档距离 :WMD一种有效的文档分类方法

文档分类和文档检索已显示出广泛的应用。文档分类的重要部分是正确生成文档表示。马特·库斯纳(Matt J. Kusner)等人在2015年提出了Word Mover’s Distance(WMD)[1],其中将词嵌入技术用于计算两个文档之间的距离。使用给定...

2020-09-29
2

Fasttext 总结

这两个改变都是为了做分类,第一个不需要解释,第二个做文本分类只需要考虑一次整个句子的特征就行,所以不使用滑动窗口,这也是为了降低计算复杂度。...

2020-09-14
1

Glove 细节介绍

Glove全称Global Vectors for Word Representation,是目前应用范围最广的词向量,但是它基于通用语料训练,所以适合通用语言的自然处理任务,如果你的词库是领域特定词库,使用word2vec或者fasttext自己训练会比较好。 Glove...

2020-09-14
1