word2vec_字节宝

Gensim如何冻结某些词向量进行增量训练

比如像是Word2Vec，我们通过简单的几行代码就可以实现词向量的生成，如下所示：

Python gensim nlp word2vec

2021-11-24

从EMD、WMD、WRD：文本向量序列的相似度计算

在NLP中，我们经常要比较两个句子的相似度，其标准方法是将句子编码为固定大小的向量，然后用某种几何距离（欧氏距离、cos距离等）作为相似度。这种方案相对来说比较简单，而且检索起来比较快速，一定程度上能满足工程需求...

distance equation sum word word2vec

2021-05-27

self-attention 的本质

self-attention 的本质就是从一个矩阵生成三个新的矩阵，这三个矩阵分别记作 qkv，然后将 q 乘以 k 的转置，得到的结果再与 v 相乘，再将最后得到的结果送入下游任务。因此实际上任何网络都可以融入 self-attention，生成三个...

nlp self word2vec 网络

2021-05-12

pyspark做Item2vec

Item2vec 是基于自然语言处理模型 Word2vec 提出的，所以 Item2vec 要处理的是类似文本句子的观影序列：

NLP服务 word2vec 模型数据

2021-03-20

基于梯度下降的单词向量化

情感分析是一个必不可少的工具，用于许多不同的任务。这包括从基于tweets预测股市情绪，到预测客户自动生成响应。Google的Word2Vec运行良好，但有一个很大的问题。...

data google word2vec 规范化

2020-12-29

conceptnet-numberbatch: 结合常识知识的词向量 - 概述及使用

在NLP领域，常识知识的使用越发成为热点，因为其有希望帮助克服现有模型的局限：它们仅从训练数据中学到的有偏的、浅薄的知识，而并不擅长像人一样进行真正的推理。...

nlp text uri word2vec

2020-12-01

在python下实现word2vec词向量训练与加载实例

项目中要对短文本进行相似度估计，word2vec是一个很火的工具。本文就word2vec的训练以及加载进行了总结。

binary gensim txt window word2vec

2020-10-29

从单词嵌入到文档距离：WMD一种有效的文档分类方法

文档分类和文档检索已显示出广泛的应用。文档分类的重要部分是正确生成文档表示。马特·库斯纳（Matt J. Kusner）等人在2015年提出了Word Mover’s Distance（WMD）[1]，其中将词嵌入技术用于计算两个文档之间的距离。使用给定...

knn word word2vec

2020-09-29

Fasttext 总结

这两个改变都是为了做分类，第一个不需要解释，第二个做文本分类只需要考虑一次整个句子的特征就行，所以不使用滑动窗口，这也是为了降低计算复杂度。...

char text word word2vec

2020-09-14

Glove 细节介绍

Glove全称Global Vectors for Word Representation，是目前应用范围最广的词向量，但是它基于通用语料训练，所以适合通用语言的自然处理任务，如果你的词库是领域特定词库，使用word2vec或者fasttext自己训练会比较好。 Glove...

global word word2vec