【导读】我们在上一节的内容中已经为大家介绍了台大李宏毅老师的机器学习课程的无监督学习:主成分分析(PCA),这一节将主要针对讨论unsupervised learning-word embedding。本文内容涉及机器学习中半监督学习word embedding的若干主要问题:word embedding的含义,prediction-based, language model以及word embedding拓展。话不多说,让我们一起学习这些内容吧
春节充电系列:李宏毅2017机器学习课程学习笔记01之简介
春节充电系列:李宏毅2017机器学习课程学习笔记02之Regression
春节充电系列:李宏毅2017机器学习课程学习笔记03之梯度下降
春节充电系列:李宏毅2017机器学习课程学习笔记04分类(Classification)
春节充电系列:李宏毅2017机器学习课程学习笔记05之Logistic 回归
春节充电系列:李宏毅2017机器学习课程学习笔记06之深度学习入门
春节充电系列:李宏毅2017机器学习课程学习笔记07之反向传播(Back Propagation)
春节充电系列:李宏毅2017机器学习课程学习笔记08之“Hello World” of Deep Learning
春节充电系列:李宏毅2017机器学习课程学习笔记09之Tip for training DNN
春节充电系列:李宏毅2017机器学习课程学习笔记10之卷积神经网络
春节充电系列:李宏毅2017机器学习课程学习笔记11之Why Deep Learning?
春节充电系列:李宏毅2017机器学习课程学习笔记12之半监督学习(Semi-supervised Learning)
春节充电系列:李宏毅2017机器学习课程学习笔记13之无监督学习:主成分分析(PCA)
课件网址:
http://speech.ee.ntu.edu.tw/~tlkagk/courses_ML17_2.html
http://speech.ee.ntu.edu.tw/~tlkagk/courses_ML17.html
视频网址:
https://www.bilibili.com/video/av15889450/index_1.html
李宏毅机器学习笔记14 Unsupervised Learning : Word Embedding(无监督学习:词嵌入表示)
1.word embedding的含义
Word embedding指的是机器从许多文档中非监督学习到词语的含义
表示词语的含义有许多方法,最简单的是1-of-N encoding,但这个方法可以独立表示每个词,但词与词之间的关联并不能表示出来,并且0-1序列过于庞大了。Word class也是一种方法,将词汇分为不同的类,但这种分类太粗糙了。较好的方法即使今天介绍的work embedding方法,用向量表示每个词汇。
一个词汇的含义能够从句子中学到,比如下面的句子我们就知道马英九和蔡英文在某些部分中含义很相近
如果两个词汇含义很相近则他们向量也应该很相近
2.prediction-based
我们可以利用Neural Network进行文本的预测,以真实值和预测值的交叉熵作为损失函数
或者可以利用word embedding进行句子的预测,例如推文接话
3.langugage model
在language modeling中,一个句子出现的概率可以表示为一系列条件概率的乘积
一个词后接另一个词的概率也是可以用NN来训练
因为马英九和蔡英文后面接的都是宣誓就职,所以马英九和蔡英文的向量表示应该很相近
4.word embedding拓展
当然prediction-based 不止这一种架构,还有很多其他架构,比如continuous bag of word model,skip-gram
对于word embedding我们可以发现在向量空间中每个国家和他的首都有着类似的关系
例如比较级两个词语向量相减近似相等,我们可以发现,对于word embedding,有特定关系的两个词语他们的向量差是近似相等的。
我们还可以实现多语言的word embedding
推广还有document embedding,每个向量表示句子的含义
传统方法是采用词袋模型,统计每个词语出现的次数
但这是不够的,因为在文章中词语出现的顺序很重要。
后台回复“LHY2017” 就可以获取 2017年李宏毅中文机器学习课程下载链接~
-END-