机器学习利器之汇总

2022-07-11 14:52:50 浏览数 (1)

机器学习利器之汇总

一直想写些东西来记录我的机器学习之路(包括学术和工业),经过N多次决定,终于下定决心把自己积累的点点滴滴保存下来,一方面帮助自己更好的归纳之前研究和使用过的技术,另一方面希望大家多多提出宝贵意见,一起学习进步,有说的不对的地方还请多多包涵。

在接下来的很长一段时间,我会从数据结构、基础算法、数值分析、自然语言处理(NLP)、机器学习(ML)、深度学习(DL)等方面与大家一起学习。

我目前主要从事的是新闻算法推荐领域的工作,因此更多的例子可能还是在文本处理方面,本篇主要和大家一起分享下文本特征筛选方面的一些工作。

文本特征选择

无论目前文本特征选择的方法还是比较多的,特别是在深度学习推出之后,可能大大解放了我们在特征选取方面的要求。

特征选择主要包括基于TF-IDF、信息增益、卡方检验和互信息等

  • TF-IDF TF-IDF是一种统计方法,用以评价一个词语对于一个语料库中的其中一份文件的重要程度。词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。 TF(词频)表示词条在文档d中出现的频率,这个数字是对词数(term count)的归一化,以防止它偏向长的文件。 词频 = 某个词在文章中出现的总次数/文章的总词数 IDF(逆文档频率)表示如果包含词条的文档越少,IDF越大,则说明词条具有很好的类别区分能力。 逆文档频率(IDF) = log(词料库的文档总数/包含该词的文档数 1)
  • 信息增益(Info Gain) 在信息增益中,重要性的衡量标准就是看特征能够为分类系统带来多少信息,带来的信息越多,该特征越重要。以下公式以二分类为例进行说明(推广到多分类是一样的):

Entropy(S)可以认为是样本空间中所有点的信息熵,而Gain(S ,A)则为A特征的信息增益值,以下表中的天气数据集为例子:

该数据集的特征维度为4,目的是判断能否出去玩,即我们需要标记的标签。 初始状态下,label列总共为14行,有9个yes和5个no,所以label列初始信息熵为:

假设我们先划分outlook这一列,分成sunny、rain、overcast三类,数量分别为5:5:4,考虑到每个类别下对应的label不同,可以计算出划分后的信息熵:

其中E(S1)、E(S2)、E(S3)分别为每个类别下对应的label列的信息熵。 则关于A特征的信息增益值即为:

信息增益值越大,则说明该特征的区分能力越强。 第一次写博客,难免有遗漏和照顾不周之处,还请多多包涵,下次继续和大家讨论关于特征筛选的卡方检验和互信息方法,谢谢大家。

0 人点赞