统计学习方法资源汇总

2019-05-26 09:16:49 浏览数 (1)

版权声明:本文为博主原创文章,未经博主允许不得转载。 https://cloud.tencent.com/developer/article/1434583

统计学习方法资源汇总

历时近半年《统计学习方法》的学习,今天告一段落。也没什么好说的,在学习过程遇到的一些坑,和搜集到的一些资料都在此汇总下,方便自己复习查阅。

统计学习方法总结

本书介绍了10种主要的统计学习方法:感知机、k邻近法、朴素贝叶斯、决策树、逻辑斯蒂回归与最大熵模型、支持向量机、提升发方法、EM算法、隐马尔可夫模型和条件随机场。这10中统计学习方法的特点概括总结在下表中。

建议学习顺序

1.k近邻法

所有方法中,最简单的模型,本质上并不算任何学习算法。参考博文有:

  • Demon之K近邻法学习笔记
  • 返回主页 不积跬步,无以至千里之k-d tree算法
  • zouxy09之机器学习算法与Python实践之(一)k近邻(KNN)

2. 决策树

决策树的核心在于对熵的理解,算法有ID3,C4.5,以及CART算法。参考的博文有:

  • Demon之决策树学习笔记(一)
  • Demon之决策树之剪枝原理与CART算法
  • 知乎之能否尽量通俗地解释什么叫做熵?
  • BBC关于熵的理解-宇宙的奇迹:时间之箭 BBC

3.感知机和支持向量机

这两部分都属于对几何空间的划分,可以放在一块学,支持向量机是感知机的升级版,该系列对数学的要求较高,是块难啃的骨头。参考博文有:

  • Demon之支持向量机学习笔记–原理篇(一)
  • Demon之支持向量机学习笔记–原理篇(二)
  • Demon之支持向量机学习笔记–实现篇(三)

在总结之余,有一篇大神的博文高达56万的阅读量,可谓是SVM典型之作,强烈推荐。

  • 支持向量机通俗导论(理解SVM的三层境界)

4.朴素贝叶斯方法

深刻的贝叶斯原理,它的哲学绝对不是一行简单的贝叶斯公式所能描述的。参考博文有:

  • Demon之朴素贝叶斯学习笔记

又发掘了一篇大神之作,现居美国研究心理学,从他口中叙述的贝叶斯令人印象深刻,强烈推荐。

  • 刘未鹏之数学之美番外篇:平凡而又神奇的贝叶斯方法

5.逻辑斯蒂回归模型与最大熵模型

对熵有了一定的概念之后,以及了解了概率模型的极大似然估计方法后,便可以开始上述两个模型的学习了。参考博文有:

  • Demon之逻辑斯谛回归及其物理含义
  • Demon之最大熵模型与GIS ,IIS算法

关于最大熵模型,可以参考吴军之作《数学之美》,深入浅出。

6. EM算法及隐马尔可夫模型

EM算法是解决含隐变量问题的迭代算法,是隐马尔可夫模型中Baum-Welch算法的一般形式,所以必须先学习EM算法,才能理解隐马尔可夫模型的学习算法。而隐马尔可夫模型则可归结为三个大问题:概率计算,参数学习,模型预测。参考的博文有:

  • Demon之EM算法及其推广学习笔记

关于EM算法的参考资料较多,可以直接参看上述博文的参考文献。

  • Demon之隐马尔可夫学习笔记(一)
  • Demon之隐马尔可夫模型之Baum-Welch算法详解

大神之作总是需要单独拎出来,说一下,讲的实在是太棒了。

  • 隐马尔可夫模型(HMM)攻略

7. 条件随机场

它是这本书的终极大boss,谁叫它放在了最后呢,它可谓是朴素贝叶斯、逻辑斯蒂回归、最大熵模型及隐马尔科夫模型的综合升级版。所以必须最后一个学,否则云里雾里。参考博文有:

  • Demon之条件随机场笔记
  • 知乎之如何用简单易懂的例子解释条件随机场(CRF)模型?它和HMM有什么区别?

那么这里就有一篇关于应用【概率模型】进行多元分类和序列标注的introduction,参考链接如下:

  • Sutton, Charles, and Andrew McCallum. “An introduction to conditional random fields.” Machine Learning 4.4 (2011): 267-373.

能帮助你理解书中所提到的【判别模型】和【生成模型】的区别。

8. 提升方法

指数损失函数的经典应用,三个臭皮匠顶个诸葛亮。参考博文有:

  • Demon之提升方法学习笔记

提升方法,引入了计算机学习理论PAC,发现了一位大牛,毕业于浙江大学,留美博士,链接如下:

  • Free Mind : 机器学习物语(4):PAC Learnability
  • Free Mind : 概率与测度 (1):关于测度

机器学习牛博推荐

这一部分,推荐几位我认为在机器学习领域的大牛,呵呵,看着他们的博客长大,感觉自己差点变牛了,然而还差一大截,唉。

码农场: http://www.hankcs.com/

他总结了《统计学习方法》中的所有章节,基本上是抄书,但是每个章节都有相应的代码,我博文中的代码基本上全来源于该博文,是开源项目NLP的作者,牛!

我爱自然语言处理 : http://www.52nlp.cn

里面有很多统计学中各种分布的知识,非常深刻有趣,大部分资源也可以从中找。

阮一峰的网络日志 : http://www.ruanyifeng.com/blog/

上海财大经济学博士,非常博学,出版《ECMAScript 6入门》、《黑客与画家》、《软件随想录》等等。

CSDN July 大神:http://blog.csdn.net/v_july_v/article/details/7624837

七月在线的CEO,专注于机器学习的教学,看了他的SVM三重境界,变成了他的小粉。对算法也颇有研究,强烈推荐。

Free Mind : http://blog.pluskid.org/?p=772

浙大本科硕士,留美深造,数学功底强至令人折服,不怕虐可以看看。

刘未鹏 | Mind Hacks 思维改变生活 : http://mindhacks.cn/

南大本科,现依旧在美国,所写文章深刻而哲学,喜欢研究认知心理学,但在机器学习领域也有深刻的认识,所谓知己知彼百战百胜,对如何学习有着自己独特的见解。

优化算法专栏:http://blog.csdn.net/column/details/optimization-a.html

zouxy09的专栏:http://blog.csdn.net/zouxy09

未完待续

更新进行时…

0 人点赞