版权声明:本文为博主原创文章,未经博主允许不得转载。 https://cloud.tencent.com/developer/article/1434583
统计学习方法资源汇总
历时近半年《统计学习方法》的学习,今天告一段落。也没什么好说的,在学习过程遇到的一些坑,和搜集到的一些资料都在此汇总下,方便自己复习查阅。
统计学习方法总结
本书介绍了10种主要的统计学习方法:感知机、k邻近法、朴素贝叶斯、决策树、逻辑斯蒂回归与最大熵模型、支持向量机、提升发方法、EM算法、隐马尔可夫模型和条件随机场。这10中统计学习方法的特点概括总结在下表中。
建议学习顺序
1.k近邻法
所有方法中,最简单的模型,本质上并不算任何学习算法。参考博文有:
- Demon之K近邻法学习笔记
- 返回主页 不积跬步,无以至千里之k-d tree算法
- zouxy09之机器学习算法与Python实践之(一)k近邻(KNN)
2. 决策树
决策树的核心在于对熵的理解,算法有ID3,C4.5,以及CART算法。参考的博文有:
- Demon之决策树学习笔记(一)
- Demon之决策树之剪枝原理与CART算法
- 知乎之能否尽量通俗地解释什么叫做熵?
- BBC关于熵的理解-宇宙的奇迹:时间之箭 BBC
3.感知机和支持向量机
这两部分都属于对几何空间的划分,可以放在一块学,支持向量机是感知机的升级版,该系列对数学的要求较高,是块难啃的骨头。参考博文有:
- Demon之支持向量机学习笔记–原理篇(一)
- Demon之支持向量机学习笔记–原理篇(二)
- Demon之支持向量机学习笔记–实现篇(三)
在总结之余,有一篇大神的博文高达56万的阅读量,可谓是SVM典型之作,强烈推荐。
- 支持向量机通俗导论(理解SVM的三层境界)
4.朴素贝叶斯方法
深刻的贝叶斯原理,它的哲学绝对不是一行简单的贝叶斯公式所能描述的。参考博文有:
- Demon之朴素贝叶斯学习笔记
又发掘了一篇大神之作,现居美国研究心理学,从他口中叙述的贝叶斯令人印象深刻,强烈推荐。
- 刘未鹏之数学之美番外篇:平凡而又神奇的贝叶斯方法
5.逻辑斯蒂回归模型与最大熵模型
对熵有了一定的概念之后,以及了解了概率模型的极大似然估计方法后,便可以开始上述两个模型的学习了。参考博文有:
- Demon之逻辑斯谛回归及其物理含义
- Demon之最大熵模型与GIS ,IIS算法
关于最大熵模型,可以参考吴军之作《数学之美》,深入浅出。
6. EM算法及隐马尔可夫模型
EM算法是解决含隐变量问题的迭代算法,是隐马尔可夫模型中Baum-Welch算法的一般形式,所以必须先学习EM算法,才能理解隐马尔可夫模型的学习算法。而隐马尔可夫模型则可归结为三个大问题:概率计算,参数学习,模型预测。参考的博文有:
- Demon之EM算法及其推广学习笔记
关于EM算法的参考资料较多,可以直接参看上述博文的参考文献。
- Demon之隐马尔可夫学习笔记(一)
- Demon之隐马尔可夫模型之Baum-Welch算法详解
大神之作总是需要单独拎出来,说一下,讲的实在是太棒了。
- 隐马尔可夫模型(HMM)攻略
7. 条件随机场
它是这本书的终极大boss,谁叫它放在了最后呢,它可谓是朴素贝叶斯、逻辑斯蒂回归、最大熵模型及隐马尔科夫模型的综合升级版。所以必须最后一个学,否则云里雾里。参考博文有:
- Demon之条件随机场笔记
- 知乎之如何用简单易懂的例子解释条件随机场(CRF)模型?它和HMM有什么区别?
那么这里就有一篇关于应用【概率模型】进行多元分类和序列标注的introduction,参考链接如下:
- Sutton, Charles, and Andrew McCallum. “An introduction to conditional random fields.” Machine Learning 4.4 (2011): 267-373.
能帮助你理解书中所提到的【判别模型】和【生成模型】的区别。
8. 提升方法
指数损失函数的经典应用,三个臭皮匠顶个诸葛亮。参考博文有:
- Demon之提升方法学习笔记
提升方法,引入了计算机学习理论PAC,发现了一位大牛,毕业于浙江大学,留美博士,链接如下:
- Free Mind : 机器学习物语(4):PAC Learnability
- Free Mind : 概率与测度 (1):关于测度
机器学习牛博推荐
这一部分,推荐几位我认为在机器学习领域的大牛,呵呵,看着他们的博客长大,感觉自己差点变牛了,然而还差一大截,唉。
码农场: http://www.hankcs.com/
他总结了《统计学习方法》中的所有章节,基本上是抄书,但是每个章节都有相应的代码,我博文中的代码基本上全来源于该博文,是开源项目NLP的作者,牛!
我爱自然语言处理 : http://www.52nlp.cn
里面有很多统计学中各种分布的知识,非常深刻有趣,大部分资源也可以从中找。
阮一峰的网络日志 : http://www.ruanyifeng.com/blog/
上海财大经济学博士,非常博学,出版《ECMAScript 6入门》、《黑客与画家》、《软件随想录》等等。
CSDN July 大神:http://blog.csdn.net/v_july_v/article/details/7624837
七月在线的CEO,专注于机器学习的教学,看了他的SVM三重境界,变成了他的小粉。对算法也颇有研究,强烈推荐。
Free Mind : http://blog.pluskid.org/?p=772
浙大本科硕士,留美深造,数学功底强至令人折服,不怕虐可以看看。
刘未鹏 | Mind Hacks 思维改变生活 : http://mindhacks.cn/
南大本科,现依旧在美国,所写文章深刻而哲学,喜欢研究认知心理学,但在机器学习领域也有深刻的认识,所谓知己知彼百战百胜,对如何学习有着自己独特的见解。
优化算法专栏:http://blog.csdn.net/column/details/optimization-a.html
zouxy09的专栏:http://blog.csdn.net/zouxy09
未完待续
更新进行时…