0.前言###
“一切都被记录,一切都被分析”就了一个信息爆炸的时代,人类过去两年产生的数据占据了整个人类文明中所产生的数据的90%。而在这些无限丰富的数据中,蕴藏着巨大的价值,数据分析在数据爆炸式增长的前提下变得炙手可热,数据分析师甚至被称为“性感的职业”。由于需求的迫切增加和人才的短缺,数据人才显得弥足珍贵,数据分析师由此披上了华丽的光环。那么对于并非科班出身的人来说,如何通过自己的学习入门并成为厉害的数据分析师呢?下面是一份比较基础的书单,但也可以说是一个相对完整的入门学习体系。
1.基础 - 统计学###
统计学是数据分析方法论中的核心基础,在数据分析的方法模型中,很大程度上都来源于统计学的方法,所以掌握统计原理是必须的。
《深入浅出统计学》 Dawn Griffiths 著 李芳 译
目前市面上最具娱乐性、最能够抓住读者注意力的统计学研读指南。透过生动活泼的手法与素材,为这个困难的主题提供最容易被接受的学习方式,贯穿全书的精辟解说让各种程度的学生都能够充分地理解统计学。涵盖的知识点包括:信息可视化、概率计算、几何分布、二项分布及泊松分布、正态分布、统计抽样、置信区间的构建、假设检验、卡方分布、相关与回归等等。
《数学之美》 吴军 著
此书名为数学之美,实为信息技术(自然语言处理)中的数学原理(统计语言模型)之美。更深刻地理解了大学所学的线性代数、概率论与数理统计和应该学而没学的随机过程、图论、机器学习的应用意义。作者深入浅出的宏观讲解,和恰到好处的细节展现,让读者很容易能感受到数学纵使在计算和证明上有许多繁琐巧妙的细节,但数学模型本身却是高度简洁高度具有概括力的,一些看似毫不相关的领域居然可以用同一个简单的数学模型来构建,这大概就是数学之"美”了吧。
《统计学》 贾俊平 等 著
这本书应该算是很多统计学科班人士的入门书籍了,同时也是很多高校的统计专业的教材。这本书可能是你从专业系统性地了解统计知识的书目了,内容涵盖了描述统计方法,推断统计方法以及工商管理中常用的一些统计方法。作者将计算机紧密结合,大部分统计方法都给出了Excel的计算过程和结果。
《统计学习方法》 李航 著
系统地介绍了统计学习的主要方法,特别是监督学习方法,包括感知机、k近邻法、朴素贝叶斯法、决策树、逻辑斯谛回归与最大熵模型、支持向量机、提升方法、EM算法、隐马尔可夫模型和条件随机场等。你要知道,这些是之后可以直接应用到你的数据分析项目中去的一些方法。从统计向机器学习深入和过渡,对目前目前的统计学习方法有全面的介绍。
2.入门 - 数据分析###
当了解了统计学的一些基础知识之后,你就可以正式上手学习较为基础的数据分析知识了,这一部分主要是了解数据分析和数据挖掘的方法、工具等理论上的东西,是为后续的数据分析实战打好基础。
《深入浅出数据分析》 Michael Milton 著 李芳 译
数据分析入门的经典书籍了,你会发现几乎每个给你推荐数据分析、数据挖掘书单的人都会推荐此书。此书最大的优点就是非常的简明易懂,还给你填了很多统计方面的坑,让没有统计知识的你不至于一脸懵逼。数据分析基本步骤、实验方法、最优化方法、假设检验方法、误差处理、相关数据库、数据整理技巧等相关知识都有介绍。
《数据挖掘导论》 Pang-Ning Tan,Michael Steinbach 著 范明 范宏建 译
这绝对是你进入数据分析和数据挖掘领域的核心书籍,也是数据挖掘的入门经典。书中对数据、分类、关联分析、聚类和异常检测作出了细致入微的阐述。书中还有一些常用的数据挖掘算法和伪代码,可以作为延伸学习的。当然数据挖掘的东西更多的是要去理解,而不是记忆,理解理论背后的原理会让你在后续的实战中能够更加得心应手。
《数据挖掘概念与技术》 Jiawei Han,Micheline Kamber 著 范明 孟小峰 译
这本书的定位和《数据挖掘导论》的定位比较相似,都是在数据挖掘、分析技术的问题上的探讨。关于聚类、关联、分类的讲解都很到位。这本书虽然名为data mining,但其实思想都是machine learning的东西,这也可以是一个了解机器学习的不错的切入点。
3.实战 - 数据技术###
经过前面对于数据分析和数据挖掘知识的积累,相信你已经形成了最基本的数据分析知识体系,也对数据分析的方法和流程有了较为全面的了解。那么接下来就是应用这些东西来进行数据分析实战了。当然这个部分,你还需要学习一门编程语言,这里推荐Python。
《利用Python进行数据分析》 Wes McKinney 著 唐学韬 译
此书绝对是计算科学和数据分析经典中的经典,强大的地方在于,书中不仅建立了一个完善的python分析方法论体系,还有大量具体的实践建议,以及大量综合应用方法。将学会如何利用各种Python库(包括NumPy、pandas、matplotlib以及IPython等)高效地解决各式各样的数据分析问题,所以这将是你真正意义上数据分析实战的开始。
《Python数据分析与挖掘实战》 张良均 王路 等 著
从数据挖掘的应用出发,以电力、航空、医疗、互联网、生产制造以及公共服务等行业真实案例为主线,深入浅出介绍Python数据挖掘建模过程,实践性极强。通过这本书,你完全可以阅读过程中,充分利用随书配套的案例建模数据,借助相关的数据挖掘建模工具,通过自己进行上机实战掌握Python的数据分析。
《Python核心编程(第二版)》 Wesley J. Chun 著 CPUG 译
要用python进行数据分析,学习python这门语言是必须的了,这本书就是python编程的经典。尤其是每一小节后面的核心笔记,讲解了一些有用的编程技巧和知识,知识点非常细致,你可以学到很多以前不知道的编程知识。当然这本书用来扫盲可能有一定的难度,可能更适合进阶,让你打扎实python 的基础。
4.进阶 - 机器学习###
经过前面的学习,你基本上已经能够进行简单的数据分析,并且能够较为完善地操作一些简单的数据了。那么机器学习这部分一定是提升你整个思维方式和数据分析水平的杀器。你将会有目的地去选择合适的方法应用在不同的场景,分析水平得以提升。
《机器学习》 周志航 著
简明而深刻,厚积薄发的评注非常开拓思维,多是游刃有余之后才可得出的见解。这确实是机器学习里优秀的中文书籍了,大牛周志航将机器学习中的模型方法,应用场景、理论推导、优化过程、算法等进行了全面而细致的讲解,堆积初级的宏观学习机器学习分析方法可以说是既简洁而又实用。
《机器学习实战》 Peter Harrington 著 李锐 李鹏 等 译
用人话把复杂难懂的机器学习算法解释清楚了,其中有零星的数学公式,但是是以解释清楚为目的的。而且有Python代码,大赞!这本书会让你意识到那些被吹捧得出神入化的分类算法,竟然实现起来如此简单;那些看是高深的数学理论,其实一句话就能道明其本质;一切复杂的事物,出发点都是非常简单的想法。
《集体智慧编程》 TOBY SEGARAN 著莫映 王开福 译
以机器学习与计算统计为主题背景,述如何挖掘和分析Web上的数据和资源,如何分析用户体验、市场营销、个人品味等诸多信息,并得出有用的结论。想把 paper 上的公式转变为可以运行的代码,这是件考验功力的事情这本书就是是修炼此种功力的武林秘笈之一。 最显著的特点是,实战性极强! 针对每个算法,他从头到尾演示了一个完整的实现过程:从获取数据,组织存储,到算法实现,加载运算,再到最后的结果的分析利用。
5.补充 - 数据库技术###
在涉及到大量的数据之后,数据的存储可能会成为你要考虑的问题,所以关于SQL方面的知识作为一个数据分析师应该有所储备。好在这部分难度并不是很大,并且不要要特别深入的研究。
《深入浅出SQL》 贝里 著 O‘Reilly Taiwan公司 译
非常浅显易懂, 图表间的注释是本书精华所在. 细致到几近啰嗦,小白都可以轻松看懂,可能是因为数据库技术本身难度并不是特别大。作为入门的书相当的不错,有辅助理解的讲解和例子,同时有有练习题加深记忆。当然书的内容略多,如果你是需要快速学习的话,在你已经理解之后就不必过度扣细节,毕竟你可能需要更多在实战中应用。
《高性能MySQL》 Baron Schwartz 等 著 王小东 李军 康建勋 译
不可多得的分享MySQL实用经验的图书。它不但可以帮助MySQL初学者提高使用技巧,更为有经验的MySQL DBA指出了开发高性能MySQL应用的途径。经典自不必说,对于大多数的涉及数据存储的人来说,这都是一本好书。书中的知识点非常全面,但可能学习成本略高,并非全要掌握,作为遇到困难时的词典查阅也不错。
6.应用 - 商业问题处理###
这个时候你应该把学到的数据分析技能应用到实践中去了,去处理实际商业模型中的问题,解决企业在运营过程中数据驱动问题,这个时候,相信你已经打开数据分析的大门,你可以拥有一份收入可观、并且学之所用的工作了。
《精益数据分析》 Alistair Croll 等 著 韩知白 王鹤达 译
这本书里讲解了创业公司该如何确定指标体系,如何用数据指导产品和运营。本书还针对电商、媒体、SaaS、双边市场、UGC等,列举了要关注的指标,并有丰富的案例。整个书的内容比较散,但依旧是讲互联网产品数据分析方面非常好的书了,对于想就职互联网数据分析的人来说非常实用。
7.如何学习###
可能你看到那么多书就头大,但是总结下来你需要掌握的无非以下几个技能: 统计学基础
1.常用模型理论 2.编程语言(如PYTHON) 3.机器学习方法 4.数据库技术
这些书并不需要全部涉猎,一切以掌握以上的几个技能为准。比如你之前就有统计的基础那么,统计学部分的书你就没必要看了。你也完全可以看了《深入浅出统计学》之后有感觉了就进行下一阶段的学习。
所以更重要的事情是带着学到的理论知识进入到实战的环节中去,这样才能提升你实际应用的能力,同时检验你是否真正理解和掌握了书中的方法论。关于编程语言并非一定是要python,只是因为python比较接近自然语言更容易理解和入门,并且确实强大够用,因而在此推荐。如果你对R感兴趣,这方面也有不少的经典书籍可以查阅。
独自学习的时候你肯定会遇到很多瓶颈,甚至让你开始怀疑人生,千万别气馁,带着实际的问题再次进入书籍,你会发现一些不一样的东西,对理论也会有更佳深入的了解。有时候你还需要去大牛们的paper中去寻找实际问题的答案,但是每当你解决一个问题,你就在level上要高出不少。
所以你大可不必纠结于其中的某个小问题,越快让自己有做实践的能力越好,获得成就和反馈的喜悦会让你热情大增,让你在实践中更高效地学习。
当你真正完成这些基础的学习,你会发现,原来你已经可以参加DataCastle的竞赛并且取得不错的成绩了,你将在竞赛中以更快的速度获得成长。
在成为厉害的数据分析师的路上……