从事大数据行业的人都清楚,R是用于统计分析、绘图的语言和操作环境,同时它还是一个用于统计计算和统计制图的优秀工具。特意整理出从入门到进阶的相关书籍,以供参考。
一、初学入门:
入门者可首选以下两本书。前者从统计角度入手,分高中低三部分由浅入深地讲解如何用R来实现统计分析;后者从程序编写的角度入手,对R本身的特点进行了清晰的介绍。
《R in Action》
《R in Action》是一本介绍R系统和使用案例的书,让其成为开发人员的强大的工具包。除了介绍R语言,本书还包括对其开发环境的介绍。同时,它着重介绍了实用的解决方案,还提供了一个实用的统计数据的优秀课程,包括使用R的特征来处理混乱和不完整数据的方法。
2.《The Art of R Programming》
《The Art of R Programming》将带领读者浏览R语言的软件开发过程,无论是面向功能还是面向对象的编程、数学模拟的运行,以及简化复杂数据和常用的格式均能学习到。《The Art of R Programming》是教授读者运用统计计算能力的一本优秀的指南。
二、统计进阶:
这两本书基本上涵盖了统计的一些高阶内容,例如多元分析、多层回归模型、荟萃分析、生存分析等内容。案例丰富,公式不算多,值得反复学习和参考。
《A Hand book of Statistical Analyses Using R》
像最畅销的前两个版本一样,《A Hand book of Statistical Analyses Using R》第三版解释了如何进行一系列的统计分析,包括从简单推理、递归分配,再到聚类分析。无论读者是数据分析师、数据科学家还是学生,本手册都展示了如何使用R轻松有效地评估数据的方法。结合真实例子,本书强调了数据的实际应用和结果。
2.《Modern Applied Statistics with S》
这是一本使用S环境进行统计分析的指南,它提供了S的使用介绍和现代统计方法的课程。本书将重点介绍实际问题和对实际数据集的全面分析。
三、科学计算:
除了统计分析外,此书独特之处在于使用R来做数值分析,如求根、最优化、数值积分,等等。令人惊喜的是,它还包括了一些常见的模拟技术。书后的习题和最后的案例非常有用。
《Introduction to Scientific Programming and Simulation Using R》
第二版《Introduction to Scientific Programming and Simulation Using R》,继续以清晰、实用和透彻的方式,介绍科学计划和随机建模。读者可以通过其中的实验提供的R代码和数据来学习编程。这个版本精炼地演示了如何将算法转换为代码,并且易于阅读,并提供了丰富的例子和习题。
四、数据挖掘:
这两本侧重于数据挖掘的R语言书籍,全是以案例为线索,示范的代码量很大,跟一遍下来会有很大的收获。
《Data Mining with R:Learning with Case Studies》
功能强大和大量附加软件包,使得R成为许多数据挖掘工具的绝佳替代品。从实践者的角度探索这一领域,《Data Mining with R:Learning with Case Studies》使用了很多实例来说明R和数据挖掘的力量。为了展示主要的数据挖掘过程和技术,本书作者采用了实践的方法,利用一系列详细的、真实的案例研究说理,并提供了所有必要的步骤、代码和数据。
2.《Machine Learning for Hackers》
现在存储和收集技术比以往更为廉价与精确,从大数据集中提取相关信息的方法,是任何经验丰富的程序员都希望学习的。有了这本书,读者将以实用的方式,使用黑盒解决方案和案例研究来学习机器学习和统计工具,而不是传统的重量级演示。
五、数据绘图:
ggplot2还有什么好说的呢,R中最优秀的绘图包,但由于近期该包升级很快,这书显得有些过时,幸好在中文版中它进行了大幅的更新。
《ggplot2 Elegant Graphics for Data Analysis》
ggplot2是一个专门为生产图形而量身定制的迷你语言,读者能够从书中学到所需要的一切。ggplot2是R的数据可视化包,可以帮助用户轻松地创建数据图形。
六、参考手册:
有时候我们需要类似词典的案头参考手册,以方便随时查阅;又或者可以通读一遍以查漏补缺。以下两本书虽然有些厚度,但仍然推荐之。
《R Cookbook》
借助超过200种实用方案,本书可帮助读者快速高效地执行R数据分析。R语言提供了进行统计工作所需的一切,但其结构可能难以掌握。这套简洁,面向任务的书籍使读者可以立即调动R,从基本任务、输入和输出、一般统计、图形和线性回归等解决方案都涵盖得到。由于有很高的悦读性,《R Cookbook》不仅是一本解决方案的手册,更是用来探索R语言的愉快的方式。
2.《R in a Nutshell》
本书中,作者向读者介绍了R的环境,让读者了解了面向对象的R语言的基础知识,以及R图形用户界面和控制台。然后,通过医学、商业和运动等各种实例,读者将学习到如何使用这个卓越的工具来解决自己的数据分析问题。
七、高级编程:
如果你是初学者,不建议看这两本书。如果你想进阶为专家级R用户,那你需要精读它们。前者讲解了R鲜为人知的一面,例如字符处理、正则表达和XML,还有报错处理以及与其它语言的交互;后者更是编写生产级代码的圣经指南。
《R Programming for Bioinformatics》
作者在书中检查了字符串处理和操作的不同方面,讨论了R与其他语言的接口,并描述了如何编写软件包。最后,他还讨论了R代码的调试和分析。通过许多例子和练习,本实用指南专注于开发R编程技能,以解决生物信息学和计算生物学中遇到的问题。
2.《Software for Data Analysis Programming with R》
本书通过R编程,从简单的交互式使用开始逐步进行。同时,它还可以根据需要添加更高级的编程技术,让用户成长为软件贡献者,从而使他们的职业和社区受益。此书是R的高级编程书,由R语言的作者编写。