1. 看大神怎么说
前几天去新疆培训,制作了R语言的基础教程,在翻阅资料时,看到了知乎张敬信关于R学习的观点,很是赞同。
张敬信老师写了一本书《R语言编程--基于tidyverse》,网址:https://github.com/zhjx19/introR
下面几段是书中的话:
❝国内的R语言博客、教材大多数都很落后。初学R语言的同学,还是在沿用那些过时的、晦涩的R语法, 对R的印象还是停留在5年前:“语法晦涩难懂、速度慢,做统计分析和绘图还行,机器学习只有单独算法的包,做不了深度学习、大数据、工业部署……” ❞
❝将整个数据科学流程于一身,而且是以“现代的”、“优雅的”方式,以管道式、泛函式编程技术实现。不夸张的说,tidyverse操作数据比pandas更好用、易用!再加上可视化本来就是R所擅长,可以说R在数据科学领域好于Python。这种整洁、优雅的tidy-流,带动了R语言在很多研究领域涌现了一系列tidy-风格的包。在机器学习领域,曾经的R靠单打独斗的包,如今也在从整体技术上迎头赶上python,出现了tidymodels包,以及真正最新理念、最新技术、最新一代的机器学习mlr3verse包,它比sklearn还先进,开创性的Graph-流模式(图/网络流,区别于常用的线性流。) ❞
看来下面两个包需要填坑了:
- tidymodels
- mlr3verse
2. 数据分析的流程
tidyverse包提供了全套的解决方案,结合其它常用的包,用起来得心应手。
- 读取数据
- 清洗数据
- 转换数据
- 合并数据
- 筛选数据
- 可视化
- 建模
- 报表
3. 学习资料
电子书还是推荐html的格式,方便copy代码重演结果,如果是英文版的还方便翻译(网页翻译)查看。这里推荐几本书,学习R语言,就应该看最好的教程,学最先进的思想,而不是看陈腐的资料,学过时的方法!!!
第一本:《数据科学中的R语言》https://bookdown.org/wangminjie/R4DS/
「书的特点:」
这本书本来就是研究生的教材,作者王敏杰老师,是四川师范大学的老师,书中内容十分丰富,分享了许多技巧。我也在不断的操作--实践--理解中。
第二本:《R语言编程--基于tidyverse》:https://github.com/zhjx19/introR/blob/master/pdfs/R语言编程:基于tidyverse_至第3章.pdf
「书的特点:」
作者张敬信老师,是哈尔滨商业大学的老师,书中将编程和数学思想进行对比,很有启发性。本书还没有完成,现在释放了一部分章节,但是很值得阅读。
第三本:《R语言进阶笔记》:https://dengfei2013.gitee.io/r-language-advanced/
「书的特点:」
这本书是我的学习笔记,我在学习tidyverse相关函数时,基于自己的理解,用农业中常用的数据结构进行了操作学习,内容比较浅,后面我也会不断更新,欢迎大家阅读。
第四本:北京大学李东风老师的《R语言教程》,https://www.math.pku.edu.cn/teachers/lidf/docs/Rbook/html/_Rbook/index.html
好像现在网站挂了。后面能登陆了我再向大家推荐。
第五本:《R for Data Science》:https://r4ds.had.co.nz/
这本书也是Tidyverse,ggplot2,dplyr作者Hadley Wickham所写的书。建议大家看英文版,里面的语法都是最新的,更新也是最快的。可以用网页翻译作为辅助阅读,阅读体验很好。
4. 学用结合效果最好
很多知识都是毕业后出现的,所以工作中学习新知识是一个常态,能把项目和学习结合起来是学习效率最高的。
当然,把新知识迅速利用到工作中,是很有成就感的。