写
在前面
在上一期中,大猫向大家强调了R学习路径中非常重要的一环:数据处理,也就是data.table包的作用。在本期,大猫将向大家介绍数据分析的另外一面:数据可视化的学习路径。
PS:先和小伙伴们道个歉~前一段时间大猫正在欧洲旅行,拖更了好久,小伙伴们多多包涵哦。
学
习路径:数据可视化(data manipulation)
大家在读文献的过程中一定有这样的体验:一张漂亮、美观的图对于文章绝不仅仅是“画龙点睛”的作用,它还反映了作者的态度、对数据的理解程度以及technical方面的技能。换句话说,如果要让你的文章在最短的时间内看起来”高大上“,画一张fancy一点的图吧!
“数据处理与数据可视化是数据挖掘的两面。而且后者正在变得越来越重要 ”
——我也忘了是谁说的了
”
就R而言,目前已经有非常多优秀的绘图包,例如大名鼎鼎的ggplot2,出自大神Hadley之手。但是在这里大猫将向大家介绍另外一个非常优秀的绘图包:ggvis。
ggvis的明星开发团队
我们先来看看在CRAN的主页上ggvis的作者都写了谁:
Winston Chang [aut, cre],
Hadley Wickham [aut]
RStudio [cph]
jQuery Foundation
作者Winston Chang,R绘图领域的大神,其写的“R Graphics Cookbook”和Hadley写的“The Advanced R"一样在R社区中享有崇高地位,被称为学习R绘图不可不看的经典。Winston和Hadley私交不错,所以你看到ggvis的另外一个作者就是Hadley本人。
ggvis还有另外一个大腿:RStudio。学习R的同学肯定知道RStudio,它是目前使用最广泛的R集成开发环境(IDE)。用RStudio写R代码不知比原生的RGui要快上多少,如果小伙伴们还在用RGui,赶紧鸟枪换炮吧。
jQuery对于做前端开发的小伙伴来说一定非常熟悉,它是网页开发中最常用到的工具之一。jQuery出现在开发者名单中,可见ggvis和ggplot的一大设计区别:ggplot重视静态页面的呈现,而ggvis则重视网页以及交互。
ggvis能干什么?
ggvis最酷炫的地方在于它的interactivity,也就是说,你在画完图之后,如果觉得对哪个参数不满意,可以直接拨动滑杆进行调节!大猫在这里放几幅来自ggvis官网ggvis.rstudio.com的demo.
以上两幅图都是根据同一组数据(图中黑点)所绘的图,但是我们发现,只要波动下面的“smoothing span”的滑杆,我们就能实时调整拟合曲线的光滑度而不需要重新运行代码,是不是非常酷炫?
ggvis如何学?
由于比较新,所以和ggplot2相比,ggvis的学习资料要少一些,大猫建议大家先从ggvis的官方教程学起,ggvis的官网是:
http://ggvis.rstudio.com/
是不是有眼尖的小伙伴发现了什么问题:ggvis的官网怎么跑到rstudio去了呢?没错,ggvis的主要作者Chang目前全职在rstudio工作,负责开发网页交互插件shiny。大猫个人的理解是:Chang是被招安的……
ggvis的官方教程条理清晰,内容丰富,大致分为原理、入门、进阶几个部分。我们可以先来看一下他的目录:
一般而言,学完了“getting started with ggvis”中“recipes”和“ggvis basics”两部分内容,日常绘图就没有太大问题了,而“advanced topics”中的内容更多是关于自定义坐标轴、图例等方面的内容,需要用时再学也不迟。在这里再放一个“recipes”教程中的截图:
除了官方教程以外,大猫还向大家推荐一个ggvis的视频教学网站:datacamp.com。datacamp是一个“learning by doing”的网站,也就是说,每个video lecture结束后,都会配套在线的编程练习,网站会自动检查你的答案并评分。此外,除了ggvis,datacamp还提供ggplot2的教学视频,以下是其目录:
最后一个大猫推荐学习ggvis的地方就是stackoverflow.com了。stackoverflow是世界上最大的程序员问答网站,只要你在搜索时加上[ggvis]标签,那么你就能搜索到和ggvis相关的所有问题。例如,我想学习如何在ggvis中添加图例(legend),那么我可以输入:
[ggvis] legend
搜索结果如图:
以上三大学习资料,大猫建议的学习顺序是:官网教程的“初级部分”和datacamp.com上面的教程是可替代的,学哪个都可以,而进阶教程的话建议看官网教程的“advanced”部分。至于stackoverflow,则是在你编程遇到某个具体困难的时候帮你排忧解惑的不二之选。
本
期总结
本期大猫主要向大家介绍了R学习路径的第二部分:数据可视化(data visualization)的常用包ggvis。我们介绍了ggvis的明星作者团队、ggvis强大的网页交互能力以及ggvis的学习方法。其中,关于ggvis的学习方法我们主要给出了三大学习资料:官方教程(ggvis.rstudio.com)、datacamp.com还有stackoverflow.com。
在这个人人都把大数据挂在嘴边的时代,数据可视化越发来得重要,因为只有通过数据可视化,那些抽象的数字才能被所有人理解。如果说数据挖掘是一门科学,那么数据可视化就更像一门艺术——毕竟很多时候,事物呈现的方式很大程度上决定了人们对它的评价。这就是为什么我们需要学习数据可视化的原因。
在下一期,大猫会介绍自己所使用的R开发工具:Microsoft Visual Studio Microsoft R Open R Tools for Visual Studio。这是一套比原生R(CRAN R)要强大许多倍的开发环境。他基于这个地球上最强大的IDE——Visual Studio,能够极大提高编程效率。
我是大猫,咱们下期见!