一、R 语言简介
1.1 R 语言历史
R 语言是一款统计软件,R 语言也是一门编程语言,R 语言也是一个数据分析平台。R 是一个免费自由且跨平台通用的统计计算与绘图软件,它有 Windows、Mac、Linux 等版本,均可免费下载使用。R 项目(The R Project for Statistical Computing)最早由新西兰奥克兰大学(Auckland University)的 Robert Gentleman(1959-)和 Ross Ihaka(1954-) 开发,故软件取两人名字的首字母命名为 R 。该项目始于 1993 年,2000 年发布了首个官方版本 R 1.0.0 ,后期维护由 R 核心团队(R Core Team)负责。截止 2019 年 4 月,已发布到 3.6 版本。凭借其开源、免费、自由等开放式理念,R 迅速获得流行,目前已成为学术研究和商业应用领域最为常用的数据分析软件之一。随着大数据行业的发展,R 语言变得越来越流行,R 语言发挥了越来越重要的作用。
1.2 为什么要学习 R 语言
➢ 数据计算
➢ 统计检验
➢ 统计建模
➢ 数据挖掘
➢ 数据可视化
二、R 语言的优缺点
2.1 R 语言的优点
➢ 开源、免费,具有完整的统计学功能,有大量的扩展包(开源不一定免费)
➢ 有效的数据处理和保存机制。
➢ 拥有一整套数组和矩阵的操作运算符。
➢ 一系列连贯而又完整的数据分析中间工具。
➢ 图形统计可以对数据直接进行分析和显示,可用于多种图形设备。
➢ 一种相当完善、简洁和高效的程序设计语言。
➢ R 语言是彻底面向对象的统计编程语言。
➢ R 语言和其它编程语言、数据库之间有很好的接口。
➢ R 语言是自由软件,可以放心大胆地使用,但其功能却不比任何其它同类软件差。
➢ R 语言具有丰富的网上资源。
2.2 R 语言的缺点
➢ 开源、免费,具有完整的统计学功能,有大量的扩展包
➢ 学习成本大;
➢ 不擅长处理非结构数据;
➢ 计算消耗资源较多;
➢ R 的扩展包太多了,比较混乱,不容易找到适合的扩展包;
➢ 不擅长多线程处理。
2.3 R 语言与 Excel 对比
1、R 语言开源免费,Excel 收费;
2、R 语言支持 Linux 版本,Excel 只支持 windows,macos,ios,Android;
3、能够计算大数据,Excel 默认只能处理 100 万行数据;
4、R 语言有更好扩展能力,有很多现成的包;
5、R 语言有更好的绘图能力,例如可以很方便绘制热图,基因组圈图等复杂图形;
6、R 语言的 Bioconductor 项目可以处理生物数据,例如基因表达数据,单细胞测序等;
7、R 语言学习成本较大,不如 Excel 简单。
使用SAS软件发表文章,如果单位没有购买的话,会被起诉。因为SAS软件比较贵,买的单位不多。
2.4 R 语言与 Python 对比
1、R 语言具有更强大的统计学功能;
2、R 语言的 Bioconductor 项目可以处理生物数据,例如基因表达数据,单细胞测序等;
3、R 语言的绘图能力更强,尤其是 ggplot2 包;
4、python 兼容性不好;
5、python 具有更强大的文本处理能力;
6、python 资源管理更好,R 不擅长多线程计算,更消耗资源;
三、结构化数据与非结构化数据
结构化数据:信息能够用数据或统一的结构加以表示,我们称之为结构化数据,如数字、符号;
非结构化数据:信息无法用数字或统一的结构表示,如文本、图像、声音、网页等,我们称之为非结构化数据。
R 语言更擅长处理结构化数据,因此,在使用 R 之前,尽量确保数据是严格的表格结构。也就是二位的表格,分为行和列。在 R 语言中,行称为“观测”,列称为“变量”。
四、 数据分析的六个过程
➢ 数据采集
➢ 数据存储
➢ 统计分析
➢ 数据挖掘
➢ 数据可视化
➢ 生成报告
写在最后:有时间我们会努力更新的。大家互动交流可以前去论坛,地址在下面,复制去浏览器即可访问,弥补下公众号没有留言功能的缺憾。原地址暂未启用(bioinfoer.com)。
代码语言:javascript复制sx.voiceclouds.cn
有些板块也可以预设为大家日常趣事的分享等,欢迎大家来提建议。