R语言基础

2022-10-25 19:44:06 浏览数 (2)

一、R 语言简介

1.1 R 语言历史

R 语言是一款统计软件,R 语言也是一门编程语言,R 语言也是一个数据分析平台。R 是一个免费自由且跨平台通用的统计计算与绘图软件,它有 Windows、Mac、Linux 等版本,均可免费下载使用。R 项目(The R Project for Statistical Computing)最早由新西兰奥克兰大学(Auckland University)的 Robert Gentleman(1959-)和 Ross Ihaka(1954-) 开发,故软件取两人名字的首字母命名为 R 。该项目始于 1993 年,2000 年发布了首个官方版本 R 1.0.0 ,后期维护由 R 核心团队(R Core Team)负责。截止 2019 年 4 月,已发布到 3.6 版本。凭借其开源、免费、自由等开放式理念,R 迅速获得流行,目前已成为学术研究和商业应用领域最为常用的数据分析软件之一。随着大数据行业的发展,R 语言变得越来越流行,R 语言发挥了越来越重要的作用。

1.2 为什么要学习 R 语言

➢ 数据计算

➢ 统计检验

➢ 统计建模

➢ 数据挖掘

➢ 数据可视化

二、R 语言的优缺点

2.1 R 语言的优点

➢ 开源、免费,具有完整的统计学功能,有大量的扩展包(开源不一定免费)

➢ 有效的数据处理和保存机制。

➢ 拥有一整套数组和矩阵的操作运算符。

➢ 一系列连贯而又完整的数据分析中间工具。

➢ 图形统计可以对数据直接进行分析和显示,可用于多种图形设备。

➢ 一种相当完善、简洁和高效的程序设计语言。

➢ R 语言是彻底面向对象的统计编程语言。

➢ R 语言和其它编程语言、数据库之间有很好的接口。

➢ R 语言是自由软件,可以放心大胆地使用,但其功能却不比任何其它同类软件差。

➢ R 语言具有丰富的网上资源。

2.2 R 语言的缺点

➢ 开源、免费,具有完整的统计学功能,有大量的扩展包

➢ 学习成本大;

➢ 不擅长处理非结构数据;

➢ 计算消耗资源较多;

➢ R 的扩展包太多了,比较混乱,不容易找到适合的扩展包;

➢ 不擅长多线程处理。

2.3 R 语言与 Excel 对比

1、R 语言开源免费,Excel 收费;

2、R 语言支持 Linux 版本,Excel 只支持 windows,macos,ios,Android;

3、能够计算大数据,Excel 默认只能处理 100 万行数据;

4、R 语言有更好扩展能力,有很多现成的包;

5、R 语言有更好的绘图能力,例如可以很方便绘制热图,基因组圈图等复杂图形;

6、R 语言的 Bioconductor 项目可以处理生物数据,例如基因表达数据,单细胞测序等;

7、R 语言学习成本较大,不如 Excel 简单。

使用SAS软件发表文章,如果单位没有购买的话,会被起诉。因为SAS软件比较贵,买的单位不多。

2.4 R 语言与 Python 对比

1、R 语言具有更强大的统计学功能;

2、R 语言的 Bioconductor 项目可以处理生物数据,例如基因表达数据,单细胞测序等;

3、R 语言的绘图能力更强,尤其是 ggplot2 包;

4、python 兼容性不好;

5、python 具有更强大的文本处理能力;

6、python 资源管理更好,R 不擅长多线程计算,更消耗资源;

三、结构化数据与非结构化数据

结构化数据:信息能够用数据或统一的结构加以表示,我们称之为结构化数据,如数字、符号;

非结构化数据:信息无法用数字或统一的结构表示,如文本、图像、声音、网页等,我们称之为非结构化数据。

R 语言更擅长处理结构化数据,因此,在使用 R 之前,尽量确保数据是严格的表格结构。也就是二位的表格,分为行和列。在 R 语言中,行称为“观测”,列称为“变量”。

四、 数据分析的六个过程

➢ 数据采集

➢ 数据存储

➢ 统计分析

➢ 数据挖掘

➢ 数据可视化

➢ 生成报告

写在最后:有时间我们会努力更新的。大家互动交流可以前去论坛,地址在下面,复制去浏览器即可访问,弥补下公众号没有留言功能的缺憾。原地址暂未启用(bioinfoer.com)。

代码语言:javascript复制
sx.voiceclouds.cn

有些板块也可以预设为大家日常趣事的分享等,欢迎大家来提建议。

0 人点赞