Pandas是做数据分析最核心的一个工具。我们要先了解数据分析,才能更好的明白Pandas,因此,本文分为两个部分:
- 1.数据分析
- 2.Pandas概述
1. 数据分析
1.1 数据分析的背景
随着计算机的大规模普及,网络数据有了一个爆发性地增长
,驱使着人们进入了一个崭新的时代:大数据时代
思考一个问题 既然数据这么多,怎么才能快速地拿到有价值的数据
呢?
数据分析
就可以从海量数据中挖掘潜藏的有价值的信息,帮助企业或个人预测未来的趋势和行为
。所以,不管从事什么行业,如果掌握了数据分析的能力,就会在其岗位上非常具有竞争力!
1.2 什么是数据分析
数据分析是使用统计分析方法
对数据进行分析,从中提取有用信息
和形成结论
,并加以详细研究和概括总结的过程。
数据分析的目的是:将隐藏
在一大批看似杂乱无章
的数据信息集中提炼
出来有用的数据
,以找出所研究对象的内在规律。
在统计学领域
中,数据分析可以划分为如下三类
:
类目 | 描述 |
---|---|
描述性数据分析 | 从一组数据中,可以摘要并且描述这份数据的集中和离散情形。 |
探索性数据分析 | 从海量数据中找出规律,并产生分析模型和研究假设。 |
验证性数据分析 | 验证科研假设测试所需的条件是否达到,以保证验证性分析的可靠性。 |
1.3 数据分析的应用场景
应用 | 方法及其结果 |
---|---|
营销方面 | 通过会员卡形式获得消费者的个人信息,以便对消费者的购买信息进一步研究其购买习惯,发现各类有价值的目标群体。 |
医疗方面 | 医生通过记录和分析婴儿的心跳来监视早产婴儿和患病婴儿的情况,并针对婴儿的身体可能会出现的不适症状做出预测,这样可以帮助医生更好的救助患儿。 |
零售方面 | 在美国零售业曾经有这样一个传奇故事,某家商店将纸尿裤和啤酒并排放在一起销售,结果纸尿裤和啤酒的销量双双增长! |
网络安全方面 | 新型的病毒防御系统可以使用数据分析技术,建立潜在攻击识别分析模型,监测大量网络活动数据和相应的访问行为,识别可能进行入侵的可疑模式。 |
交通物流方面 | 用户可以通过业务系统和GPS定位系统获得数据,使用数据构建交流状况预测分析模型,有效预测实时路况、物流状况、车流量、货物吞吐量,进而提前补货,制定库存管理策略。 |
## 1.4 数据分析的流程 | |
数据分析大致可以分为以下五个阶段: | |
## 1.5 为什么选择Python做数据分析 | |
==问:== |
为什么选择
Python
做数据分析?
![在这里插入图片描述](img-blog.csdnimg.cn/48a88aa3966… =50%x80%) ==答:==
选择Python做数据分析,主要考虑的是Python
具有以下优势
:
- 语法
简单
精炼,适合初学者 - 拥有一个
巨大且活跃
的科学计算社区(强大的后援团!) - 拥有强大的
通用
编程能力 - 人工智能时代的通用语言
方便
对接其它语言
(Python是一种胶水语言)
2. Pandas概述
2.1 Pandas简介
Python本身的数据分析功能并不强,需要安装一些第三方的扩展库
来增强
它的能力。其中,针对结构化数据
(可简单理解为二维表
数据,或我们常用的Excel表
格数据)分析能力最强的第三方扩展库就是Pandas
2.2 Pandas来源
Pandas 是python的一个数据分析包,最初由AQR Capital Management于2008年4月开发
,并于2009年底开源
出来的,目前由专注于Python数据包开发的PyData
开发team
继续开发和维护,属于PyData项目的一部分。Pandas最初
被作为金融数据分析工具
而开发出来,因此,pandas为时间序列分析
提供了很好的支持。 Pandas的名称
来自于面板数据
(panel data)和python数据分析
(data analysis)。
2.3 Pandas 特点
Pandas
是基于NumPy
的一种工具包,是为解决数据分析任务而创建的。但Numpy只能处理数字,若想处理其他类型的数据,如字符串,就要用到Pandas了。Pandas
纳入了大量库和一些标准的数据模型,提供了高效
地操作大型数据集
所需的工具。Pandas
提供了大量能使我们快速便捷
地处理数据
的函数
和方法
,是使Python成为强大而高效的数据分析语言的重要因素之一。- Pandas 可以从各种文件格式比如
CSV
、JSON
、SQL
、MicrosoftExcel
导入数据。 - Pandas 可以对各种数据进行运算操作,比如归并、再成形、选择,还有
数据清洗
和数据加工
特征。 - Pandas 广泛应用在
学术
、金融
、统计学
等各个数据分析领域。
2.4 Pandas最主要的两种数据结构:
Pandas 的主要数据结构是 Series
(一维数据)与 DataFrame
(二维数据),这两种数据结构足以处理金融、统计、社会科学、工程等领域里的大多数典型用例。
Series
是一种类似于一维数组的对象,它由一组数据
(各种Numpy数据类型)以及一组与之相关的数据标签(即索引
)组成。
DataFrame
是一个表格型的数据结构
,它含有一组有序的列
,每列可以是不同的值类型(数值、字符串、布尔型值)。DataFrame 既有行索引
也有列索引
,它可以被看做由Series 组成的字典
(共同用一个索引)。