Python数据分析
工欲善其事,必先利其器“,Python是目前为止做数据分析最常用的编程语言,我们可以站在巨人的肩膀上,高效完成数据分析。
我们首先来了解下Python的发展历史,Python语言诞生于20世纪80年代。由荷兰人Guido van Rossum开发完成。我们称Guido van Rossum为Python之父。值得一提的是Python这个名字的由来,Python有蟒蛇的意思,但Guido起这个名字完全和蟒蛇没有关系。当Guido在实现Python的时候,他还阅读了Monty Python's Flying Circus的剧本,这是来自一部来自20世纪70年代的BBC喜剧。Guido认为他需要一个简短、独特且略显神秘的名字,因此他决定将该语言称为Python。
Python1.0版本于1994年1月发布,这个版本的主要新功能是lambda, map, filter和reduce,但是Guido不喜欢这个版本。
六年半之后的2000年10月份,Python2.0发布了。这个版本的主要新功能是内存管理和循环检测垃圾收集器以及对Unicode的支持。然而,尤为重要的变化是开发的流程的改变,Python此时有了一个更透明的社区。
2008年的12月份,Python3.0发布了。Python3.x不向后兼容Python2.x,这意味着Python3.x可能无法运行Python2.x的代码。Python3代表着Python语言的未来。
今天的Python已经进入到了3,0时代,Python的社区也在蓬勃发展,当你提出一个有关的Python问题,几乎总是有人遇到了同样的问题并已经解决了。
Python语言的特点:
Python是完全面向对象的语言,函数、模块、数字、字符串都是对象,在 Python中一切皆对象。支持重载运算符,也支持泛型设计。
Python拥有一个强大的标准库,Python语言的核心只包含数字、字符串、列表、字典、文件等常见类型和函数,而由Python标准库提供了系统管理、网络通信、文本处理、数据库接口、图形系统、XML处理等额外的功能。
Python社区提供了大量的第三方模块,使用方式与标准库类似。它们的功能覆盖科学计算、人工智能、机器学习、Web开发、数据库接口、图形系统多个领域。
由于Python有强大的功能,使用方便,容易入手。我们经常听到人们说“人生苦短,我用Python”。调研机构 Tiobe 本周发布了 2020 年 10 月份的分析报告,Python语言连续两年蝉联第三。而在2020年11月的最新数据中,Python以势不可挡的趋势超越了Java成为了第二名。
选择一个适用的编程语言特别重要,Python语言具有简单,易学,速度快,免费开源,它专注于如何解决问题、自由开放的社区环境以及丰富的第三方库,无需浪费时间去造轮子:各种Web框架、爬虫框架、数据分析框架、机器学习框架应有尽有,拿来即用。从Python的受欢迎程度上看,一直呈上升趋势
我们现在要使用Python来做数据分析,主要从两个方面来考虑问题:
第一:选择什么开发工具。
第二:学习哪些知识来解决数据分析的问题。
开发工具我推荐使用Anaconda。具体软件可以在清华大学开源镜像网站中下载(https://mirror.tuna.tsinghua.edu.cn/help/anaconda/)根据自己使用的电脑的软硬件环境自行下载相应版本的安装包。安装完毕后再控制台输入 jupyter notebook即可。
本公众号中有详细的anaconda的安装流程,文章链接如下:
anaconda安装流程 大斌哥,公众号:数据山谷Python之Anaconda安装
数据分析使用Python中的知识点和常见的科学计算库也需要给大家列举出来:
基础语法:变量、数据类型、条件、循环。
数据结构:集合、元组、字典。
输入和输出
模块
类
科学计算库:NumPy,Pandas,Matplotlib,Seaborn。
Python做数据分析主要是解决数据清洗及数据可视化的问题,掌握Python基本的语法规则,会调用第三方模块对于提高数据分析能力非常重要。而NumPy和Pandas就是数据清洗最好用的工具,Matplotlib和Seaborn是解决数据可视化的工具包。我们可以从实用的角度来学习Python,提高数据分析的能力和效率。