关于对Python的认知一节‘Python之从小白到认知,你只差一个它!
’中,大灰狼和大家提到Python编程语言拥有诸多在Web开发、数据科学、爬虫系统、机器学习、自动化运维和测试等互联网开发中的框架和结构特性。
Python可能不是网络应用开发的理想选择,但是不可否认的是,Python也正被很多机构广泛用于评估大型数据集「dataset」、数据可视化、进行数据分析或制作原型。
因此在数据科学领域,Python也正在获得诸多互联网络开发者的青睐。
那么今天大灰狼就来和大家聊一聊Python在数据科学领域的作用和强大功能。
很多人可能对‘数据科学’这个名词略有生疏,那么究竟什么是‘数据科学’呢?它和已经存在的‘信息科学’、‘统计学’、‘机器学习’等学科又有怎样的不同之处呢?
大灰狼来简单分析一下,从字面意思来讲,它是一种对已经存在在互联网络和我们生活中的诸多数据的科学性分析,并将其为我们所用的一个过程。
作为近年来一门新兴的学科,数据科学主要依赖于两个因素:一是数据的广泛性和多样性;二是数据研究的共性。现代社会的各行各业都充满了数据,这些数据的类型多种多样,不仅包括传统的结构化数据,如金额、数量等;也包括网页、文本、图像、视频、语音等非结构化数据。
对数据进行分析本质上都是在解反问题,而且通常是随机模型的反问题,那么很多人可能会问什么是‘反问题’?
简单来说,‘反问题’就是一道题你可以按照正常的顺序来解答,而现在是反问的方式来提出来,你按正常的顺序解答出来的最开始的问题,这就是反问题。因此在数据科学上对它们的研究有很多共性和相似之处。
例如,自然语言处理和生物大分子模型都用到隐马尔科夫过程和动态规划方法,其最根本的原因是它们处理的都是一维随机信号;再如,图像处理和统计学习中都用到的正则化方法,也是处理反问题的数学模型中最常用的一种。
而对于数据科学,主要包括两个方面的内容:简单来说就是用数据的方法研究科学和用科学的方法研究数据。
前者包括生物信息学、天体信息学、数字地球等领域;后者包括统计学、机器学习、数据挖掘、数据库等领域。而这些学科都是数据科学的重要组成部分,只有把它们有机地整合在一起,才能形成整个数据科学的全貌。
既然学习数据科学,那么就应该深刻的理解其中所包含的内容:
在数据科学的基本技术栈中,包括Python、数据统计分析、机器学习等相关内容。
具体图示详解如下:
在互联网中,每一门语言或每一个领域都有属于自己的开发环境,而对于数据科学,最方便的、最常使用的环境是「 Anaconda」。
「Anaconda 」是一个免费开源的 Python 和 R 语言的发行版本,用于计算科学(数据科学、机器学习、大数据处理和预测分析)领域。最重要的是Anaconda 可简化包管理和部署,拥有超过 1400 个适用于 Windows、Linux 和MacOS 的数据科学软件包。
它的优势就在于自带 Python 以及众多数据科学相关的第三方库,一步安装所有依赖,省时省力。
而在上面关于数据科学的结构图解中,已经展现出了许多数据科学的专用工具库,如;NnumPy、Pandas、matplotlib、SciPy、scikit-learn等,并且这些工具库对于数据科学来说,都是需要掌握的。所以大灰狼对这几个工具库作了简单的介绍:
NnumPy:基于 Python 的科学计算第三方库,提供了矩阵,线性代数,傅立叶变换等等的解决方案。
Pandas;用于数据分析、数据建模、数据可视化的第三方库。
Matplotlib;用 Python 实现的类 matlab 的第三方库,用以绘制一些高质量的数学二维图形。
SciPy;SciPy 是一个开源的 Python 算法库和数学工具包。包含的模块有最优化、线性代数、积分、插值、特殊函数、快速傅里叶变换、信号处理和图像处理、常微分方程求解和其他科学与工程中常用的计算。
scikit-learn;机器学习第三方库,实现许多知名的机器学习算法。
并且大灰狼已经为大家总结好了以上几个库的官方入门文档(译文),从最基本的关于工具库的官方入门文档着手学习,不为是一个较好的选择。微信公众号回复 ‘链接’ 即可获取文档链接。
NumPy 入门资料:《NumPy 快速入门教程》
Pandas 入门资料:《Pandas 快速入门》
matplotlib 入门资料:《matplotlib 教程》
SciPy 入门资料:《SciPy tutorial》
scikit-learn 入门资料:《scikit-learn (sklearn) 官方文档中文版》
并且如果你想要通过视频课程快速的了解它们的用法,可以参考慕课网的免费课程《Python数据分析-基础技术篇》
。这个课程不仅介绍了 Anaconda 的安装,也介绍了上面这些工具库的核心用法。适合较快的对数据科学和数据分析了解和学习。
关于上述工具库的更详细的方法和要点,可以阅读图书《利用Python进行数据分析 原书第2版》
,该图书是由Pandas 工具库的作者亲自撰写,兼具权威性和易读性。
关于数据科学相关技术的原理和理论知识,可以阅读图书《数据科学入门》
,深入浅出,适合学习了解。
想要对数据科学有更深刻的了解,也可以参考Comprehensive learning path – Data Science in Python(其译文)
。
觉得不错记得关注分享,大灰狼期待与你一同进步!
同时你也可以关注我的微信公众号“灰狼洞主”获取更多Python项目开发技术分享和互联网资讯!