标签:pandas,pandas-profiling
本文介绍一个数据探索库——pandas profiling,有点像pandas中的.describe()方法,但更好。
使用pip安装这个库:
pip install pandas-profiling
配置代码环境
本文将使用Jupyter笔记本,这也是pandas_profiling官方文档推荐的。
如果不想为虚拟环境而烦恼,那么继续在你的计算机上安装完整的profiling系统。如果要遵循最佳做法并使用虚拟环境,执行以下操作:
1.创建虚拟环境
2.pip install pandas-profiling ipykernelipywidgets
3.将ipykernel链接到虚拟环境
4.开始编写代码
数据
我们将使用gapminder数据集,其中包含世界各国的年数和预期寿命。
图1
现在,将数据框架放入pandas_profiling中以生成报告。
图2
几秒钟后,将在jupyter笔记本中看到生成的Pandas Profiling报告。报告中有几个部分:概述、变量、交互作用、相关性、缺失值、样本。
Overview(概述)部分提供了数据集的高级概述,包括变量数量(列)、观察数量(行)、变量类型。
图3
Variables(变量)部分显示了每个变量的一些详细信息,例如,不同值的数量、每个值的观察次数,等等。
图4
对于每一个变量,我们都可以“切换细节”,以便更深入地了解特定的数据列。
图5
Interaction(交互)部分是一个快速的数据可视化部分。我们可以绕x轴和y轴切换,看看一个变量如何影响另一个变量。
图6
Correlations(相关性)部分显示了具有不同系数计算的相关性矩阵。
图7
Missing values(缺失值)部分突出显示每个数据列缺失(null)值的数量。
图8
最后但并非最不重要的一点是,Sample(示例)部分显示了前10个和后10个示例数据。
在审阅这份报告之后,可以对手头的数据有一个相当好的了解。
大型数据集
对于大型数据集,我们可以使用minimal=True参数来缩短分析报告的生成时间。
profile = ProfileReport(df,title="Pandas Profiling Report", minimal=True)
将分析报告另存为文件
若不想使用Jupyter笔记本环境,那完全没问题。我们仍然可以使用pandas_profiling并将报告生成为网页HTML文件。
图9