使用pandas Profiling进行探索性数据分析

2022-04-13 13:39:30 浏览数 (1)

标签:pandas,pandas-profiling

本文介绍一个数据探索库——pandas profiling,有点像pandas中的.describe()方法,但更好。

使用pip安装这个库:

pip install pandas-profiling

配置代码环境

本文将使用Jupyter笔记本,这也是pandas_profiling官方文档推荐的。

如果不想为虚拟环境而烦恼,那么继续在你的计算机上安装完整的profiling系统。如果要遵循最佳做法并使用虚拟环境,执行以下操作:

1.创建虚拟环境

2.pip install pandas-profiling ipykernelipywidgets

3.将ipykernel链接到虚拟环境

4.开始编写代码

数据

我们将使用gapminder数据集,其中包含世界各国的年数和预期寿命。

图1

现在,将数据框架放入pandas_profiling中以生成报告。

图2

几秒钟后,将在jupyter笔记本中看到生成的Pandas Profiling报告。报告中有几个部分:概述、变量、交互作用、相关性、缺失值、样本。

Overview(概述)部分提供了数据集的高级概述,包括变量数量(列)、观察数量(行)、变量类型。

图3

Variables(变量)部分显示了每个变量的一些详细信息,例如,不同值的数量、每个值的观察次数,等等。

图4

对于每一个变量,我们都可以“切换细节”,以便更深入地了解特定的数据列。

图5

Interaction(交互)部分是一个快速的数据可视化部分。我们可以绕x轴和y轴切换,看看一个变量如何影响另一个变量。

图6

Correlations(相关性)部分显示了具有不同系数计算的相关性矩阵。

图7

Missing values(缺失值)部分突出显示每个数据列缺失(null)值的数量。

图8

最后但并非最不重要的一点是,Sample(示例)部分显示了前10个和后10个示例数据。

在审阅这份报告之后,可以对手头的数据有一个相当好的了解。

大型数据集

对于大型数据集,我们可以使用minimal=True参数来缩短分析报告的生成时间。

profile = ProfileReport(df,title="Pandas Profiling Report", minimal=True)

将分析报告另存为文件

若不想使用Jupyter笔记本环境,那完全没问题。我们仍然可以使用pandas_profiling并将报告生成为网页HTML文件。

图9

0 人点赞