正 文
来 源:知乎/作 者:Roar
转自:爱数据LoveData
本文内容是描述性统计分析,我觉得有必要弄清什么是描述性统计,于是去google了一下得到如下答案:
描述统计(Descriptive statistics):描述统计是通过图表或数学方法,对数据资料进行整理、分析,并对数据的分布状态、数字特征和随机变量之间关系进行估计和描述的方法。目的是描述数据特征,找出数据的基本规律。描述统计分为集中趋势分析和离中趋势分析和相关分析三大部分。
首先描述统计是通过图表或数学方法,这里提到了要用图表,那么图表又有哪几类呢?下面就介绍一下常用的图(所有图形均来自常见的图表)。
01
常用图
(1)柱形图
定义:显示一段时间内的数据变化或显示各项之间的比较情况,主要使用颜色进行类型区分。XY轴的二维空间体现。
主要用于比较各组数据之间的差别或数据变化情况。
当然柱形图也一个大类,下面还可以细分出多种衍生的柱形图,同样,其他类型的图表也都有很多细分的图表。这里由于篇幅的原因,不一一列出。
(2)折线图
定义:显示随时间(根据常用比例设置)而变化的连续数据,因此非常适用于显示在相等时间间隔下数据的趋势。
主要用于趋势分析。
(3)饼图
定义:显示每一数值相对于总数值的大小。
主要用于各部分占整体的多少说明。
建议:饼图不超过8块,百分比按一定规则顺时针排序
(4)散点图
定义:散点图表示因变量随自变量而变化的大致趋势,据此可以选择合适的函数对数据点进行拟合。顾名思义,就是散落的点去表达信息。
主要用于查找变量之间的相关性。
注意:此处经常可以使用一些数学的的方法去转换,使得散点图具有某种相关性
(5)雷达图
定义:集中划在一个圆形的图表上,来表现一个整体中的各项个体比率的情况。
主要用于各项指标整体情况分析。
建议:指标不要超过20项
(6)地图
定义:按一定的比例运用符号、颜色、文字注记等描绘显示地球表面的自然地理、行政区域、社会经济状况的图形。
主要用于体现地理位置上各项数据的情况。
(7)矩形树图
主要用于整体中各个子项目占整体的多少。
(8)桑基图
定义:它是一种特定类型的流程图,图中延伸的分支的宽度对应数据流量的大小,通常应用于能源、材料成分、金融等数据的可视化分析。
桑基图最明显的特征就是,始末端的分支宽度总各相等,即所有主支宽度的总和应与所有分出去的分支宽度的总和相等,保持能量的平衡。
电商进行流量来源去向分析时,常用桑基图表示。
(9)漏斗图
电商领域中,主要是基于用户行为步骤,查看转化率情况。
(10)箱线图
定义:常用的统计量,能提供有关数据位置和分散情况的关键信息,尤其在比较不同的母体数据时更可表现其差异。
这里的箱线图就是根据四分位数得到的,可以比较直观的得到一组数据的聚集程度。
02
估计和描述的方法
数据的分布状态、数字特征和随机变量之间关系进行估计和描述的方法。
这部分要求利用统计的方法知道某一产品更贴合哪一种分布,从而利用相关的数学模型去进一步分析相关的问题。
03
集中趋势分析、离中趋势分析和相关分析
(1)集中趋势分析
集中趋势是用来描述舆论现象的重要统计分析指标,常用的有平均数、中位数和众数等。
(2)离散趋势
是指一组数据背离分布中心值的特征,反映各变量值远离其中心值的程度。
常用指标有极差、四分位数间距、方差、标准差、标准误差和变异系数等。
(3)相关分析
是描述客观事物相互间关系的密切程度并用适当的统计指标表示出来的过程。
常见的包含正相关和负相关。价格和购买量的关系一般来说是正相关,不过实际问题中有很多的因素要具体问题要具体分析。
- END -
代码语言:javascript复制对比Excel系列图书累积销量达15w册,让你轻松掌握数据分析技能,可以在全网搜索书名进行了解选购: