一,一些基础点。
平均数:数据的中心。
中位数:数据从小到大排列,中间一个或中间两个数的平均值。
众数:次数出现最多的数。
全距:最大值与最小值的差。仅描述数据的宽度,并没有描述数据上界和下届间数据的分布。
四分位数:首先数据按从小到大排序,然后将数据分成四个相同数量的数据块,每块包含原数据的四分之一数据。
下四分位数Q1表示;上四分位Q3表示;Q2其实就是中位数;
四分位距:IQR=Q3-Q1;
下四分位Q1是P25,Q2是P50,Q3是P75。
箱线图:显示数据的全距(上边缘,下边缘),四分位距以及中位数。如图(此图来自internet),
下边缘=Q1-1.5*IQR,上边缘=Q1 1.5*IQR
方差:数值与均值的距离的平方数的平均值
标准差:量度与均值的距离
标准差的单位与相应数据的单位相同。
标准分:标准分的作用是将几个数据集转化为一个理论上的新分布,均值为0,标准差为1。正的z分高于均值,负的z分低于均值。z=0等于均值。
二,几种分布。
几何分布:进行一系列相互独立的实验;每次实验的成功的概率相同;目的是求取得第一次实验成功需要进行多少次实验。
二项分布:进行一系列独立的实验,每一次都存在成功和失败的可能,且每次成功的概率相同;实验有限次数;目的是获得成功的次数。
泊松分布:单独事件在给定区间内随机独立的发生;一直该区间内的事件平均发生次数且为有限值。
正态分布(高斯分布):曲线对称,中央部位的概率密度最大,均值和中位数和众数均位于中央。
求正太分布概率三步走:(1)确定分布范围;(2)使用标准分标准化;(3)查找概率;
几种分布表示及其期望和方差:
分布近似情况,近似求概率将带来方便:
二项分布和泊松分布近似的情况:当试验次数很大切每次成功概率很小时,可以用泊松分布近似代替二项分布。
正太分布代替二项分布的情况:当np和nq都大于5时,q=1-p;可以用正太分布代替二项分布。因为二项分布为离散分布,正太分布为连续分布,所以替代时可能会使结果稍微偏大,因此需要进行连续性修正。
三,总体和样本的估计
样本均值称作总体均值的点估计量,样本均值给出了总体均值很好的估计。
不再使用样品方差估计总体方差,样本方差小于总体方差,所以用下面这个公式:
总体的成功比例用样本的成功比例估计。比例期望和方差如下:
当n>30时,可用正太分布近似,切需要进行连续性修正。
x符合正太分布,则x平均值一定符合正太分布。
若x不符合正太分布,那么x的平均值符合正太分布吗?
中心极限值定理:非正太分布x中取出一个样本,且样本很大,则x的平均值分布近似为正太分布。公式如下:
四,置信区间的构建,假设检验,卡方分布,方差分析。(未完待续)