Q-Q图和P-P图原理
对于一组数据是否符合某个分布,有很多种统计检验的方法,比如K-S检验,卡方检验,从图形上我们可以用Q-Q图和P-P图来检查数据是否服从某种分布。他们可以检验的分布图包括:β分布,t分布、卡方分布、伽马分布、正态分布、均匀分布等等。
Q-Q图:一种通过画出分位数来比较两个概率分布的图形方法。图中的点(x,y)对应的是第一个分布的分位数和第二个分布相同的分位数。比如对于正态分布,就是以标准正态分布的分位数为横坐标,样本值为欸纵坐标的单点图,如果Q-Q图上的点近似在一条直线附近,则说名样本服从正太分布,而且该直线的斜率为标准差,截距为均值。
P-P图:是根据变量的累积比例与指定分布的累计比例之间的关系绘制的图形。通过P-P图可以检验数据是否符合指定的分布,当符合是,图中各点近似的呈现一条直线。如果图中个点不呈直线,但有一定规律,这可以对数据进行转换,是转换后的数据更接近指定分布。P-P图和Q-Q图的用途完全相同,只是检验的方法存在差异。
通过R自带的函数画Q-Q图
> x <- rnorm(250 , mean=10 , sd=1) #Compare the numbers sampled with rnorm() against normal distribution
> qqnorm(x)
> qqline(x)
通过CircStats包绘制P-P图
library(CircStats)
pp.plot(x)
用ggplot2绘制Q-Q图
library(ggplot2)
df <-data.frame(x=rnorm(250 , mean=10 , sd=1))
ggplot(df, aes(sample = x))
geom_qq(size=1)
geom_qq_line(size=1)