时序是用时间线串联的一维的数据,时序每一个时间变量对于一个唯一的值带了的问题是:随机变量对应的样本是唯一。
时序多变量带来了复杂性,样本单一包含信息又太少,这就需要运用特殊的方法挖掘辅助信息来分析这种结构的数据。
辅助信息:就是剔除时间影响的部分信息,找到平稳可靠的信息,这就需要我们首先判断序列是否存在平稳性,还是只是纯随机的。
平稳性是基于时间维上的一种随机性(不是纯随机),时间的无影响性。
平稳性统计特征的分析方法有很多,比如概率分析,统计量(均值,方差,自相关性) 也就是研究序列的低阶矩。
严平稳表明序列与时间无关然而苛刻少见;宽平稳只要保证序列低阶矩的平稳进而可操作运用广。
本文主要讨论:一般平稳的时序检验,不涉及差分运用。平稳性检测通常用:时序图,自相关图检验;纯随机性检验也叫白噪声检验:假设检验,Q统计量,LB统计量。
实践出真知:1950-1982北京城乡居民定期储蓄所占比例时序的检验
检验开始
代码语言:javascript复制year_data <- read_csv("Desktop/file7.csv")
seris<-ts(year_data$prop,start=1950)
plot(seris)
acf(seris)
运用plot(seris)来绘制时间序列图:
运用acf(seris)绘制自相关系数图:
纯随机检验:延迟6阶,12阶下的LB检验
代码语言:javascript复制for(i in 1:2) print(Box.test(prop,lag=6*i))
Box-Pierce test data: prop X-squared = 68.724, df = 6, p-value = 7.467e-13
Box-Pierce test data: prop X-squared = 74.74, df = 12, p-value = 4.115e-11
结论:
1,从时序图可以发现,虽然1950-1960储蓄占比波动较大,但在1961年之后的30多年储蓄占比都在80%左右,波动比较平稳。
2,样本自相关图显示在延迟7阶后,自相关系数始终都在2倍标准差的蓝色基准线之内,其相关系数向零快速衰减,在延迟8阶后相关系数在0值附近小幅波动,这是典型的短期相关样本的自相关图,结合时序图的性质,可以判断该序列平稳。
3,纯随机检验,可以发现在延迟6阶,12阶下的LB检验的P值都非常小(小于基准的0.05),我们有很大的把握判断该序列为非白噪声序列。
从这里开始美好时序分析之旅
注释:一些非平稳的含有“趋势,周期,季节,波动”的时间序列,也有分析的价值,这时我们通常的方法是用差分运算来分解趋势,周期,季节,波动的影响来提取平稳的内在信息,进而也可以深入做时序分析。