数据的时间是从1月1日到10月30日。 原始数据的内容包括:销售日期、发票号码、销售人、地区、商品代码、商品类型、商品大小分类、销售数量、商品单价。 在数据步里我又根据原始数据生成了另外两项数据:销售月份、销售金额。其中销售月份从销售日期中取得而来,销售金额=销售数量*商品单价。
先对数据进行简单统计:
蓝色代表销售额,红色代表销售数量。可以看到1、2月的销售数量和销售金额都远比其它月份低,这是因为该公司员工春节放假较早,从1月15日到2月4日之间都没有数据。另外春节前后大家都忙家事,因此业务量就偏小,因此数据就上不去了。还可以看到,7月份的销售数量达到最高,但是销售金额却不是最高,说明这个月销售出去的都是些价格偏低的商品,而10月的销售数量较低,销售金额却达到最高,说明这个月销售出去的都是些价格偏高的商品。
可以看到日销售金额线还是比较满足平稳时间序列的情况的,所以可以对此做时间序列分析,预测后面两个月的销售额。
通过饼图筛选出销售额比较突出的地区。
通过饼图筛选出销售额比较突出的销售人员。
通过饼图筛选出比较畅销的几种商品。
通过饼图筛选出比较畅销的几类商品。
通过饼图筛选出比较畅销的商品大小分类。 再对月份进行聚类,可以看出1、2、3月份都是销售数量和销售额均偏低的月份,所以聚为一类;8、9、10月份都是销售数量不高,销售金额却相当高的月份;其余几个月份聚为一类。
下面按日期对销售额做时间序列分析:
可以看出自相关系数是拖尾的。
可以看出偏相关系数是截尾的,因此可以选择自回归模型作为选定模型。但是偏相关系数可能是4步截尾,也可能是13步截尾的。因此下面对4步截尾和13步截尾都进行分析。
(13步截尾)
(4步截尾)
可以看出,无论从AIC准则还是SBC准则,还是Pr值,都能确定4步截尾比13步截尾更适合本模型。下面即对接下来两个月的数据进行预测:
由于数据太多,所以只截取一部分出来。