作者:杰少,炼丹笔记嘉宾
时间序列模型训练的两种黄金策略
简 介
本篇文章,我们介绍Kaggle和国内时间序列相关的数据竞赛中,90%的冠亚军和金牌选手会选用的建模策略,基于滑动窗口的样本构建策略,一般有两种滑动建模训练的策略,但这两种的思路基本都基于下面这张图构建的数据集:
两种时间序列模型训练策略
假设我们需要预测未来N天每一天/小时的商店的销量/每个股票的价格,该如何处理呢?
这两种时间序列建模的策略是一样的,不同的是二者的训练方式,我们基于上图所示的滑动标签策略,得到我们的数据集合
- 每次滚动一个单元(一天/一小时)作为标签;
01
单个单元训练
- 基于未来第N天/小时的数据进行训练;
02
多个单元一起训练
- 将未来所有的N天的数据放一起训练,未来区分不同的天数,我们将其用距离当前的时间作为标记将其区分开。
03
二者的比较
- 单个单元训练的策略,需要训练多个模型,但是数据集也会变小,适合数据集较大的问题;
- 多个单元一起训练的策略,只需要训练一个模型,但是数据集会变成之前的N倍,适合数据集不是非常大的情况;
- 很多冠亚军的思路目前基本都是上面两种训练策略的融合。
代码
01
单个单元训练
代码语言:javascript复制temp_df = train_df[['id','d',TARGET]]
start_time = time.time()
for i in range(1,8):
print('Shifting:', i)
temp_df['lag_' str(i)] = temp_df.groupby(['id'])[TARGET].transform(lambda x: x.shift(i))
for i in range(1,8):
label = 'lag_' str(i)
single_cell_label = temp_df['lag_' str(i)]
model.train(features, single_cell_label)
02
多个单元一起训练
代码语言:javascript复制temp_df = train_df[['id','d',TARGET]]
start_time = time.time()
for i in range(1,8):
print('Shifting:', i)
temp_df['lag_' str(i)] = temp_df.groupby(['id'])[TARGET].transform(lambda x: x.shift(i))
models = []
label = 'lag_' str(i)
multi_cell_labels = pd.concat([temp_df['lag_' str(i)] for i in range(1,8)],axis=0,ignore_index =True)
# i 表示第i个cell,用来区分不同的cell之间的训练预测,不然预测结果会一样
features_all = []
for i in range(1,8):
features[i] = i
features_all.append(features)
multi_cell_features = pd.concat(features_all,axis=0,ignore_index =True)
model.train(multi_cell_features, multi_cell_labels)
参考文献
- M5 - Lags features