90%冠亚军采用的时间序列建模策略

2021-12-02 15:47:58 浏览数 (1)

作者:杰少,炼丹笔记嘉宾

时间序列模型训练的两种黄金策略

简 介

本篇文章,我们介绍Kaggle和国内时间序列相关的数据竞赛中,90%的冠亚军和金牌选手会选用的建模策略,基于滑动窗口的样本构建策略,一般有两种滑动建模训练的策略,但这两种的思路基本都基于下面这张图构建的数据集:

两种时间序列模型训练策略

假设我们需要预测未来N天每一天/小时的商店的销量/每个股票的价格,该如何处理呢?

这两种时间序列建模的策略是一样的,不同的是二者的训练方式,我们基于上图所示的滑动标签策略,得到我们的数据集合

  • 每次滚动一个单元(一天/一小时)作为标签;

01

单个单元训练

  • 基于未来第N天/小时的数据进行训练;

02

多个单元一起训练

  • 将未来所有的N天的数据放一起训练,未来区分不同的天数,我们将其用距离当前的时间作为标记将其区分开。

03

二者的比较

  • 单个单元训练的策略,需要训练多个模型,但是数据集也会变小,适合数据集较大的问题;
  • 多个单元一起训练的策略,只需要训练一个模型,但是数据集会变成之前的N倍,适合数据集不是非常大的情况;
  • 很多冠亚军的思路目前基本都是上面两种训练策略的融合。

代码

01

单个单元训练

代码语言:javascript复制
temp_df = train_df[['id','d',TARGET]]

start_time = time.time()
for i in range(1,8):
    print('Shifting:', i)
    temp_df['lag_' str(i)] = temp_df.groupby(['id'])[TARGET].transform(lambda x: x.shift(i))
     
for i in range(1,8):
    label = 'lag_' str(i)
    single_cell_label = temp_df['lag_' str(i)]
    model.train(features, single_cell_label)
 

02

多个单元一起训练

代码语言:javascript复制
temp_df = train_df[['id','d',TARGET]]

start_time = time.time()
for i in range(1,8):
    print('Shifting:', i)
    temp_df['lag_' str(i)] = temp_df.groupby(['id'])[TARGET].transform(lambda x: x.shift(i))
    
models = [] 
label = 'lag_' str(i)
multi_cell_labels   = pd.concat([temp_df['lag_' str(i)] for i in range(1,8)],axis=0,ignore_index =True)
 # i 表示第i个cell,用来区分不同的cell之间的训练预测,不然预测结果会一样
    
features_all = []
for i in range(1,8):
    features[i] = i
    features_all.append(features)
multi_cell_features = pd.concat(features_all,axis=0,ignore_index =True) 
model.train(multi_cell_features, multi_cell_labels) 

参考文献

  1. M5 - Lags features

0 人点赞