Informer|时间序列研究之必读核心论文

2024-09-18 16:42:50 浏览数 (2)

之前主要是对真实的数字货币数据,进行基本的数据处理、分析、可视化,并基于light GBM进行了收益率的预测。两篇文章分享了源代码和数据集,但是还是比较侧重于实践。

所以从这篇开始,我也会同步记录自己阅读时间序列论文的笔记。但根据我的经验,由于相关论文太多,刚刚入坑的同学大多是不知道该从哪篇读起的,这是因为新手(包括我自己)往往对当前的研究的发展脉络是没有整体概念的。

这时候,理清整体发展脉络,找到重点论文,并跟踪到最新的研究进展就极其重要。我前期已经阅读了一些论文,包括(Transformer, Informer, Autoformer, Pyraformer, FEDformer, PatchTST, Non-stationary Transformers, LTSF-Linear),这些论文多数是时间序列重要的baseline,我希望通过笔记有个很好的总结,并进行长期的更新,如能帮助大家则是更好。

Transformer|NeurIPS17

Transformer 是开山之作,可是说在大多数研究领域,你都无法绕开它,在时间序列的领域也不例外。你会发现大量以研究“**former”命名的时序研究文章。Transformer的自注意力和多头注意力机制让表征特征的能力提升了一个台阶。但是,今天我们不关心它的优点,当把transformer直接应用到时间序列研究领域,我们发现它的效果并不好,事实上它有并不少缺点,Transformer的缺点驱动了后面大量的研究,就我目前看到以及想到的,它至少有以下不足:

  • 注意力机制的计算复杂度高为O(n^2) (�2) ,且得出的权重仅有少部分有用;
  • 注意力机制仅建立单时间点位之间的关系,实际能提取到的信息非常有限;
  • 对时序位置的建模表示不够充分,而时序任务中位置关系是重中之重;
  • 难以在数据“平稳化”和“非平稳化”之间达到合适的平衡。

上述这些问题直接驱动了后面一系列的文章魔改Transformer。同时由于Transformer天生对位置不太敏感,又掀起了时间序列领域,简单线性模型和Transformer的PK较量。今天主要介绍AAAI的best paper: Informer模型。

Informer|AAAI21(best paper)

上面说到Transformer的时间复杂度和内存占用高,推理速度慢。Informer主要就是围绕“长序列预测”和“效率优化”这两大方面开展的工作,Informer是AAAI21的best paper,我认为值得反复阅读,特别是Informer代码开源。具体来说,Informer做了三件事儿:

(1)Attention计算优化

ProbSparse Self-Attention

作者通过分析发现Attention计算过程中,有的查询Q,仅与少量K有强关系。如下图,我们可以称之为lazy query,这样的查询显然对结果没有帮助。

分三步简化计算:

  • 初始状态下假设有96个K和96个Q,我们随机对K采样,得到25个K用来近似所有K。注意,未采样到的K仍然保留,没有丢弃,这样做只是为了简化计算量。
  • 此时,我们有96个Q,25个K,用所有的Q和新采样的K做内积。对于每一个Q,都要和25个K相乘,会得到25个数值,这25个数值中最大的数值就衡量了当前这个Q的价值。
  • 重复上一步,就得到了96个Q的重要性排序;然后我们取Top N 个Q,余下的Q取均匀分布不做更新,这就是ProbSparse Self-Attention的近似过程,在时间复杂度和内存使用率上达到了O(LlogL),并且根据作者的实验,经过简化效果不但没有降低反而有所提升。

self-attention distilling

通过1d的MaxPool将输入减半,这样做的好处是再次缩减计算量,同时起到了特征强化的作用,并有效地处理超长的输入序列。

(2)Decoder中引入真实值

  • 如上图所示,Decoder在解码时引入了真实值进行预测,图中绿色部分,待预测的部分用‘0’进行标识。个人认为有点类似残差网络的意思,起到了丰富和保留特征的作用。
  • 注意Decoder中仍要做自身的ProbAttention,但要Mask住未来信息。做完ProbAttention后,再与Encoder进行Attention计算。

(3)Decoder中引入真实值

Informer做的第三件事儿,是丰富的位置编码,如图所示对week、month、holiday都进行了编码表示。但站在今天的视角,这种编码方式是否能改进一些?

我希望能获得您的指点和纠错,让我们一起进步。

参考链接: [1]Vaswani, Ashish, et al. "Attention is all you need." Advances in neural information processing systems 30 (2017). [2]Zhou, Haoyi, et al. "Informer: Beyond efficient transformer for long sequence time-series forecasting." Proceedings of the AAAI conference on artificial intelligence. Vol. 35. No. 12. 2021.

0 人点赞