Informer｜时间序列研究之必读核心论文

之前主要是对真实的数字货币数据，进行基本的数据处理、分析、可视化，并基于light GBM进行了收益率的预测。两篇文章分享了源代码和数据集，但是还是比较侧重于实践。

所以从这篇开始，我也会同步记录自己阅读时间序列论文的笔记。但根据我的经验，由于相关论文太多，刚刚入坑的同学大多是不知道该从哪篇读起的，这是因为新手（包括我自己）往往对当前的研究的发展脉络是没有整体概念的。

这时候，理清整体发展脉络，找到重点论文，并跟踪到最新的研究进展就极其重要。我前期已经阅读了一些论文，包括（Transformer, Informer, Autoformer, Pyraformer, FEDformer, PatchTST, Non-stationary Transformers, LTSF-Linear），这些论文多数是时间序列重要的baseline，我希望通过笔记有个很好的总结，并进行长期的更新，如能帮助大家则是更好。

Transformer｜NeurIPS17

Transformer 是开山之作，可是说在大多数研究领域，你都无法绕开它，在时间序列的领域也不例外。你会发现大量以研究“**former”命名的时序研究文章。Transformer的自注意力和多头注意力机制让表征特征的能力提升了一个台阶。但是，今天我们不关心它的优点，当把transformer直接应用到时间序列研究领域，我们发现它的效果并不好，事实上它有并不少缺点，Transformer的缺点驱动了后面大量的研究，就我目前看到以及想到的，它至少有以下不足：

注意力机制的计算复杂度高为O(n^2) (�2) ，且得出的权重仅有少部分有用；
注意力机制仅建立单时间点位之间的关系，实际能提取到的信息非常有限；
对时序位置的建模表示不够充分，而时序任务中位置关系是重中之重；
难以在数据“平稳化”和“非平稳化”之间达到合适的平衡。

上述这些问题直接驱动了后面一系列的文章魔改Transformer。同时由于Transformer天生对位置不太敏感，又掀起了时间序列领域，简单线性模型和Transformer的PK较量。今天主要介绍AAAI的best paper: Informer模型。

Informer｜AAAI21(best paper)

上面说到Transformer的时间复杂度和内存占用高，推理速度慢。Informer主要就是围绕“长序列预测”和“效率优化”这两大方面开展的工作，Informer是AAAI21的best paper，我认为值得反复阅读，特别是Informer代码开源。具体来说，Informer做了三件事儿：

（1）Attention计算优化

ProbSparse Self-Attention

作者通过分析发现Attention计算过程中，有的查询Q，仅与少量K有强关系。如下图，我们可以称之为lazy query，这样的查询显然对结果没有帮助。

分三步简化计算：

初始状态下假设有96个K和96个Q，我们随机对K采样，得到25个K用来近似所有K。注意，未采样到的K仍然保留，没有丢弃，这样做只是为了简化计算量。
此时，我们有96个Q，25个K，用所有的Q和新采样的K做内积。对于每一个Q，都要和25个K相乘，会得到25个数值，这25个数值中最大的数值就衡量了当前这个Q的价值。
重复上一步，就得到了96个Q的重要性排序；然后我们取Top N 个Q，余下的Q取均匀分布不做更新，这就是ProbSparse Self-Attention的近似过程，在时间复杂度和内存使用率上达到了O(LlogL)，并且根据作者的实验，经过简化效果不但没有降低反而有所提升。

self-attention distilling

通过1d的MaxPool将输入减半，这样做的好处是再次缩减计算量，同时起到了特征强化的作用，并有效地处理超长的输入序列。

（2）Decoder中引入真实值

如上图所示，Decoder在解码时引入了真实值进行预测，图中绿色部分，待预测的部分用‘0’进行标识。个人认为有点类似残差网络的意思，起到了丰富和保留特征的作用。
注意Decoder中仍要做自身的ProbAttention，但要Mask住未来信息。做完ProbAttention后，再与Encoder进行Attention计算。

（3）Decoder中引入真实值

Informer做的第三件事儿，是丰富的位置编码，如图所示对week、month、holiday都进行了编码表示。但站在今天的视角，这种编码方式是否能改进一些？

我希望能获得您的指点和纠错，让我们一起进步。

参考链接： [1]Vaswani, Ashish, et al. "Attention is all you need." Advances in neural information processing systems 30 (2017). [2]Zhou, Haoyi, et al. "Informer: Beyond efficient transformer for long sequence time-series forecasting." Proceedings of the AAAI conference on artificial intelligence. Vol. 35. No. 12. 2021.

优化论文模型内存数据

0 人点赞