时间序列的多尺度建模
多尺度是时序研究必须要考虑的问题。一方面,不同特征的周期模式有长有短,需要用不同尺度进行刻画。另一方面,尺度越小越精细,计算越复杂;尺度越大越粗糙,相应计算量减少,这又涉及到如何平衡的问题。
而如何为不同时序特征寻找最佳的建模尺度,并在此基础上建立多特征、多尺度的交互关系直接决定了模型效果。这部分工作包含:数据embedding技巧、patch策略、注意力机制设计方法(patch内、patch间、多特征间),值得总结。
本文为大家总结了近期发表的8篇高质量时序多尺度建模论文。后续将挑选出部分论文进行解读,欢迎大家关注。
1、Pathformer
论文标题:MULTI-SCALE TRANSFORMERS WITH ADAPTIVE PATHWAYS FOR TIME SERIES FORECASTING(ICLR2024)
论文提出Pathformer模型,模型整合了数据的resolution和distance,能够动态调整多尺度建模过程。具体是:通过傅里叶变换,把时间序列数据自适应切分为最佳的、不同尺度的patch,并且还在patch内、和patch间设计了注意力机制,捕获全局和局部的依赖关系。在9个数据集上取得sota效果。
2、Crossformer
论文标题:CROSSFORMER : TRANSFORMER UTILIZING CROSS DIMENSION DEPENDENCY FOR MULTIVARIATE TIME SERIES FORECASTING(ICLR2023)
上海交大团队发表论文提出Crossformer,一个基于Transformer的时序模型。模型利用跨维度依赖进行多元时间序列(MTS)预测。在Crossformer中,输入的MTS通过Dimension-Segment-Wise(DSW)被嵌入到二维向量,以保留时间和维度信息。然后,提出两阶段注意力(TSA)层,捕获跨时间和跨维度的依赖关系。通过利用DSW嵌入和TSA层,Crossformer建立了分层编码器-解码器(HED),以利用不同尺度上的信息进行最终预测。
3、Scaleformer
论文标题:SCALEFORMER : ITERATIVE MULTI - SCALE REFINING TRANSFORMERS FOR TIME SERIES FORECASTING(ICLR2023)
论文提出一个通用的多尺度框架Scaleformer, Scaleformer能够应用到其他基于transformer的时序模型,并带来5.5%至38.5%的性能提升。框架通过迭代地在越来越精细的尺度上优化预测的时间序列,并引入了一种归一化方案,以最小化不同尺度之间的分布偏移,从而产生更好地捕捉目标信号趋势和局部变化的预测结果。
4、Pyraformer
论文标题:PYRAFORMER : LOW-COMPLEXITY PYRAMIDAL AT-TENTION FOR LONG-RANGE TIME SERIES MODELING AND FORECASTING(ICLR2022)
论文提出Pyraformer,构造基于金字塔注意力模块(PAM)探索时间序列的多尺度表示。其中,跨尺度树结构总结了不同尺度的特征,而尺度内的相邻连接则建模了不同范围的时间依赖关系。Pyraformer中遍历路径的最大长度的复杂度是即O(1),而其时间和空间复杂度与序列长度L线性相关。实验结果表明,Pyraformer在单步和长期多步预测任务中通常以最少的时间和内存消耗实现了最高的预测准确性。
5、MSGNet
论文标题:MSGNet: Learning Multi-Scale Inter-Series Correlations for Multivariate Time Series Forecasting(AAAI2024)
论文提出MSGNet,利用频域分析和自适应图卷积捕捉多个时间尺度下不同序列之间变化的相关性。通过利用频域分析,MSGNet有效地提取显著的周期性模式,并将时间序列分解为不同的时间尺度。此外,结合自注意机制捕获序列内部依赖关系。引入自适应混合图卷积层,以自主学习每个时间尺度内不同序列之间的相关性。MSGNet具有自动学习可解释的多尺度序列间相关性的能力,即使在应用于分布之外的样本时,也表现出强大的泛化能力。
6、MTST
论文标题:Multi-resolution Time-Series Transformer for Long-term Forecasting
论文提出多分尺度时间序列模型Multi-resolution Time-Series Transformer (MTST),MTST由一个多分支架构组成,可以同时建模不同分辨率下的多样化时间模式。模型维护一个由不同patch尺寸分割后的多尺度数据集合。显然大尺度的patch能够识别长周期模式,相反小尺度patch更能识别高频周期模式。另外与许多现有的时间序列Transformer不同,采用了相对位置编码提取不同尺度的周期性成分。
7、MSD-Mixer
论文标题:A Multi-Scale Decomposition MLP-Mixer for Time Series Analysis
论文提出MSD-Mixer,作者认为时间序列数据是一系列时序子模式加上噪声点。基于这样考虑,模型学习将输入的时间序列分解为不同的组成部分,并在不同的层进行表示。为了处理多尺度时间模式和通道间的依赖关系,提出将时间序列建模为多尺度子序列(patch),利用MLP来混合补丁内部和补丁间的变化以及通道间的相关性。此外,还提出一种损失函数,用于约束分解残差的幅度和自相关性,以保证分解的完整性。
8、Triformer
论文标题:Triformer: Triangular, Variable-Specific Attentions for Long Sequence Multivariate Time Series Forecasting–Full Version
论文提出Triformer,Triformer的核心是设计了一个多层的、基于patch的、三角注意力机制,使得层大小呈指数级收缩,通过该结构模型实现了线性的计算复杂度。此外还设计了light-weight机制,捕捉不同特征的时序模式来增加预测的准确性。使得不同变量的时间序列能够拥有不同的模型参数集,从而提高准确性而不牺牲效率和内存使用率。