时序必读论文12|ICML22 FEDformer基于周期分解的长时序预测transformer架构

2024-09-18 16:47:36 浏览数 (2)

论文标题:FEDformer: Frequency Enhanced Decomposed Transformer for Long-term Series Forecasting

开源代码:https://github.com/DAMO-DI-ML/ICML2022-FEDformer

前言

FEDformer这篇文章发表于2022年的ICML。其实如果只比较性能的话,到如今其实早已被各类新模型超越。但是考虑到FEDformer一直是时序预测的一个重要baseline。此外,论文采用的周期趋势项分解策略,通过多次分解降低了输入输出的波动这种策略在后续很多论文被反复使用,使得Transformer能够更好地学习长时序中的依赖关系,提升了预测精度。因此,尽管论文发表时间较早,我还是将其列入到了时序必读论文。

本文工作

以往的基于Transformer的时序预测模型通过Attention机制捕捉point-wise关系,但对全局信息、如总体趋势追踪仍不完善,如图1所示预测分布和实际分布差异很大。

思路:FEDformer将傅立叶变换与基于Transformer的方法相结合。利用大多数时序在傅立叶变换中具有稀疏表示的特性,将时域信息拆解为频域信息,随机采样部分频域,然后投影回时域,降低复杂度的同时过滤掉多数噪声,使得Transformer能够更好地学习长时序中的依赖关系,从而提升预测精度。

1. FEDformer的整体架构

FEDformer的结构也采用编码-解码器结构,核心包含三个子模块,分别是:Frequency Enhanced Block (FEB, 绿色块),Frequency Enhanced Attention (FEA, 红色块),Mixture Of Expert Decomposition Blocks (MOEDecomp, 黄色块)。

  • FEB用于在频率域进行表示学习,有两个子版本:FEB-f 和 FEB-w。FEB-f 使用Fourier基进行频率分析,将信号从时间域转换到频率域。FEB-w 使用Wavelet基也是一种频率分析方法,适用于非平稳信号。
  • FEA是作者设计的一种在频率域进行注意力机制的方法。与FEB类似,FEA也有两个子版本:FEA-f 和 FEA-w,分别基于Fourier和小波变换。
  • MOEDecomp用于从输入数据中提取季节性(seasonal)和趋势(trend)模式。

整体流程:如上图所示,编码器部分输入首先经过FEB模块,同时MOEDecomp块将数据分解为趋势和周期特征,其中周期特征保留并交下层进行学习,趋势特征被丢弃。而在解码器部分,同样经过MOEDecomp,保留周期特征,并交下层学习,不同之处在于通过频域注意力机制FEA模块对编码器周期特征和解码器周期特征进行交互

核心模块

01-Frequency Enhanced Block (FEB)

这一模块实现信号从时域到频域的相互转换,有两个版本基于傅立叶变换和小波变换。具体来说:首先,将输入从时域通过线性变换q = x·w投影到频域。然后,在投影产生的频域上进行随机采样,如下面的公式所示。由于采样得出的序列长度远低于原序列(M<<N),因此这样好处在于降低了计算复杂度。作者认为采样虽然对原信息有损失,但对最终精度影响不大。因为时序数据在频域上相对时域更加稀疏,这种情况下大多数信息是无用的,可以舍弃。最后,通过频域补全,再次将频域转回时域。

对于小波分解部分,FedFormer采用了固定的小波基分解矩阵进行分解,使用三个FEB-f模块来分别处理小波分解后得到的高频部分、低频部分和剩余部分。随后采用重建模块对数据进行融合重建。

02-Frequency Enhanced Attention (FEA)

FEA和FED模块遵循相同的处理流程:频域投影 -> 随机采样 -> 频域补全 -> 逆投影到时域,即qkv整体计算是在频域下进行,然后投影回时域。如下图所示,k和v由编码器经过多层感知机获得,q由解码器经过多层感知机获得。

  • 首先,qkv经过傅立叶变换由时域转到频域并进行随机采样。
  • 然后,qk相乘经过激活函数并与v相乘,计算过程与基本注意力机制一样。
  • 最后,padding补齐维度,通过傅立叶逆变换,由频域转回时域。

FEA模块作者也实现了小波变换的版本,FEA-w架构保留了FEB-w的分解和重构阶段,但着重改进了分解过程。在分解阶段,采用相同的分解矩阵独立处理q、k、v信号,然后通过FEA-f进行特征提取,最后重建。

实验和总结

本文提出了一种用于长期序列预测的频率增强型Transformer模型,具有线性计算复杂度和内存成本。创新之处在于采用一种在频率上进行低秩近似的注意力机制,有效地将输入序列长度与注意力矩阵维度解耦,从而实现了线性复杂度。实验表明,与四种最先进的算法相比,该模型在六个基准数据集上实现了最佳的预测性能。

0 人点赞