论文标题:TSLANet: Rethinking Transformers for Time Series Representation Learning
论文链接:https://arxiv.org/abs/2404.08472
代码链接:https://github.com/ emadeldeen24/TSLANet.
前言
现有Transformer的问题:小数据集易过拟合,自注意力机制对噪声敏感,且对时序信息保留有限。
尽管Transformer在时间序列预测中应用广泛,但在部署到多样化的时间序列任务中,尤其是那些数据量较小的任务时,因于其庞大的参数规模,这可能导致过拟合并引起计算效率问题。此外,注意力机制也难以应对时间序列数据中固有的噪声和冗余。近期一些研究对其适应性提出了质疑,Transformer的自注意力排列不变性,损害了时序信息的保留。实验表明,一个单一的线性层出人意料地超越了复杂的Transformer架构。
本文作者把注意力从多层感知器(MLPs)和Transformers转向探索卷积操作在时间序列分析中的潜力。
本文思路
卷积神经网络(CNNs)传统上在捕捉时间序列中的短期模式方面表现出色,这得益于它们的局部感受野,如图所示,一个简单的三层CNN网络在分类性能上优于最先进的基于Transformer的架构。
然而,实验表明:CNNs在预测方面的有效性随着数据频率的变化而变化。例如,CNN在具有短10分钟频率的天气数据集上展现出与这些基于Transformer的模型相竞争的性能,但在处理时间间隔更长的小时级ETTh1数据集时则表现不佳,这表明它在处理频率较低的时间变化时存在困难。这种差异突出了一个关键问题:如何增强CNNs以扩展它们在更广泛的时间序列任务中的稳健性能?显然,通过学习时间序列数据中的短期和长期依赖性,可以扩展CNNs的能力。
本文模型
如图所示,本文提出时间序列轻量级自适应网络(TSLANet),TSLANet继承了Transformer的多块设计,不同之处在于用轻量级的自适应频谱块(ASB)替换了计算成本较高的自注意力。
输入的时间序列被分割成多个小块(patches),并添加了位置嵌入。接下来,输出嵌入通过TSLANet层,每层由两个主要组件组成。第一个是自适应频谱块(Adaptive Spectral Block, ASB),它利用频域表示进行稳健的特征提取,并采用自适应阈值来减轻噪声。第二个是交互式卷积块(Interactive Convolution Block, ICB),它通过卷积操作捕获复杂的时间模式。
ABS有两个主要目标:首先,涵盖整个频率谱,从而捕捉数据中的长期和短期交互。这个过程是通过全局和局部滤波器的傅里叶乘法实现,类似于循环卷积。其次,ASB通过自适应阈值方法有选择地减弱高频,目的是最小化噪声并增强信号清晰度。
此外,作者引入交互式卷积块进一步提升模型效果,其中不同核心大小的CNNs相互控制,以丰富模型捕获和解释复杂时间模式的能力。最后,采用每个数据集的自监督预训练来增强模型能力,特别是在大型数据集上。本文提出的模型轻量且具有快速傅里叶变换(FFT)操作的O(N log N)复杂性,与自注意力相比,展示了卓越的效率和速度。
本文实验
在时间序列分类、预测和异常检测任务上的广泛实验表明,TSLANet在各种数据集上的表现始终优于基线模型。具体来说,在七个数据集中的六个中实现了第二低的均方误差(MSE)和平均绝对误差(MAE),在ETT(avg)和天气数据集上分别比最新技术的PatchTST模型提高了3%和3.8%的MSE。表明的模型在处理具有不同特征和复杂性的数据集方面的有效性。此外,它还展示了ASB模块在学习长期依赖性方面的增加能力的效果。