时序论文24｜TSLANet：重新思考用于时间序列表示学习的Transformers

论文标题：TSLANet: Rethinking Transformers for Time Series Representation Learning

论文链接：https://arxiv.org/abs/2404.08472

代码链接：https://github.com/ emadeldeen24/TSLANet.

前言

现有Transformer的问题：小数据集易过拟合，自注意力机制对噪声敏感，且对时序信息保留有限。

尽管Transformer在时间序列预测中应用广泛，但在部署到多样化的时间序列任务中，尤其是那些数据量较小的任务时，因于其庞大的参数规模，这可能导致过拟合并引起计算效率问题。此外，注意力机制也难以应对时间序列数据中固有的噪声和冗余。近期一些研究对其适应性提出了质疑，Transformer的自注意力排列不变性，损害了时序信息的保留。实验表明，一个单一的线性层出人意料地超越了复杂的Transformer架构。

本文作者把注意力从多层感知器（MLPs）和Transformers转向探索卷积操作在时间序列分析中的潜力。

本文思路

卷积神经网络（CNNs）传统上在捕捉时间序列中的短期模式方面表现出色，这得益于它们的局部感受野，如图所示，一个简单的三层CNN网络在分类性能上优于最先进的基于Transformer的架构。

然而，实验表明：CNNs在预测方面的有效性随着数据频率的变化而变化。例如，CNN在具有短10分钟频率的天气数据集上展现出与这些基于Transformer的模型相竞争的性能，但在处理时间间隔更长的小时级ETTh1数据集时则表现不佳，这表明它在处理频率较低的时间变化时存在困难。这种差异突出了一个关键问题：如何增强CNNs以扩展它们在更广泛的时间序列任务中的稳健性能？显然，通过学习时间序列数据中的短期和长期依赖性，可以扩展CNNs的能力。

本文模型

如图所示，本文提出时间序列轻量级自适应网络（TSLANet），TSLANet继承了Transformer的多块设计，不同之处在于用轻量级的自适应频谱块（ASB）替换了计算成本较高的自注意力。

输入的时间序列被分割成多个小块（patches），并添加了位置嵌入。接下来，输出嵌入通过TSLANet层，每层由两个主要组件组成。第一个是自适应频谱块（Adaptive Spectral Block, ASB），它利用频域表示进行稳健的特征提取，并采用自适应阈值来减轻噪声。第二个是交互式卷积块（Interactive Convolution Block, ICB），它通过卷积操作捕获复杂的时间模式。

ABS有两个主要目标：首先，涵盖整个频率谱，从而捕捉数据中的长期和短期交互。这个过程是通过全局和局部滤波器的傅里叶乘法实现，类似于循环卷积。其次，ASB通过自适应阈值方法有选择地减弱高频，目的是最小化噪声并增强信号清晰度。

此外，作者引入交互式卷积块进一步提升模型效果，其中不同核心大小的CNNs相互控制，以丰富模型捕获和解释复杂时间模式的能力。最后，采用每个数据集的自监督预训练来增强模型能力，特别是在大型数据集上。本文提出的模型轻量且具有快速傅里叶变换（FFT）操作的O(N log N)复杂性，与自注意力相比，展示了卓越的效率和速度。

本文实验

在时间序列分类、预测和异常检测任务上的广泛实验表明，TSLANet在各种数据集上的表现始终优于基线模型。具体来说，在七个数据集中的六个中实现了第二低的均方误差（MSE）和平均绝对误差（MAE），在ETT（avg）和天气数据集上分别比最新技术的PatchTST模型提高了3%和3.8%的MSE。表明的模型在处理具有不同特征和复杂性的数据集方面的有效性。此外，它还展示了ASB模块在学习长期依赖性方面的增加能力的效果。

性能论文模型数据效率

0 人点赞