前言
梳理了近期几篇时间序列大模型研究文章(后台回复:“论文合集”获取),时间序列大模型的研究正在迅速发展,并且在多个领域和应用中展现出巨大的潜力。随着技术的不断进步,预计未来会有更多创新的方法和应用出现,但我感觉目前可以重点关注以下三方面:
基础模型的构建:研究者们正在尝试构建时间序列预测的基础模型,这些模型可以在不同的时间序列数据集上进行预训练,并展示出良好的泛化能力。
模型可解释性:通过文本形式提供解释性的时间序列预测结果,帮助用户更好地理解时间序列数据的模式和趋势。
特定领域的应用:大模型正在被应用于特定领域的时间序列预测,如金融、医疗、交通等,以解决特定问题并提供可解释的预测。
1、UniTS
论文标题:UniTS: Building a Unified Time Series Model
尽管当前的基础模型能够处理序列数据,但它们并不适用于时间序列分析,时间序列分析面临着独特挑战:时间序列数据的多样性和多领域性、预测、分类和其他任务类型之间的任务规范差异,以及对特定任务模型的需求。本文提出UniTS,这是一个统一的时间序列模型,它支持通用的任务规范,能够处理分类、预测、插补和异常检测等任务。这一模型采用了一个创新的统一网络架构,结合了序列和变量注意力机制、动态线性算子,并作为一个统一模型进行训练。在38个跨领域的数据集上,UniTS展现了超越特定任务模型和基于自然语言的LLMs的性能。当评估新的数据领域和任务时,UniTS显示出了卓越的零样本、少量样本学习和提示学习能力。
2、TIME-LLM
论文标题:TIME-LLM: TIME SERIES FORECASTING BY REPROGRAMMING LARGE LANGUAGE MODELS(ICLR2024)
最近的研究揭示了大型语言模型(LLMs)在复杂序列上具有强大的模式识别和推理能力。然而,如何有效地将时间序列数据的模态与自然语言对齐,以利用这些能力仍是挑战。本文中作者提出了TIME-LLM,一个重新编程框架,用于将LLMs重新用于通用的时间序列预测,同时保持骨干语言模型的完整性。我们首先使用文本原型(text prototypes)重新编程输入的时间序列,然后将其输入到冻结的LLM中,以对齐这两种模态。为了增强LLM处理时间序列数据的推理能力,作者提出了Prompt-as-Prefix(PaP),它丰富了输入上下文,并指导了重新编程输入patch的转换。来自LLM的转换后的时间序列补丁最终被投影以获得预测。评估表明:TIME-LLM是一个强大的时间序列学习者,其性能超越了最先进的专门预测模型。此外,TIME-LLM在少量样本和零样本学习场景中表现出色。
3、Chronos
论文标题:Chronos: Learning the Language of Time Series
本文提出了Chronos,一个简单而有效的预训练概率时间序列模型框架。Chronos通过缩放和量化将时间序列值转换为固定词汇表中的标记,并使用交叉熵损失训练现有的基于Transformer的语言模型架构来处理这些标记化的时间序列。其基于T5家族(参数范围从200万到7100万)预训练了Chronos模型,训练数据包括大量公开可用的数据集,并通过高斯过程生成的合成数据集来补充,以提高泛化能力。在包含42个数据集的全面基准测试中,作者展示了Chronos模型:(a) 在训练语料库中的数据集上显著优于其他方法;(b) 在新数据集上的零样本性能与其他专门针对它们训练的方法相当,有时甚至更优。结果表明,Chronos模型能够利用来自不同领域的时间序列数据,提高在未见预测任务上的零样本准确性,将预训练模型定位为一种可行的工具,极大地简化了预测流程。
4、Lag-Llama
论文标题:Lag-Llama: Towards Foundation Models for Probabilistic Time Series Forecasting
在过去的几年中,基础模型因其在零样本和少样本泛化方面的空前能力,在机器学习领域引发了一场范式转变。然而,尽管基础模型在自然语言处理和计算机视觉等模态上取得了成功,但针对时间序列预测的基础模型开发却相对滞后。本文提出了Lag-Llama,这是一款基于解码器Transformer架构的通用单变量概率时间序列预测基础模型,它将滞后值作为协变量。Lag-Llama在来自多个领域的多样化时间序列数据的大量语料库上进行了预训练,并在跨领域的下游数据集上与一系列预测模型相比,展现出了强大的零样本泛化能力。此外,当在这些之前未见数据集的相对较小部分上进行微调时,Lag-Llama实现了最先进的性能,超越了之前的深度学习方法,平均而言,成为最佳的通用模型。Lag-Llama作为时间序列预测领域现有技术的强大竞争者,并为未来针对时间序列数据定制的基础模型的进展铺平了道路。