所有文章 > AI驱动 > 深度时间序列预测和基础模型的研究进展

深度时间序列预测和基础模型的研究进展

1 介绍

本文综述了深度学习在时间序列预测中的应用,特别是在流行病预测领域。尽管深度学习在时间序列预测中表现出显著优势,但仍面临挑战,如时间序列不够长、无法利用积累的科学知识以及模型的解释性。

基础模型的发展允许模型在大量训练数据可用之前理解模式并获取可用于新相关问题的知识。深度学习模型可以利用的大量知识包括知识图和经过科学领域知识微调的大型语言模型。正在进行的研究正在探讨如何利用或向深度学习模型注入这些知识。本文还讨论了统计、机器学习和深度学习技术在流行病预测中的应用,以及如何利用知识提高预测准确性和检查预测的合理性。

图1 处于活跃疫情期间的每日死亡人数(注意每周报告模式)、住院人数和ICU患者人数按比例缩放后的图表。

2 MTS预测的进展

时间序列预测的历史悠久,其中一些建模技术(如深度学习)在20世纪50年代到70年代以及2010年代取得了显著进步。支持跨编程语言的时间序列分析开源项目包括:R语言的Time Series,Python的Statsmodels、Sklearn和Sktime,以及PyTorch-Forecasting和TSlib。Scala的Apache Spark和ScalaTion也支持时间序列分析。尽管预测未来非常困难,但直到最近,机器学习模型在提供统计模型之外的预测方面并没有取得多少进展。

表1 带有时间序列上下文关键初始参考的时间序列预测模型类型。

2.1 M 竞赛

马里迪卡迪斯或M竞赛始于1982年,至2022-2023年已进行到第六届。在2018年结束的M4竞赛中,ML技术表现不佳,获胜者是混合神经网络(LSTM)和统计(ES)技术。其余表现最好的参赛者是统计技术的组合。直到2020年结束的M5竞赛中,ML建模技术才超过经典统计技术,其中表现最好的队伍包括LightGBM和神经网络。M6竞赛涉及预测和投资策略,预计将在2024年公布其结果摘要。

2.2 用于时间序列的统计和深度学习模型

正如M竞赛所讨论的那样,机器学习技术花了些时间才在竞赛中崭露头角。神经网络模型在许多领域中展示了高度竞争性的结果,但在时间序列预测领域却表现不佳,可能是因为模式更加难以捉摸且经常变化。此外,直到大数据革命之前,数据集太小,无法训练具有大量参数的神经网络。

2.2.1 第一波。SARIMAX模型在处理内生和外生时间序列数据方面表现良好,能够利用过去和预测值、过去误差/冲击以及外生时间序列的过去值。内生变量可以进行差分以改善稳定性,并利用季节/周期模式。在多变量时间序列中,向量自回归(VAR)模型是最直接的选择,例如VAR(3,2)模型在流行病预测中可能很有用。SARIMAX和VAR都可以被视为用于多元时间序列的模型,区别在于SARIMAX关注一个主要变量,另一个变量用作指示变量。SARIMAX模型可以简化为ARX模型,以查看由内生变量前𝑝滞以及外生变量滞后[𝑎, 𝑏]所组成的模型的本质结构。ARX模型可以有超过一个外生时间序列。

2.2.2 第二波。M5 Competition证明了LightGBM的价值,且LSTM和GRU性能优于FNN。RNN使用时间序列预测,通过组合输入和隐藏向量计算新状态。门和sigmoid激活改善了历史信息的流动。GRU和LSTM分别添加了两个和三个门。编码器-解码器架构用于序列到序列问题,其中编码器学习过去模式,解码器进行预测。注意力机制为时间序列预测提供了改进,如自我注意力、多头注意力、跨注意力和位置编码。Transformer由多个编码器和解码器块组成,表现卓越。NLP进步可以适应到时间序列预测。TCN使用因果和膨胀卷积以及残差块提供对历史的扩展视图和梯度保持,但证据在时间序列预测上不明确。

图2 单头Transformer的第一编码器层

3 时间序列Transformer的最新进展

3.1 稀疏注意力

在过去的几年里,已有研究探讨了Transformer中的稀疏注意力,以降低注意力计算的复杂性。注意力计算通常涉及查询矩阵、键矩阵和值矩阵。稀疏注意力可以通过减少查询数量或在给定查询时减少需要比较的键的数量来实现。查询原型可以代替多个查询,从而减少计算。此外,如果两个时间点相距较远,可以将它们的注意力权重设置为零,以缩小焦点。这些方法不仅可以减少计算时间,还可能提高预测效果。由于Transformer具有多个头和多个层/块,其可解释性和可理解性具有挑战性。注意力权重可以用于提高可解释性和可理解性,同时简化Transformer块以减少训练时间。

表2 时间序列预测Transformer模型类型

3.2 遮罩和预训练

预训练的transformers在时间序列预测中的应用是一个公开的问题,尽管它们在自然语言处理和计算机视觉问题中取得了成功。一些方法可以应用于大流行病预测,例如训练在流行病和流感上优化的transformers,以避免在流行病最严重的时候才变得熟练的问题。PatchTST将多元时间序列数据分割成多个独立通道的单变量时间序列,并创建补丁作为令牌输入到转换器中,以减少计算和内存使用,同时关注更长的历史。AR-Transformer结合了Vanilla Transformer架构与基于片段的注意力、教师强迫、时间和位置编码以及自动回归(递归)多视野预测,表现出改进的性能。此外,掩码自编码器(MAE)也被用于多变量时间序列预测,通过遮罩一些输入补丁并训练模型将它们放回去,以更充分地捕捉时间依赖关系。

3.3 表征学习

表达学习将多变量时间序列转化为潜在空间中的形式,有助于分类或预测等任务。它是一种因子分析的泛化,能够将变量间的变化因素分离。在预测任务中,时间序列被分为过去和未来两部分,并通过函数f编码为潜在表示。为了减少预测误差,可以使用正则化回归等方法简化预测函数。最近的研究和模型表明,表示学习的有效性可以通过审查相关领域的最新工作来证明。此外,还关注提高编码的可解释性以提高用户对模型的信任度。一些简单的架构已经取得了良好的效果。TSMixer借鉴了计算机视觉领域的MLP-Mixer,通过依赖MLP块实现了更简洁、高效的架构。但可能因忽视强主导指标而错过重要信息。

表3 时间序列的表征学习

4 图神经网络在时间序列上的最新进展

Transformers适合处理时间依赖性,而图神经网络更适合捕捉时空依赖关系。GNN编码器-解码器或Transformer可能更擅长捕捉系列间或空间之间的依赖关系。

4.1 国家层面的COVID-19数据

在国家层面上,数据集𝑌=[y tj ]表示,其中t是时间,j是变量。图神经网络的优势在于模拟和考察多个时间序列之间的依赖关系。每个变量的时间序列y可以被转化为图中的节点,节点之间的关系信息可以作为边属性来维护,例如基于互相关、互信息等。需要注意的是,互相关的强度取决于滞后量。如果数据不是平稳的,那么互相关模式可能会随着时间的推移而变化。

4.2 按州分列的 COVID-19 数据

新冠病毒的传播可能会影响邻近的州,因为人们会跨州旅行、贸易和社交。预测一个州内的病毒传播情况需要考虑与其他州的联系,这可以通过图表示,其中每个州是一个节点,两个节点之间有一条边表示有重要联系。基于图神经网络(GNN)的模型用于预测疾病传播,使用移动数据或社会联系连接不同地区并捕捉空间关系。如果两个州之间存在线性或非线性依赖关系,它们也可以相互连接。研究发现,俄亥俄州和伊利诺伊州的死亡和确诊病例数量高度相关,表明两个州之间存在很强的线性关系。当数据集扩大五十倍时,问题变得更加复杂,数据集现在可能被表示为一个3D张量,其中包含时间点、变量和状态。

4.3 图神经网络的类型

早期工作利用傅里叶变换在频域进行,而ChebNet和GCN通过应用图拉普拉斯简化了计算。基于图的邻域矩阵,计算图的拉普拉斯矩阵,节点隐藏状态通过与其学习权重矩阵相乘来更新。MPNN更通用,可以在节点更新计算中包含边特征。GAT使用注意力机制来捕捉节点间依赖关系。在GNN进行MTS预测的研究中,研究人员定义了GNN的底层图结构。静态图易处理,但需考虑先验或图结构学习。动态图拓扑结构随时间变化。对于时间序列,图结构通常在时间上变化。GNNs适合处理空间或变量间依赖关系,但与循环、卷积或基于注意力的模型结合使用可处理时间依赖关系。一些研究利用GNNs进行COVID-19预测,如整合移动数据的时空GNN、理解国家间动态的MPNN-TL、结合流行病学模型的GNN等。结合Transformers和图神经网络可提供两者优势,如SageFormer使用图表示和GNN建立系列间连接,帮助集中注意力机制。

5 基础模型

基础模型为更广泛的问题解决提供基础,基于深度学习和迁移学习,支持更广泛的应用和涌现能力。在预测中,无论是传统的统计模型还是深度学习模型,主要思想都是为特定数据集训练模型,以便它可以拾取其特定模式。然而,在许多情况下,没有足够的可用数据来训练具有许多可训练参数的复杂模型。数据增强技术在边缘上可能会有所帮助。近年来,具有数十亿参数的基础模型在自然语言和计算机视觉领域取得了显著的成就。其他领域正在研究基础模型如何适用于其他数据模式以及多模态数据。时间序列是一种序列数据,与自然语言一样,人们可能会期望时间序列的基础模型能够像大型语言模型(LLMs)对自然语言那样表现出色。一个经过广泛训练的基础模型应该更容易捕捉到新数据集中的模式。然而,时间序列领域面临挑战,包括多样性、许多小数据集和缺乏词汇、语法和语义。

5.1 骨干模型/体系结构

深度学习模型通过放大或组合构建基础模型,如GPT、BART、T5等。在时间序列分类中,变换器架构最有前途,集中式或稀疏注意力的模型在全注意力变换器上更准确。最先进的LLM包括GPT(仅解码器)和BART、T5(编码器-解码器)。其他可能的骨干架构包括Transformer++和状态空间模型,如Mamba。对于时空域数据,图基础模型(GFMs)变得更为相关,通常是放大的变换器,适用于序列数据。对于具有空间成分的数据,卷积神经网络和图神经网络可能也很有用。最受欢迎的骨干架构是基于消息传递的GNNs和基于变换器的架构。因此,对于时空域数据,可以选择GFMs或基于Transformer的架构作为骨干架构,这些模型可以捕获数据的时空特征,并具有强大的表达能力和扩展性,可以有效处理大规模时空数据集。

5.2 建立时间序列的基础模型

创建时间序列的基础模型至少有四种方法:

(1)利用现有的大型语言模型的力量。这涉及到将时间序列段或补丁转换为单词,使用这些单词来生成接下来的单词,然后再将它们转换回时间序列(即预测)。这种工作的基础是在两个序列(单词和时间序列段)中存在普遍的模式。然而,如果不加小心,将时间序列转换为单词序列可能会产生无意义的句子。当输出单词被转换为时间序列预测时,也可能会发生同样的情况。使用时间序列数据微调大型语言模型可能会提高它们的预测能力。

(2)从头开始使用大量时间序列数据集构建通用的时间序列基础模型。这需要大量时间和精力来收集和预处理大量时间序列数据。还需要高性能计算来进行广泛的训练。尽管在时间序列领域进行全面训练通常被认为比在语言领域进行全面训练要求更少。

(3)从头开始使用与疾病进展相关的数据集构建专门的时间序列基础模型。从所需训练数据量和训练资源要求的角度来看,这种替代方案更容易管理。此外,目前尚不清楚是否在时间序列域之间存在可利用的普遍性。是否对股票市场数据进行训练的基础模型对流行病预测有用?

(4)创建一个包含文本和时间序列数据的多模态基础模型。例如,文本可以从关于COVID-19大流行的新闻文章或社交媒体中获得,时间序列数据(每周/每日)可以从CDC或OWID获得。根据时间戳进行同步,并使用动态时间扭曲等技术进行时间序列对齐。

最近,有一些努力致力于创建时间序列预测的基础模型,如表5所示。模型类型指示了上述四种方法的哪一种被采用,骨干表示基础模型的基础深度学习技术是如何构建的。

表5 时间序列的基础模型

类型1:重新利用的LLM。大型语言模型(LLM)可以被重新用于时间序列数据,它们适合于时间序列数据是因为具有序列性。为了将预训练的LLM转移到时间序列数据,需要将时间序列分成一定长度的补丁,并使用可逆实例归一化(RevIN)缓解分布偏移。这些模型通常使用GPT作为其骨干网络,但它们是非自回归模型,可能无法使用可变长度的预测。对于疾病预测等任务,输入标记的时序编码非常重要。

类型2:在时间序列数据集上进行广泛预训练。时间序列数据集上的预训练模型,包括使用基础模型进行预训练、使用解码器架构进行自回归预训练、使用傅里叶变换发现最佳时期等。这些模型可以用于时间序列分类、点预测和区间预测等任务。其中,Llama 2模型致力于提高效率,并使用标准转换器架构和预归一化RMSNorm、SwiGLU激活函数和旋转位置嵌入。

类型3:基于领域相关的时序数据预训练模型。基于领域相关的时序数据预训练模型是一种在特定领域数据上预训练的模型,针对特定领域的预训练可能会提供更好的性能。AutoMixer是为业务和IT可观察性而训练的特殊目的基础模型,它把通道压缩作为预训练任务,使用基于RNN的AutoEncoder处理可变输入和输出序列长度的预训练用于微调。微调时,使用预训练AE的编码器部分对输入进行压缩,通过TSMixer对压缩表示进行微调,从TSMixer中得到的输出作为输入传递给AE解码器部分以获得视窗的结果。

类型4:文本和时间序列的多模态模型。类型4模型利用文本和时间序列数据来提高预测精度,具有更大的可解释性潜力。在疫情估计的情况下,一个在疾病爆发和额外的关于疫苗接种开发的文本信息上训练的模型可能会增强未来疾病的结果。UniTime模型允许使用域指令向模型提供明确的域识别信息,有利于模型利用每个时间序列的来源并相应地调整其预测策略。该模型通过补丁和嵌入层对输入时间序列进行分词和嵌入,融合的补丁标记和文本标记被连接起来,然后作为输入传递给语言模型解码器,从语言模型解码器中获得的输出标记被填充到固定的序列长度中。该模型始终输出该数量的值,可以截断以获得特定期限窗口的估计值。

5.3 预训练基础模型

时间序列预测的模式正从为每个数据集训练模型转变为训练一个适用于多个数据集的模型。这导致对时间序列基础模型的预训练,这些模型需要大量数据集进行训练。通过微调可以提高这些模型的准确性。时间序列的基础模型预训练因数据多样性而具有挑战性,但比LLMs更容易,因为其数量和维度都较小。找到足够的数据集是一个问题,但部分解决方案是使用存储库,如莫纳什大学时间序列预测存储库、加州大学河滨分校时间序列分类存档和东英吉利大学存储库。在时间序列领域,自监督学习可以用于大规模训练,以应对缺乏标记数据的问题。自监督学习可以作为预任务子任务,一部分时间序列被遮盖并重新生成,以帮助模型进行准确的预测。数据增强可能有助于模型看到真正模式。对于LLMs的神经尺度定律表明,在包含训练集大小和模型参数的数量之后错误率会遵循幂律下降。

5.4 微调基础模型

基模型具有大量可训练参数,需要长时间高性能计算,难以普遍适用于时间序列预测。微调基础模型的想法是对参数进行微小的调整,以提高特定子领域的性能。微调方法包括稀疏微调、适配器微调和低秩适应(LoRA)。为了提高特定领域的基模型精度,有三种常见的方法:微调(FT)、检索增强生成(RAG)和提示工程(PE)。这些方法结合使用时,效果可能非常显著,例如LLM的幻觉可以得到减少,回答的时效性得到提高。

6 知识的运用

数据驱动方法近年来取得显著进步,但仍可利用积累知识改进。大型语言模型也利用知识提升响应。对于疫情预测,利用之前研究中的疾病过程知识可改进预测模型。基于工业或政府政策的未来知识在预测中非常有用。知识应用于时间序列预测是长期目标。有研究基于因果力量使用99条规则选择和权衡预测结果。知识在特征选择中可能很有用,无论是改进预测还是提高可解释性。为了提高时尚趋势预测准确性,开发了知识增强循环神经网络(KERN)模型,将知识纳入模型提高预测精度。例如,为趋势模式建立近远相似关系作为内部知识,创建调节项添加到损失函数中。利用时尚元素本体论(分类和部分关系)作为外部知识,如果某个裙子的部分(例如,裙摆)的销售上升,那么裙子的销售很可能会上升。通过将输入嵌入传递给编码器来整合外部知识。由于添加了知识而带来的改进,特别是对于长期预测。

6.1 COVID-19知识图谱

知识图谱在COVID-19研究中的应用。知识图谱可以是RDF图或LPG图,其中RDF图由三元组组成,LPG图可以映射为三元组。时间知识图谱(TKG)是四元组(x,y,z,t),表示在时间t上,对主体x和对象z施加的谓词y为真。一些机构利用CORD-19数据集进行COVID-19研究。尽管与时序知识图(TKG)预测匹配得很好,但用于COVID-19的TKG构建工作很少。时序图神经网络与注意力传播(T-GAP)的方法可以用于构建COVID-19的TKG,该模型使用基于当前查询的TKG信息,以及注意力流,使TKG补全更加准确,提高了模型的解释性。

表6 COVID-19知识图谱

6.2 时间知识图嵌入

时空知识图嵌入(TKGE)用于链接预测,特别是预测未来时。它将图元素表示为潜在向量空间中的关系,包括时空关系,并确定向量之间的相对位置。目前已有多种TKG嵌入技术,如TAE、TTransE、Know-Evolve等,其中ATiSE还包括时间序列分解。然而,这些向量作为时空关系知识的程度能否改进其他深度学习预测模型,仍是一个未解决的问题。需要进一步研究TKG中的链接预测与MTS预测之间的协同作用。

6.3 知识的融入

将知识整合到深度学习模型中有复合损失函数、应用约束、分解到自注意力机制、内嵌并与输入结合、注入下游层和知识影响架构等方法。其中复合损失函数和约束可以视为正则化,分解到自注意力机制和内嵌并与输入结合可以增强模型对知识的理解和表达能力,注入下游层和知识影响架构可以灵活地将知识注入到模型中,提高模型的泛化能力。

6.4 增强知识Transformers

未来知识利用通过修改Transformers自注意机制,应用于电子商务领域的生产相关和平台相关知识。研究正在进行中,以改进大型语言模型(PLM),如BERT、GPT、BART和T5,通过使用符号知识如实体描述、知识图和规则等。关键问题是设计适合PLM架构的有效知识注入技术。多元时间序列预测是疫情预测的重要方面,LLM和MTS模型可能相互合作以提高预测准确性和可解释性。知识图谱可用于增强PLM和转换器模型在语言和MTS预测任务上的性能。最近的研究表明,传统的注意力在捕捉时间依赖性方面可能并不必要,因此设想一种多模型方法来进行疫情预测,其中语言模型、时间模式和知识理解与处理的专门模型相互合作。

6.5 增强知识图神经网络

为模型添加知识有两种主要方式:结合科学预测模型的预测结果,如使用NCEP的GFS和ECMWF的ERA5气候预报结果改进PM2.5 GNN预测模型;以及应用逻辑语言的增强知识图神经网络(KeGNN),它支持属性和关系的单值谓词,逻辑映射到实值向量和函数,知识增强层从GNN中获取预测并根据逻辑的满足程度生成更新后的预测。在利用GNN进行知识图补全方面有大量研究,但在从知识图中创建GNN方面的工作较少。例如,研究小组利用关于COVID-19的知识图改善疫情预测,大型语言模型可从COVID-19科研文献中提取信息,知识图嵌入(KGEs)可用于将知识转移到预测转换器中,转换器的自注意力机制可帮助选择最有用的知识。

7 元评估

多时区预测是一项重要且具有挑战性的任务,其准确性随着预测时间的延长而降低。预测的时间越长,其准确性就越差。可行的预测时间因领域和所预测的内容而异。例如,预测特定城市十年的日间最高和最低温度是无意义的,而使用气候模型以120个月的时间跨度预测全球平均表面温度或太平洋/大西洋表面温度则可以做到相当准确。许多论文都涉及到长序列时间序列预测的问题。

7.1 预测质量度量

评估模型预测质量的指标包括时间序列变异性度量var(y)和随机游走(RW@h1)。RW@h1对于一维预测效果良好,可作为衡量其他模型的标准。MSE、RMSE和MAE需要了解域及其单位才能解释。NRMSE当均值等于零时,可能会无限大,此时可以使用除以范围(但受异常值影响很大)。MAPE和sMAPE随单位而变化,例如从摄氏度变为开尔文会使误差看起来更小。MASE[41]是一个尺度/单位不变的度量,值为1表示模型与RW@1相当,小于1表示更好,大于1表示更差。

表7 预测质量指标

7.2 测试模型质量

基于时间序列的时间依赖性,k折交叉验证不适用于训练和测试。一种方法是将数据集分为60%-40%的比例,用前60%的时间点训练模型,并使用这些参数值进行预测。预测会随时间下降,可以通过设置较小的预测窗口来解决。一旦完成预测,可以将窗口向前移动一个时间单位并重新进行预测,将预测结果保存在矩阵中。这解决了参数的陈旧性问题,可以通过重新训练来解决。例如,可以设置每10个时间窗口重新训练一次。对于复杂的模型,可以使用增量训练来减少计算成本。这种技术被称为滚动验证。对于基础模型,可以选择保持滚动验证过程不变,只是用微调代替训练。

7.3 文献中质量研究结果的总结

元评价部分将总结近期论文中有关多个数据集的比较结果,包括Transformer温度(ETT)、类似流感症状(ILI)、电力需求、天气和交通数据,这些数据集均用于评估深度学习模型和基础模型。具体来说,有以下数据集:

(1) ETTh1,2记录了两种电力负荷和Transformer油温数据,涉及两个县的两个Transformer两年内的每小时数据。

(2) ETTm1,2则提供了每15分钟记录一次的电力负荷和Transformer油温数据,分别涉及两个Transformer。

(3) ILI数据集包含流感症状患者的每周报告,涉及年龄组、报告提供者数量和ILI病例等变量。

(4) Electricity数据集记录了321个客户的每小时用电量,每个客户只有一个变量:每小时用电量。

(5) Weather数据集涉及与天气相关的多个变量,如湿度、二氧化碳水平和降雨量等,数据由马克斯普朗克研究所维护。

(6) Traffic数据集提供了旧金山州立高速公路的车道占用率数据,由862个传感器记录,不包括其他变量如天气条件。

为确保公平比较,新模型使用Informer模型或其后续模型的公开代码库,采用相同的数据加载、转换和评估设置。但仍存在一些实验和建模差异:

  • 回溯窗口:早期Transformer模型使用较短的回溯窗口。增加窗口会降低预测性能,而PatchTST则受益于更长的窗口。
  • 通道混合与通道独立:通道混合将所有特征投影到共享嵌入空间,而通道独立则分别对每个通道应用注意力。作者还探索了两级注意力,分别用于时间和跨通道。
  • 时间嵌入:特征可以投影到嵌入空间,并加入针对每个时间频率的额外嵌入。例如,Informer使用特征、位置和时间嵌入,而PatchTST使用特征和位置嵌入。
  • 实例归一化:可逆实例归一化(RevIN)可减轻分布转移。这种简单技术已被证明有效,对PatchTST和GPT4TS有很大帮助。
  • 层归一化与批归一化:大多数Transformer模型使用层归一化,但PatchTST使用批归一化,可提高预测性能。
  • 残余注意力:PatchTST使用残余注意力,将注意力分数添加到下一层。
  • 模型大小:不同模型的参数、维度和层数有差异,如Informer、PatchTST和GPT4TS。

这些差异影响模型的预测性能和效率。建模技术受限于其评估方法,因为评估中通常不包括简单基准模型,如随机游走(RW)、平均模型(MM)或简单移动平均值(SMA)。这些模型虽简单,但可作为良好的起点,因为它们无需训练。例如,图3展示了按照年龄加权的患者ILI百分比,预测结果来自简单的随机游走基准模型。这些结果通常在每个新提出的模型中收集,但可能因未重新运行其他模型而不可重复。此外,评估中还存在潜在的不公平性来源,如省略测试时间步骤或使用不同的批量大小。然而,通过进一步调整超参数,可以对这些模型进行微小改进。因此,遵循标准化设置和改进设置将有助于后续工作。

图3 显示流感样疾病(ILI)的每周病人就诊百分比:训练(红色),测试(蓝色),RW(橙色)

表8对所研究的建模技术进行了比较分析,包括基于LLM的模型(GPT4TS)、基于Transformer的模型(PatchTST/42、FEDformer、Autoformer、Stationary、ETSformer、Informer和Reformer)、基于CNN的模型(TimesNet)和基于MLP的模型(NLinear、DLinear和LightTS)。评估采用均方误差(MSE)和平均相对误差(MAE)进行标准化观测值和预测值的比较,所有特征和预测时限的平均值。结果显示,PatchTST始终优于其他建模技术,例如基于预训练LLM的GPT4TS。PatchTST与其他模型相比也具有很高的竞争力,与NLinear得分相当。对于所有建模技术,电力和交通数据集上的预测性能相对稳定。然而,ETT和ILI数据集上的预测性能波动较大,尤其是对于Informer和Reformer模型来说。

表8 使用不同回溯窗口对ILI和其他数据集的{24, 36, 48, 60}个预测期进行模型比较。使用的评估指标是对归一化的观测值和预测值的均方误差(MSE)和平均绝对误差(MAE)。分数越低,预测性能越好。最好的分数用粗体突出显示。

参考链接:https://arxiv.org/abs/2401.13912

文章转自微信公众号@算法进阶