前沿技术|【论文阅读】TSMixer：An All-MLP Architecture for Time Series Fore-casting用于时间序列预测的全mlp架构

id="article_content" class="article_content clearfix"> id="content_views" class="htmledit_views">

原文链接：TSMixer: An All-MLP Architecture for Time Series Fore- casting

总结

许多情况多变量模型其实比单变量模型更差，为了解决这一问题， TSMixer表现出独特的价值，因为它是唯一一个在交叉变量信息无用时表现得与单变量模型一样好的模型，而且当交叉变量信息有用时，它是利用交叉变量信息的最佳模型。

线性模型具有RNN和transformer中不存在的特征-它们具有适当的表示能力来学习单变量时间序列的时间依赖性。

原文

摘要：现实世界的时间序列数据集通常是具有复杂动态的多元数据集。为了捕捉这种复杂性，高容量架构，如循环或基于注意力的顺序深度学习模型已经变得流行起来。然而，最近的研究表明，简单的单变量线性模型可以在几个常用的学术基准上优于这种深度学习模型。在本文中，我们扩展了线性模型用于时间序列预测的能力，并提出了时间序列混频器（TSMixer），这是一种通过堆叠多层感知器（mlp）设计的新架构。 TSMixer基于沿时间和特征维度的混合操作来有效地提取信息。在流行的学术基准测试中，易于实现的TSMixer可与利用特定基准测试的归纳偏差的专门的最先进模型相媲美。在具有挑战性的大规模M5基准测试（一个真实的零售数据集）中，TSMixer与最先进的替代方案相比表现出卓越的性能。我们的结果强调了有效利用交叉变量和辅助信息对提高时间序列预测性能的重要性。我们提出了各种分析来阐明TSMixer的功能。 TSMixer中使用的设计范式有望为基于深度学习的时间序列预测开辟新的领域。实现可在：https://github.com/google-research/google-research/tree/master/ tsmixer

Introduction

时间序列预测是许多现实世界用例中普遍存在的问题，例如预测产品需求(Böse等人，2017； Courty & Li, 1999)、流行病传播（Zhang & Nawata, 2018）和通货膨胀率（Capistrán等人，2010）。时间序列数据的可预测性往往源于三个主要方面：

图1:TSMixer用于多变量时间序列预测。输入的列表示不同的特征/变量，行表示时间步长。全连接操作是逐行操作。 TSMixer包含交错时间混合和特征混合mlp来聚合信息。混合层数记为n，时间混合mlp在所有特征上共享，特征混合mlp在所有时间步长上共享。该设计允许TSMixer自动适应时间和交叉变量信息的使用，具有有限数量的参数，以获得更好的泛化。本文还探讨了辅助信息的可拓性。

•持续的时间模式：包括趋势和季节性模式，例如，长期通货膨胀、工作日的影响；

•交叉变量信息：不同变量之间的相关性，例如，血压升高与体重升高相关；

•辅助特征：包括静态特征和未来信息，如产品类别和促销活动。

传统模型，如ARIMA (Box et al., 1970)，是为单变量时间序列设计的，其中只有时间信息可用。因此，它们在处理具有挑战性的真实世界数据时面临局限性，这些数据通常包含复杂的交叉变量信息和辅助特征。相比之下，已经提出了许多深度学习模型，特别是基于transformer的模型，因为它们能够捕获复杂的时间模式和交叉变量依赖关系(Gamboa, 2017； Li et al., 2019； Wen et al., 2017； Zhou et al., 2021； Wu et al., 2021； Lim & Zohren, 2021；刘等，2022a；周等，20022b；刘等，2022b； Zhou et al., 2022a)。自然的直觉是，多变量模型，比如那些基于Transformer架构的模型，应该比单变量模型更有效，因为它们能够利用交叉变量信息。然而，Zeng等人（2023）发现情况并非总是如此——在许多常用的预测基准上，基于变压器的模型确实比简单的单变量时间线性模型差得多。多变量模型似乎遭受过拟合，特别是当目标时间序列与其他协变量不相关时。这一惊人的发现提出了两个基本问题：

1.交叉变量信息真的能为时间序列预测提供好处吗？

2. 当交叉变量信息不是有益的，多变量模型仍然可以表现得像单变量模型一样好吗？

为了解决这些问题，我们首先分析时间线性模型的有效性。我们的研究结果表明，它们的时间步长依赖特性使得时间线性模型在常见假设下学习时间模式的候选对象。因此，我们逐渐将线性模型的容量增加

1.非线性叠加时间线性模型（TMix-Only）；

2.引入交叉变量前馈层（TSMixer）。

由此产生的TSMixer可选择跨时间和特征维度应用mlp，在概念上对应于时间混合和特征混合操作，有效捕获时间模式和交叉变量信息，如图1所示。残差设计确保TSMixer保留了时间线性模型的能力，同时仍然能够利用交叉变量信息。我们在常用的长期预测数据集（Wu et al., 2021）上评估了TSMixer，其中单变量模型优于多变量模型。我们的消融研究证明了叠加时间线性模型的有效性，并验证了交叉变量信息对这些流行数据集的影响较小，这解释了单变量模型的优越性能。即便如此，TSMixer与最先进的单变量模型不相上下，并且显著优于其他多变量模型。为了证明多元模型的好处，我们在具有挑战性的M5基准上进一步评估TSMixer， M5基准是m竞争中使用的大型零售数据集（Makridakis et al., 2022）。 M5包含关键的交叉变量相互作用，如销售价格（Makridakis et al., 2022）。结果表明，交叉变量信息确实带来了显著的改进，TSMixer可以有效地利用这些信息。此外，我们还提出了一种扩展TSMixer的原理设计，以处理静态特征和未来时变特征等辅助信息。它将不同类型的特征对齐成相同的形状，然后在连接的特征上应用混频器层，以利用它们之间的相互作用。在这个更实际和更具挑战性的环境中，TSMixer优于工业应用中流行的模型，包括DeepAR （Salinas等人，2020年，Amazon SageMaker）和TFT (Lim等人，2021年，谷歌Cloud Vertex)，展示了其对现实世界影响的强大潜力。我们的贡献总结如下：

•我们分析了最先进的线性模型的有效性，并指出它们的时间步相关特征使它们成为在常见假设下学习时间模式的绝佳候选者。

表1：时间序列预测的最新研究成果。第一类为单变量时间序列预测；第二类是多元时间序列预测，第三类是有辅助信息的时间序列预测。在这项工作中，我们提出了第二类TSMixer。我们还扩展了TSMixer，以利用辅助信息，包括类别III的静态和未来时变特征。

·我们提出了TSMixer，这是一种创新的体系结构，它保留了线性模型捕获时间模式的能力，同时仍然能够利用跨变量信息。

·我们指出了在常见的长期预测基准上评估多变量模型的潜在风险。

·我们的实证研究表明，TSMixer是第一个在公共基准上与单变量模型持平的多变量模型，并在跨变量信息至关重要的大规模工业应用中实现了最先进的水平。

广义地说，时间序列预测是在给定一组历史观测的情况下，预测一个变量或多个相关变量的未来值的任务。深度神经网络已被广泛研究用于这一任务(Zhang等人，1998；Kourentze，2013；Lim&Zohren，2021)。在表1中，我们根据模型所考虑的信息，将值得注意的工作粗略地分为三类：(I)单变量预测，(Ii)多变量预测，和(Iii)有辅助信息的多变量预测。基于深度神经网络的多变量时间序列预测越来越受到人们的欢迎，其动机是对协变量之间的复杂关系进行建模，以提高预测性能。基于Transformer的模型(第二类)是这种情况的常见选择，因为它们在建模长而复杂的序列数据方面具有优异的性能(Vaswani等人，2017年)。Transformers的各种变体已经被提出，以进一步提高效率和准确性。Informer(周等人，2021)和Autoformer(Wu等人，2021)通过不同的注意力设计解决了效率瓶颈，为长期预测节省了更少的内存使用。FEDformer(周等人，2022B)和FiLM(周等人，2022A)使用快速傅立叶变换对序列进行分解，以更好地提取长期信息。也有关于改进具体挑战的扩展，例如非平稳性(Kim等人，2022；Liu等人，2022b)。尽管基于Transformer的多变量预测模型取得了进展，但曾等人表示。(2023)确实显示了与直觉相反的结果，即简单的一元线性模型(类别I)，其中将多变量数据处理为几个单变量序列，在常用的长期预测基准上，可以显著超过所有建议的多变量Transformer模型。类似地，Nie et al.(2023)反对对跨变量信息建模，并提出了一种用于多变量预测任务的单变量Patch Transform，并在多个数据集上显示了最先进的准确性。相反，作为核心贡献之一，我们发现这一结论主要来自数据集偏差，可能不能很好地推广到一些现实世界的应用。

还有其他工作考虑了辅助信息((类别III))可用的场景，例如静态特征(例如位置)和未来的时变特征(例如未来几周的促销)。常用的预测模型已经被扩展以处理这些辅助特征。这些模型包括状态空间模型(Rangapuram等人，2018；Alaa&van der Schaar，2019；Gu等人，2022)、RNN变体温等人。(2017)；Salinas等人。(2020)，和注意力模型Lim等人。(2021年)。大多数真实世界的时间序列数据集更符合这一设置，这就是为什么这些深度学习模型在各种应用中取得了巨大成功并在行业中广泛使用(例如AWS SageMaker的DeepAR(Salinas等人，2020)和Google Cloud Vertex的TFT(Lim等人，2021))。这些模型的一个缺点是它们的复杂性，特别是与前面提到的单变量模型相比。我们对TSMixer的动机来自于分析时间序列预测的线性模型的性能。对于其他数据类型，以前也考虑过类似的体系结构，例如，提出的TSMixer在某种程度上类似于来自计算机视觉的众所周知的MLP Mixer体系结构(Tolstikhin等人，2021年)。混合器模型还应用于文本(Fusco等人，2022)、语音(Tatanov等人，2022)、网络流量(郑等人，2022)和点云(Choe等人，2022)。然而，就我们所知，基于MLP混合器的体系结构用于时间序列预测还没有在文献中探索过。

Linear Models for Time Series Forecasting

线性模型优于更复杂的顺序架构，如Transformers，已经被实证证明Zeng等人（2023）。我们首先提供了关于线性模型的能力的理论见解，由于与其他顺序模型相比，线性模型的简单性可能被忽视了。然后，我们将线性模型与其他架构进行比较，并表明线性模型具有RNN和transformer中不存在的特征-它们具有适当的表示能力来学习单变量时间序列的时间依赖性。这一发现激发了我们在第4节中提出的架构的设计。

记法：设历史观测值为X∈RL×Cx，其中L为回顾窗口的长度，Cx为变量个数。我们考虑预测Y∈RT×Cy的任务，其中T是未来时间步长的数量，Cy是我们想要预测的时间序列的数量。在这项工作中，我们重点研究目标时间序列的过去值包含在历史观测（Cy≤Cx）中的情况。线性模型学习参数A∈RT×L， b∈RT×1来预测接下来的T步的值如下：

理论见解：对于时间序列预测，大多数有影响力的实际应用要么具有平滑性，要么具有周期性，否则可预测性很低，预测模型也不可靠。首先，我们考虑时间序列是周期性的共同假设(Holt, 2004； Zhang & Qi, 2005)。给定任意周期函数x(t) = x(t - P)，其中P < L为周期。有一个线性模型的解，可以完美地预测未来的值：

当扩展到仿射变换周期序列时，x(t) = a·x(t−P)+c，其中a， c∈R为常数，线性模型仍然有完美预测的解：

这个推导说明，线性模型是捕获时间关系的有力候选模型。对于非周期模式，只要它们是光滑的（这在实践中经常出现），在给定足够的回看窗口大小的情况下，误差仍然是有界的。

与传统深度学习模型的区别

继Zeng et al.（2023）和Nie et al.（2023）的讨论之后，我们对线性模型的分析提供了更深入的见解，为什么以前的深度学习模型倾向于过拟合数据。线性模型具有一个独特的特征，其中映射的权重对于输入序列中的每个时间步都是固定的。这种“时间步长相关”的特征是我们之前发现的一个重要组成部分，与循环或基于注意力的体系结构形成对比，在这种体系结构中，输入序列的权重是“数据相关”函数的输出，例如lstm中的门或变压器中的注意层。时间步长相关模型与数据相关模型如图2所示。时间步长相关的线性模型虽然简单，但对时间模式的建模是非常有效的。相反，尽管循环或注意力架构具有很高的表征能力，但实现时间步独立性对它们来说是具有挑战性的。他们通常对数据进行过拟合，而不是单独考虑位置。线性模型的这种独特性质可能有助于解释Zeng等人（2023）的结果，其中没有其他方法可以与线性模型的性能相匹配。

分析的局限性

分析的目的是了解时间线性模型在单变量情景下的有效性。现实世界的时间序列数据可能具有高波动性，使得模式非周期性和非平滑。在这种情况下，仅仅依靠过去观察到的时间模式可能是次优的。超越Lipschitz案例的分析可能具有挑战性，并且超出了本文的范围（Zhang, 2023），因此我们将对更复杂的案例进行分析，以供未来的工作使用。尽管如此，该分析促使我们基于线性模型开发更强大的模型，这将在第4节中介绍。我们还展示了有效利用多变量信息的重要性，因为其他协变量可能包含可用于对波动性进行建模的信息——实际上，我们在表5中的结果强调了这一点。

TSMixer Architecture

在我们发现线性模型可以作为捕获时间依赖性的强有力候选者的基础上，我们最初提出了一种自然增强方法，即通过将线性模型与非线性模型叠加形成多层感知器（mlp）。常用的深度学习技术，如归一化和残差连接，被用于促进有效的学习。然而，这种体系结构没有考虑到交叉变量信息。为了更好地利用交叉变量信息，我们建议在时域和特征域交替应用mlp。时域mlp在所有特征之间共享，而特征域mlp在所有时间步长之间共享。由此产生的模型类似于计算机视觉中的MLP-Mixer架构（Tolstikhin等人，2021），具有时域和特征域

操作分别表示时间混合操作和特征混合操作。因此，我们将我们提出的架构命名为时间序列混频器（TSMixer）。这两种操作之间的交错设计有效地利用了时间依赖性和交叉变量信息，同时限制了计算复杂度和模型大小。它允许TSMixer使用一个较长的回溯窗口（见第3节），同时如果使用全连接mlp，则只保持0 （L + C）而不是O（LC）的参数增长。为了更好地理解跨变量信息和特征混合的效用，我们还考虑了仅使用时间混合的TSMixer的简化变体，称为TMix-Only，它由跨每个变量共享的残差MLP组成，如图3所示。我们还将TSMixer扩展到有关时间序列的辅助信息可用的场景。

对于只有历史数据可用的多变量时间序列预测，TSMixer在时间域和特征域交替应用mlp。该体系结构如图1所示。

•时间混合MLP：时间混合MLP对时间序列中的时间模式进行建模。它们由一个完全连接的层组成，然后是一个激活函数和dropout。它们将输入转置以应用沿时域和特征共享的全连接层。我们采用单层MLP，如第3节所示，其中一个简单的线性模型已经被证明是学习复杂时间模式的强大模型。

•特征混合MLP：特征混合MLP按时间步长共享，用于利用协变量信息。与基于transformer的模型类似，我们考虑两层mlp来学习复杂的特征转换。

•时间投影：时间投影，与zeng等人（2023）的线性模型相同，是一个应用于时域的全连接层。它们不仅学习时间模式，还将时间序列从原始输入长度L映射到目标预测长度T。

•残余连接：我们在每个时间混合层和特征混合层之间应用残余连接。这些连接允许模型更有效地学习更深层次的架构，并允许模型有效地忽略不必要的时间混合和特征混合操作。

•归一化：归一化是改进深度学习模型训练的常用技术。虽然批归一化和层归一化之间的偏好取决于任务，但Nie等人（2023）证明了批归一化在常见时间序列数据集上的优势。与沿着特征维度应用的典型归一化相比，由于存在时间混合和特征混合操作，我们在时间和特征维度上应用二维归一化。

与最近增加复杂性的一些Transformer进展相反，TSMixer的体系结构实现起来相对简单。尽管它很简单，但我们在第5节中证明了TSMixer在代表性基准测试中仍然与最先进的模型具有竞争力。

扩展TSMixer的时间序列预测与辅助信息

除了历史观测之外，许多现实世界的场景允许我们访问静态S∈R1×Cs（例如位置）和未来时变特征Z∈RT×Cz（例如随后几周的促销活动）。这个问题也可以推广到多个时间序列，用X(i)M i=1表示，其中M是时间序列的个数，每个时间序列都与自己的一组特征相关联。最近的工作，特别是那些关注长期预测的工作，只考虑所有变量的历史特征和目标（即Cx = Cy > 1, Cs = Cz = 0）。在本文中，我们还考虑了辅助信息可用的情况（即Cs > 0, Cz > 0）。为了利用不同类型的特征，我们提出了一个原则设计，自然地利用特征混合来捕获它们之间的交互。我们首先设计对齐阶段，将不同形状的特征投影到相同的形状中。然后我们可以连接特征并无缝地在它们上应用特征混合。我们对TSMixer进行扩展，如图4所示。该体系结构包括两个部分：对齐和混合。在对齐阶段，TSMixer通过应用时间投影和特征混合层（其中Ch表示隐藏层的大小）将历史特征（RL×Cx）和未来特征（RT×Cz）对齐成相同的形状（RL×Ch）。此外，它重复静态特征以将其形状从R1×Cs转换为RT×Cs，以便对齐输出长度。在混合阶段，混合层包括时间混合和特征混合操作，自然地综合利用来自所有特征的时间模式和交叉变量信息。最后，我们使用全连接层为每个时间步生成输出。输出可以是预测时间序列的实值（RT×Cy），通常通过平均绝对误差或均方差进行优化，或者在某些任务中，它们可能生成目标分布的参数，例如用于零售需求预测的负二项分布（Salinas et al., 2020）。我们稍微修改混合层，以更好地处理M5数据集，如附录B所述。

TSMixer和MLP-Mixer之间的差异

虽然TSMixer与MLP-Mixer在架构上有相似之处，但在我们在第3节中的分析的推动下，TSMixer的开发导致了一种独特的规范化方法。在TSMixer中，二维表示特征和时间步长，不像MLP-Mixer的特征和补丁。因此，我们应用2D归一化来维持特征和时间步长的尺度，因为我们已经发现了在预测中利用时间模式的重要性。此外，我们提出了TSMixer的扩展版本，以更好地从异构输入中提取信息，这对于在现实场景中获得最先进的结果至关重要。

Experiments

我们在七个流行的多变量长期预测基准和大规模真实零售数据集M5上评估了TSMixer （Makridakis et al., 2022）。长期预测数据集涵盖各种诸如天气、电力和交通等应用，由没有辅助信息的多变量时间序列组成。 M5数据集用于预测沃尔玛各种商品销售的竞争任务。它是一个大型数据集，包含30,490个时间序列，具有静态特征（如商店位置）以及时变特征（如活动信息）。这种复杂性使M5成为探索交叉变量信息和辅助特征的潜在好处的更具挑战性的基准。这些数据集的统计结果见表2。

图4：带有辅助信息的TSMixer。输入的列是特征，行是时间步长。我们首先对齐不同类型输入的序列长度以将它们连接起来。然后利用混合层对它们的时间模式和交叉变量信息进行联合建模。

表2：各数据集的统计情况。注意，电力和交通可以被视为多变量时间序列或多个单变量时间序列，因为所有变量在数据集中共享相同的物理含义（例如，不同地点的电力消耗）。

表3：长期预测数据集的评价结果。标注“*”的模型编号来源于Nie et al.（2023）。每行中最好的数字以粗体显示，第二好的数字用下划线表示。我们在比较中跳过TMix-Only，因为它的性能与TSMixer相似。最后一行显示了TSMixer相对于其他方法的MSE改进的平均百分比。

多变量长期预测

对于多变量长期预测任务，我们将TSMixer与最先进的多变量模型进行比较，如FEDformer （Zhou等人，2022b）、Autoformer （Wu等人，2021）、Informer （Zhou等人，2021）和单变量模型，如PatchTST （Nie等人，2023）和LTSF-Linear （Zeng等人，2023）。此外，我们还包括TFT (Lim等人，2021)，这是一种考虑辅助信息的基于深度学习的模型，作为理解仅依赖历史特征的局限性的基线。我们还对TMix-Only进行了评估，TMix-Only是TSMixer的一种变体，仅应用时间混合，以评估特征混合的有效性。结果如表3所示。与其他类似mlp的替代方案的比较在附录f中提供。

TMix-Only 与线性模型相比，TMix-Only表明，即使不考虑交叉变量信息，叠加也是有益的。此外，TMixOnly的执行水平与最先进的PatchTST相当，这表明简单的时间混合层与更复杂的注意力机制相当。

TSMixer 结果表明，TSMixer具有与TMix-Only和PatchTST相似的性能。它明显优于最先进的多变量模型，与最先进的单变量模型PatchTST相比，具有竞争力。 TSMixer是唯一与单变量模型竞争的多变量模型，所有其他多变量模型的表现都明显不如单变量模型。 TSMixer的性能也与TMix-Only相似，这意味着功能混合对这些基准测试没有好处。这些观察结果与（Zeng et al., 2023）和（Nie et al., 2023）的研究结果一致。结果表明，交叉变量信息在这些数据集中可能不太显著，这表明常用的数据集可能不足以评估模型利用协变量的能力。然而，我们将证明交叉变量信息在其他场景中也很有用。

回溯窗口大小的影响 为了更深入地了解TSMixer利用更长的序列的能力，我们进行了不同回溯窗口大小的实验，特别是L ={96, 336, 512, 720}。我们还对线性模型进行了类似的实验，以支持我们在第3节中提出的发现。实验结果如图5所示。更多结果和细节见附录d。我们的实证分析表明，随着回顾窗口大小从96增加到336，线性模型的性能显著提高，并且似乎在720达到收敛点。这与我们之前的发现一致，即线性模型的性能取决于回看窗口的大小。另一方面，当窗口大小设置为336或512时，TSMixer达到最佳性能，并且当窗口大小增加到720时保持类似的性能水平。正如Nie等人（2023）所指出的，许多基于多元变压器的模型（如Transformer、Informer、Autoformer和FEDformer）不会从大于192的回看窗口大小中受益，并且当窗口大小增加时容易过度拟合。相比之下，TSMixer展示了比其他多变量模型更好的利用更长的序列的能力和更好的泛化能力。

大规模需求预测 我们在大规模零售数据集M5上评估TSMixer，以探索该模型利用复杂的交叉变量信息和辅助特征的能力。 M5包含数千个多元时间序列，每个序列都有自己的历史观测值、未来时变特征和静态特征，与长期相比

图5：线性模型和TSMixer在不同回溯窗口大小L下的性能比较。

表4：不含辅助信息的M5评价。我们报告了5种不同随机种子的WRMSSE的平均值和标准差。 TMix-Only是TSMixer的单变量变体，其中只应用时间混合。多变量模型的性能优于单变量模型，差异显著。

预测基准，通常由单个多变量历史时间序列组成。我们利用第4.2节中介绍的tsmizer - ext架构来利用辅助信息。此外，在目标序列中存在高比例的零对预测提出了额外的挑战。因此，我们按照ysalinas et al.（2020）的建议学习负二项分布，以更好地拟合分布。

首先，我们将TSMixer与其他仅使用历史特征的基线进行比较。如表4所示，对于这个数据集，多变量模型比单变量模型执行得好得多。值得注意的是，设计用于忽略交叉变量信息的PatchTST表现显著

比多变量TSMixer和FEDformer更差。这一结果强调了在一些预测任务中对交叉变量信息建模的重要性，这与（Nie et al., 2023）中的论点相反。此外，TSMixer实质上优于FEDformer，这是一种最先进的多元模型。 TSMixer表现出独特的价值，因为它是唯一一个在交叉变量信息无用时表现得与单变量模型一样好的模型，而且当交叉变量信息有用时，它是利用交叉变量信息的最佳模型。

辅助信息预测 为了了解TSMixer可以在多大程度上利用辅助信息，我们将TSMixer与已建立的时间序列预测算法TFT （Lim等人，2021）和DeepAR （Salinas等人，2020）进行比较。表5显示，使用辅助特性时，TSMixer的性能明显优于所有其他基线。这一结果证明了TSMixer在建模复杂的交叉变量信息和有效利用辅助特征方面的卓越能力，这是一种超越长期预测基准的对现实世界时间序列数据有影响的能力。我们还通过去除静态特征和未来时变特征来进行消融研究。结果表明，虽然静态特征的影响更为突出，但静态和未来时变特征对TSMixer的整体性能都有贡献。这进一步强调了在时间序列预测模型中纳入辅助特征的重要性。

计算成本 我们在M5上用每个模型的最佳超参数来度量每个模型的计算成本。如表6所示，与基于RNN和transformer的模型相比，TSMixer的尺寸要小得多。 TSMixer的训练时间与多元模型相似，但它的推理速度要快得多，与简单的线性模型几乎相同。请注意，PatchTST具有更快的推理速度，因为它将特征维度合并到批处理维度中，这导致了更多的并行性，但失去了多变量信息，这是对现实世界时间序列数据进行高预测精度的关键方面。

Conclusions

我们提出了TSMixer，这是一种新的时间序列预测架构，它使用mlp而不是常用的rnn和注意机制来设计，以简单的架构获得更好的泛化。我们在广泛的现实世界时间序列预测任务中的结果表明，TSMixer在多元时间序列的长期预测基准和现实世界大规模零售需求预测任务中都是非常有效的。值得注意的是，TSMixer是唯一能够在长期时间序列预测基准中实现与单变量模型相似性能的多变量模型。 TSMixer架构具有进一步改进的巨大潜力，我们相信它将在广泛的时间序列预测任务中发挥作用。一些潜在的未来工作包括进一步探索TSMixer的可解释性，以及它对更大数据集的可扩展性。我们希望这项工作将为时间序列预测的更多创新架构铺平道路。

总结

原文

Introduction

Related Work

Linear Models for Time Series Forecasting

TSMixer Architecture

Experiments

Conclusions

评论记录：