Skip to article frontmatterSkip to article content
Site not loading correctly?

This may be due to an incorrect BASE_URL configuration. See the MyST Documentation for reference.

时间序列基座模型

北京大学光华管理学院

时间序列基座模型(Time Series Foundation Models, TSFMs)把预测从单任务建模推进到跨领域、跨频率和跨任务的统一建模。它们通常结合分解、多尺度表示、Transformer、重编程(reprogramming)和大规模预训练,目标是在新数据集上也能快速给出可用预测。本章围绕分解、TimeMixer、Time-LLM 和 Chronos 等思路,说明时间序列基座模型的技术路线和应用边界。

学习目标

完成本章后,你应该能够:

从统计模型到基座模型

时间序列预测经历了多个阶段。早期方法包括 Holt-Winters、ARIMA 和 ETS,强调可解释结构和统计假设。之后,DeepAR、N-BEATS、TCN、Informer 等深度模型开始从大量序列中学习模式。近几年,PatchTST、TimeMixer、TimesNet、Time-LLM、Chronos、Moirai 和 TimesFM 等模型进一步推动了通用化。

我们把这条脉络讲得更完整。1970 年前后,Box-Jenkins 系统化了 ARIMA,Holt-Winters 和指数平滑也长期服务于趋势和季节性预测。2000 年以后,神经网络、卷积、集成和深度学习进入时间序列领域,DeepAR、N-BEATS 等模型开始从多条序列中学习。2020 年前后,Informer、Autoformer、ETSformer 等 Transformer 模型把注意力机制引入长序列预测。到 2024 年前后,基座模型思想进入时间序列领域,问题从“为某个数据集训练模型”变成“能否学习足够丰富的时间序列形态空间”。

基座模型的核心问题是:能否训练一个模型,让它在许多领域、许多频率、许多预测步长上都能工作?如果可以,企业就不必为每个产品、门店、地区和时间粒度单独维护模型。

因此,时间序列基座模型不同于普通监督学习(supervised learning)表格上的 prediction。它的目标是在大量不同时间序列中学习可迁移的时序表示,并在新序列上快速适配。

我们进一步强调,基座模型还改变了上下文处理方式。传统模型往往要求固定输入窗口和固定预测步长;真实业务中,一个地区可能有 5 年历史,一个新市场可能只有 1 年历史,一个新品可能只有几周历史。基座模型要学习的不是某个固定窗口,而是在不同上下文长度中提取有用历史,并把跨序列经验迁移到新任务。

选择基座模型时,领域数据非常关键。一个模型在金融、零售、能源或交通任务中的表现,不只取决于模型名字,也取决于预训练和后续训练中是否吸收了足够多的相关数据、风险逻辑和业务结构。金融交易案例说明,如果训练数据和任务理解更接近真实交易,模型可能更像交易员;如果训练数据主要强化文本表达,它可能更像报告撰写助手。

企业规模越大,这个问题越现实。电商平台、供应链系统和金融机构可能同时维护成千上万条序列。早期做法是每条序列或每类序列单独建模,随着业务扩大,预测团队会被模型维护、特征更新和异常处理拖住。基座模型的管理意义在于把大量重复建模工作转化为一个可复用的预测能力,再让业务人员把精力放在数据质量、评估和决策上。

可以用“预训练 checkpoint(检查点)”解释这种变化。一个训练好的模型文件,本质上保存了大量参数;这些参数来自大规模数据训练后的经验。使用者拿到 checkpoint 后,整理好时间列、目标列、序列编号和预测步长,就可以直接做零样本预测或少量微调。它不再要求每次都从头训练一个 ARIMA、ETS 或深度模型。

TimeGPT 可以作为这种变化的教学入口。它和 ChatGPT、DeepSeek 这类通用聊天模型不同,目标是处理时间序列预测任务 Garza et al., 2024。在示例中,用户把航空乘客数据整理成 unique_iddsy 三列,指定月度频率和未来 12 期,模型就能返回一条未来曲线。这个过程展示了基座模型的便利性,也提醒我们:输出曲线只是开始,是否可用仍要用第六章和第七章的评估流程证明。

Chronos 提供了另一种直觉:把连续时间序列转换成 token,让模型像学习“时间的语言”一样学习上升、下降、波动、季节和异常模式 Ansari et al., 2024。Amazon 需要这类统一模型,是因为全球电商平台同时面对大量地区、品类、长尾商品和冷启动对象;如果每个商品都单独维护模型,专家、算力和工程流程都会被规模压垮。

我们把这个问题进一步落到 zero-shot forecasting(零样本预测)。所谓零样本预测,是指新的时间序列直接输入预训练模型,不再为这条序列重新训练,模型就给出预测。对企业来说,这很有吸引力:大量新品、长尾 SKU、新区域和临时指标没有足够历史数据,也没有时间逐条调参,但仍然需要一个稳健的候选预测。

零样本能力来自预训练阶段的大规模投入。基座模型已经在大量长短不一、频率不同的时间序列上学习过模式;推理时只是把当前序列映射到这个已经学好的表示空间中,再输出未来分布。我们特别提醒,这不等于模型永远最好,而是说它可以成为一个强基准。使用者仍然要检查它是否超过 Naive、季节性 Naive、ARIMA、LightGBM、DeepAR、NHITS 或其他合适基线。

我们进一步强调,预训练模型在数据很少时尤其有价值。一个新企业可能只有几百个经营观测值,但历史上有大量类似企业经历过扩张、收缩、季节波动和促销冲击。基座模型就像把这些“过来人经验”压缩进参数中,让新企业在早期数据不足时也能得到参考预测。换句话说,Foundation Model 不只是大企业海量数据的工具,也是小样本场景借用外部经验的方式。

模型表现还和数据频率有关。月度和周度商业数据通常更适合 TimeGPT 这类基座模型发挥跨序列泛化能力;小时级、分钟级或 15 分钟级高频数据中,LightGBM、XGBoost 等树模型仍可能非常有竞争力,尤其在量化和低延迟场景中。DeepAR 这类神经网络自回归模型也常被用作稳定基线。真正的企业系统不只追求某个模型平均第一,还要避免某些场景下特别差的预测误导决策。

Chronos-2 与离线推理

本章练习使用一个用于离线推理(Offline Inference)的 Chronos-2 模型。模型文件提前下载后放在本地目录中,目录里通常包含 config.jsonmodel.safetensors 等文件;示例版本的权重文件约为数百 MB,可以直接加载到内存中推理。这个练习说明,时间序列基座模型不一定只能通过云端 API 使用,也可以作为本地模型进入 notebook。

Chronos-2 相比早期版本的一个重要扩展,是对单变量(univariate)、多变量(multivariate)和外生变量的支持。单变量预测只使用目标序列本身;多变量预测可以同时处理多条相关序列;加入协变量(covariates)时,节假日、促销、开店状态、顾客数或未来已知日历信息都可以成为输入。它还支持在预训练模型基础上进一步微调,从通用能力转向更贴近某个领域的数据。

上下文长度(context length)也是基座模型的重要约束。早期版本上下文长度约为 512,而新的版本可以支持到 8192。对日度数据来说,8192 个点大约覆盖二十多年历史;对小时级数据来说,则覆盖更短的真实时间跨度。选择模型时,不能只看模型名字,还要看它能接收多长历史、是否支持协变量、是否能输出分位数、是否能在本地硬件上以可接受速度运行。

本地模型的管理问题和 API 不同。API 主要管理 key、成本和数据外发;本地模型要管理模型路径、依赖版本、CPU/GPU 选择和内存占用。几百 MB 的模型可以在很多笔记本电脑 CPU 上运行,只是速度较慢;如果使用 GPU,推理速度会明显提升。对教学来说,这种本地练习很有价值,因为学生可以看到“预训练模型文件”如何变成实际预测,而不是只看到一个远程服务返回结果。

分解思想

复杂时间序列通常包含多个层次:

STL 分解(Seasonal-Trend decomposition using LOESS, STL)可以写成:

yt=St+Tt+Rty_t = S_t + T_t + R_t

有些业务场景也可以用乘法形式理解:

yt=St×Tt×Rty_t = S_t \times T_t \times R_t

分解的价值在于把复杂问题拆开。趋势帮助理解长期方向,季节项帮助捕捉周期结构,残差则提醒我们还有异常和随机性。现代模型并没有抛弃分解,反而经常把它嵌入深度结构。

这也是本章的一个主线:新模型并不是把旧统计思想全部扔掉。很多有效的模型仍然在使用上世纪形成的基本判断,例如趋势、季节、残差、聚合、组合和调和。差别在于,现代模型可以把这些结构放入更大的可学习系统中,让它们服务于跨领域预测。

我们特别强调分解的诊断价值。如果趋势预测不好,应改进长期方向建模;如果季节性预测不好,应检查周期结构;如果残差很大,可能说明有异常、冲击或外部变量没有进入模型。相比把所有波动直接丢进黑箱,分解让模型结构更容易解释,也更容易和业务人员讨论。

分解与 Transformer

Autoformer 将分解思想和 Transformer 结合。它用滑动平均提取趋势,用注意力机制捕捉季节和残差结构,并在多层结构中递归分解。这种设计让模型在长序列预测中更稳定,也更容易解释。

这个思路说明,基座模型不一定是纯黑箱。统计结构仍然有价值,尤其是在业务场景中,趋势和季节性本身就是管理者能理解的语言。

Autoformer 的教学意义在于,它把“先理解结构,再让深度模型学习”的思想写进了网络。原始序列先被拆成趋势和季节等部分,再分别进入可学习模块。这样既保留了 Transformer 处理复杂依赖的能力,也保留了传统时间序列分解的可解释性。这个例子提醒我们:当我们对数据有明确理解时,应把这种理解嵌入模型,而不是盲目追求完全端到端(end-to-end)。

多尺度建模

时间序列往往同时包含粗尺度和细尺度信息。电商销量可能有小时级波动、日内周期、周末效应和年度季节性;能源负荷可能受分钟级扰动、日周期和季节气温共同影响。

多尺度建模试图同时捕捉这些层次。TimeMixer 的核心思想是把不同时间尺度的特征放入统一结构中混合,既建模跨时间依赖,也建模跨变量关系。它通过 temporal mixing、channel mixing 和多尺度残差连接来处理趋势、周期和局部波动。

对业务来说,多尺度模型的价值在于减少单一频率视角的盲区。只看日度数据会丢失小时级异常,只看短期数据又可能看不到长期趋势。

多尺度也可以降低计算压力。秒级或分钟级序列太长,直接做全局注意力成本很高;把序列聚合到小时、日、周或月,可以让模型从粗到细地理解信号。车流量数据在秒级看起来很细碎,聚合到天或周后才容易看到通勤、周末和节假日规律。基座模型要学习的正是这种跨尺度的表示。

我们用“离得太近反而看不清”的例子说明尺度问题。秒级车流量包含细节,但噪声也大;聚合到小时、天、周或月后,通勤、周末、节假日和长期变化反而更清楚。经济因子模型常常看月度或季度结构,高频交易则看分钟级甚至秒级微结构。对同一条序列,不同尺度不是重复信息,而是不同层次的信息。

多尺度还直接帮助注意力计算。标准 Transformer 的注意力复杂度随序列长度平方增长;如果把长度为 TT 的序列降采样(downsampling)为 T/7T/7T/52T/52 等粗尺度序列,粗尺度上的 attention 成本会显著降低,同时还能捕捉更稳定的宏观结构。微观尺度负责局部细节,宏观尺度负责长期趋势和周期,二者结合比单独盯着高频原始序列更稳健。

TimeMixer 可以作为多尺度思想的具体例子。它先对原始序列做不同尺度的降采样,得到多个分辨率下的序列;再在每个尺度上做 decomposition,把趋势项和季节项拆开;随后分别对趋势和季节做 mixing,让不同尺度之间交换信息;最后用前馈网络生成各尺度预测并合并 Wang et al., 2024。它表面上是端到端模型,内部却遵循清楚的时间序列逻辑:先看多个尺度,再拆趋势和季节,再组合预测。

从基座模型到专家路由

基座模型越想服务多种场景,就越需要路由机制。稳定农产品、空调销售、金融高频价格、冷启动新品和间歇性备件需求并不是同一种预测问题;一个通用模型如果要同时处理它们,就必须学习哪些内部能力适合哪些输入。

这个问题在第十一章中作为独立主题讨论。Mixture of Experts, 简称 MoE, 把不同专家模型按权重组合起来,让门控网络根据序列特征决定谁参与预测、谁占更高权重。它既继承了统计预测中的组合预测思想,也解释了现代大模型为什么可以通过稀疏激活降低推理成本。

在本章中,只需要先抓住一个连接点:基座模型不是“一个模型解决一切”,而是把表示学习、分解、多尺度、路由、蒸馏和迁移组合成一套预测系统。MoE 负责回答“把当前序列交给谁”的问题,蒸馏和迁移则负责回答“如何把大模型能力变成可部署、可适配的业务模型”。

时间序列重编程

另一条路线是让大语言模型处理时间序列。LLM 本来处理文本 token,不直接理解连续数值。时间序列重编程(time-series reprogramming)通过外部适配器(adapter)或重编程器,把数值片段映射到 LLM 可以处理的表示空间。

基本流程是:

  1. 输入时间序列片段。

  2. 用重编程器生成 prompt、embedding 或语义表示。

  3. 冻结(freeze)LLM 主体,只训练外部适配器。

  4. 输出预测、分类或异常检测结果。

这种方法的吸引力在于利用 LLM 已有的表示能力和推理能力,而不需要从头训练大模型。风险是数值信号和语言语义之间的映射并不天然,必须通过合理设计和严格评估证明有效。

音频信号提供了一个有用类比:原始波形需要先变成可学习特征,时间序列也需要合适的表示。每条序列、每个时间窗口和每个时间点都可以成为训练样本的一部分;样本组织方式决定了模型能否从大规模数据中学到通用规律。

数值 token 可以解释重编程直觉。一个序列 [100, 120, 90] 可以直接作为数值片段,也可以转成“中、高、低”这样的分桶标签,或者转成“上涨 20、下跌 30”这样的变化 token。基座模型真正要学的,不只是这些数字本身,而是它们在上下文中的含义:当前点相对过去处在什么位置、是否接近节日前后、是否延续了历史趋势,以及和相似序列相比是否异常。

我们还会从另一个角度追问:时间序列里的 token 在哪里?答案并不唯一。它可以是单个原始数值点,也可以是一个时间片段、一个 patch、一个经过编码的 embedding,或者一个经过降采样后的尺度片段。文本模型处理词和子词,时间序列模型处理数字及其上下文形态。关键不是 token 长什么样,而是它能否承载趋势、周期、异常、冲击和局部形状等预测相关信息。

Prompt-as-Prefix

Prompt-as-Prefix 是一种更直观的重编程方式:把结构化时间序列信息编码为提示词前缀。例如把最小值、最大值、中位数、趋势、滞后值和任务说明写入 prompt,让 LLM 在语义空间中理解时间动态。

这种方法适合教学和快速原型,但不能替代正式评估。提示词改变可能带来结果波动,模型也可能生成看似合理但无法验证的解释。因此,Prompt-as-Prefix 更适合作为特征生成、解释辅助或低成本基线。

文本原型与跨注意力

Time-LLM 等方法使用文本原型(text prototypes)和跨注意力机制(cross-attention mechanism),把时间序列片段对齐到语言空间 Jin et al., 2023。文本原型可以表示“短暂上升”“平稳下降”等典型模式。模型让时间序列片段作为 Query,与这些文本原型的 Key 和 Value 匹配,从而生成 LLM 可理解的表示。

直觉上,这是把数值信号翻译成语言模型熟悉的“模式词汇”。如果翻译得好,LLM 可以利用预训练知识处理预测任务;如果翻译不好,就会引入噪声和不稳定性。

从基座模型到蒸馏

基座模型训练成本高,推理成本也可能高。可以用 Teacher Model 和 Student Model 解释知识蒸馏:Teacher 是大而强的预训练模型,Student 是更小、更便宜、更适合部署的模型。训练 Student 时,不只让它拟合真实值,也让它模仿 Teacher 的输出、分布或中间表示。

蒸馏不是简单删掉参数。好的 Student Model 应该保留当前任务真正需要的能力。例如一个大模型可能同时擅长周期、趋势、短期和长期预测,而某个业务只需要稳定的一周销量预测。此时 Student 不必在所有任务上都追平 Teacher,只要在目标场景中足够接近,甚至经过领域数据微调后更稳定,就有实际价值。

这一主题在第十二章中单独展开。对本章来说,蒸馏的作用是把基座模型从“通用能力”推向“可部署能力”:先用大规模预训练获得广泛知识,再把目标任务真正需要的能力迁移到更小、更便宜、更容易部署的模型中。迁移是否成功,仍然要回到第七章的评估流程。

性能与适用边界

基座模型的优势在于泛化和部署效率。它们可以在新数据集上零样本预测,也可以通过少量微调适配业务数据。对于长尾产品、新市场、冷启动序列和多频率场景,这种能力很有价值。

但基座模型不是万能工具。需要注意:

在企业中,基座模型通常应与传统统计模型、业务规则和人工审查共同使用。

冷启动案例能说明基座模型的价值。比如尚未上市的下一代手机没有自己的历史销量,但相关产品、竞品、配件、价格带和共同购买关系可以提供信息。基座模型要学习的正是这种跨序列、跨对象的相似性。

未来方向

时间序列基座模型会继续向跨模态融合、自适应优化、可解释性和实时决策发展。Moirai 这类统一训练框架也说明,未来模型会更强调跨频率、跨领域和概率预测能力 Woo et al., 2024。未来模型可能同时处理文本、图像、传感器、交易和运营数据,并在业务流程中自动更新。

但越接近自动化决策,治理越重要。模型需要说明输入来源、评估记录、适用边界和责任机制。预测能力只是智能决策的一部分。

小结

时间序列基座模型的核心是用大规模预训练和统一结构提升泛化能力。分解、多尺度、Transformer、专家路由、重编程和蒸馏分别解决结构、尺度、依赖、模型选择、跨模态表示和部署成本问题。学习这些模型时,应同时关注技术原理、数据覆盖、评估证据和业务治理。

练习

  1. 对一个月度销售序列,说明趋势、季节和残差分别可能来自什么业务因素。

  2. 设计一个多尺度预测任务,说明需要哪些频率的数据。

  3. 写一个 Prompt-as-Prefix 模板,包含统计特征和预测任务说明。

  4. 比较基座模型零样本预测和传统 ARIMA 模型的评估设计。

  5. 说明为什么一个基座模型仍然需要路由机制,并举出三类应该交给不同专家处理的时间序列。

  6. 解释为什么蒸馏后的小模型可能比直接部署大模型更适合企业。

  7. 列出一个企业引入时间序列基座模型前必须检查的五项条件。

  8. 比较 TimeGPT API 和本地 Chronos-2 模型在隐私、成本、部署、协变量支持和推理速度上的差异。

  9. 画一张表,比较 ARIMA、LSTM 和 Transformer/基座模型在输入表示、长期依赖、趋势季节处理、多尺度能力、数据需求和可解释性上的差异。

参考文献

References
  1. Garza, A., Challu, C., & Mergenthaler-Canseco, M. (2024). TimeGPT-1. 10.48550/arXiv.2310.03589
  2. Ansari, A. F., Stella, L., Turkmen, C., Zhang, X., Mercado, P., Shen, H., Shchur, O., Rangapuram, S. S., Arango, S. P., Kapoor, S., Zschiegner, J., Maddix, D. C., Wang, H., Mahoney, M. W., Torkkola, K., Wilson, A. G., Bohlke-Schneider, M., & Wang, Y. (2024). Chronos: Learning the Language of Time Series. 10.48550/arXiv.2403.07815
  3. Wang, S., Wu, H., Shi, X., Hu, T., Luo, H., Ma, L., Zhang, J. Y., & Zhou, J. (2024). TimeMixer: Decomposable Multiscale Mixing for Time Series Forecasting. The Twelfth International Conference on Learning Representations (ICLR 2024). 10.48550/arXiv.2405.14616
  4. Jin, M., Wang, S., Ma, L., Chu, Z., Zhang, J. Y., Shi, X., Chen, P.-Y., Liang, Y., Li, Y.-F., Pan, S., & Wen, Q. (2023). Time-LLM: Time Series Forecasting by Reprogramming Large Language Models. https://openreview.net/forum?id=Unb5CVPtae
  5. Woo, G., Liu, C., Kumar, A., Xiong, C., Savarese, S., & Sahoo, D. (2024). Unified Training of Universal Time Series Forecasting Transformers. 10.48550/arXiv.2402.02592