人工智能预测 - 人工智能预测

人工智能预测的核心不是把传统预测问题简单交给一个更大的模型，而是改变预测系统获取信息、学习特征、比较模型和服务决策的方式。传统方法往往依赖人工设定趋势、季节性、滞后项、节假日和外生变量；AI 方法则希望从大规模、多来源、高维度的数据中自动发现可预测结构，并把这些结构转化为稳定可用的预测表示。大语言模型对预测领域的影响，也主要体现在这种信息组织、自动化和流程重构上 Makridakis et al., 2023。

在本课程中，AI 预测仍然首先是时间序列 forecasting，而不是任意机器学习 prediction。用学生画像预测期末成绩属于一般 prediction；用历史销量、价格、节假日、促销和外部事件预测未来销量，则是更严格的 forecasting。这个区别能帮助我们避免把任何模型输出都称为预测系统。

AI 进入预测以后，真正要解决的是四类瓶颈：序列数量太多，人工无法逐条建模；关键特征隐藏在业务系统和外部环境中，肉眼不容易发现；疫情、政策和供应链冲击会打断历史规律；预测结果还必须进入库存、产能、价格和政策等后续决策流程。

我们把这个问题概括为一个现实压力：现代社会的数据已经多到不能靠手工消化。订单、点击、图片、文本、定位、航班、天气、设备日志和财务记录都在持续生成。传统预测不是没有用，而是在数据规模、变量种类和更新频率上遇到了边界。AI 预测要回答的不是“能不能把一个模型叫作智能”，而是能不能在这种数据规模下更快地发现结构、形成预测并服务决策。

我们还要补充一个重要提醒：AI 不保证永远超过人类专家或传统统计模型。它更像一种会逐渐基础设施化的预测起点，可以快速给出候选判断、候选代码和候选曲线，但这些输出最终仍要被现实检验。一个严肃的 AI 预测系统，不能只问“模型能不能给答案”，还要问“这个答案是否在统一评价规则下超过了专家、朴素基准或传统模型”。

从企业角度看，AI 预测会逐渐像数据一样成为常规输入。管理者不一定要把 AI 输出当成最终答案，但可以把它当作 reference：当新人、专家、统计模型和 AI 给出不同预测时，系统要记录这些候选判断，并用统一评价规则决定谁在什么场景下更可信。这样 AI 不是替代所有判断，而是进入预测平台，成为可比较、可追踪、可复用的一类信息资产。

在这个基础上，我们进一步强调：时间序列基座模型让预测更像基础设施，而不只是一次性建模项目。预训练阶段已经付出了主要学习成本，推理阶段则把新的时间序列送入模型，快速得到候选预测；TimeGPT 这类模型正是这种思路的代表 Garza et al., 2024。健康设备是一个直观例子：手表持续记录血氧和心率，如果模型能预测未来几分钟可能出现异常，就可以提前提醒老人坐下或求助。这里的价值不一定来自 benchmark 上多提高 1% 的精度，而是来自预测能否及时进入真实行动。

如果继续把基础设施问题推进到本地 AI 算力，就会看到另一层约束。云端大模型使用方便，但医院、企业、教学和个人健康数据常常不能随意上传。个人或小团队如果拥有本地 AI 计算设备，就可以在自己的环境里运行开源模型、做领域微调、保存敏感数据，并把预测能力嵌入团队或家庭流程。AI 预测的基础设施因此不只包括算法和 API，也包括数据是否留在本地、算力是否可持续、模型是否能在小团队中被反复使用。

只要业务记录带有时间戳，它就可能被重新组织成时间序列或时间序列特征。一次点击、一次预约、一次车辆等待、一张商品图片的上传、一次 API 调用，本身看起来都不是传统时间序列；但当它们持续发生并与目标变量相连时，就会变成预测系统的输入。AI 预测的一个核心能力，是把这些分散痕迹转化为可学习信号。

学习目标¶

完成本章后，你应该能够：

解释时间序列特征（time-series features）在 AI 预测中的作用。
区分人工特征工程（manual feature engineering）和自动化特征学习（automated feature learning）。
说明趋势、季节性、自相关、外生变量和代理变量如何影响预测结果。
解释时间序列特征矩阵如何帮助模型匹配。
解释泛化能力不足、过拟合、欠拟合和结构突变在预测中的表现。
为一个业务预测任务设计基本的 AI 预测流程。

时间序列特征¶

时间序列特征是从历史数据和相关信息中提取出来、能够反映规律性和动态变化的属性。模型能学到什么，往往取决于输入中是否包含有用特征。

常见特征包括：

趋势特征（trend feature）：序列是否长期上升或下降，例如某个行业的销售额持续增长，或某类商品需求逐步下降。
季节性特征（seasonal feature）：固定周期内重复出现的模式，例如夏季饮料需求高于冬季、春节期间电商消费结构变化、用电量存在季度和日内周期。
自相关特征（autocorrelation feature）：当前时刻与过去时刻之间的相关性，例如本月需求受到上月需求影响，或者金融收益率与前几期收益存在弱相关。
外生特征（exogenous feature）：价格、天气、促销、政策、宏观经济、搜索指数、航班运力和地缘政治等外部信息。
代理特征（proxy feature）：不能直接观察目标机制时，用夜间灯光、搜索行为、客流、定位、图片、声音或视频等信号近似刻画真实活动。

这些特征有些很容易看见。自动售货机中的饮料销量可能有夏季高、冬季低的季节性，也可能有上午、下午和晚上不同的日内周期。用电量可能同时包含季度、月度、周度和日内周期。趋势可以通过移动平均等简单方法提取：固定一个窗口，逐步向前滑动并计算局部平均，就能看到比原始波动更平滑的长期方向。

也有些特征不容易直接从图上看出。阿里巴巴某类 3C 产品的日销量如果只看黑白曲线，很多尖峰和下跌都像噪声；一旦把 618、双十一、春节、预售、优惠券和平台活动标出来，许多异常波动就变成了可解释的业务事件。预测像破案：历史序列是基本证据，特征是关键线索。没有线索，模型只能猜测；线索越接近真实机制，预测越可能稳定。

还有一些特征来自行为轨迹，而不是传统表格。地图软件里的拥堵和红灯等待时间，可能来自手机导航轨迹、速度变化和周边车流，而不是来自每个路口的官方传感器。企业 demo 预约和成单率预测，也会使用客户预约、跟进、地区、渠道和转化时间分布。这类数据说明，AI 预测经常要把业务过程中的“痕迹”转化为可学习信号。

特征为什么重要¶

特征决定模型能否区分“噪声”和“信号”。如果一个商品在 双十一 前后出现销量尖峰，但模型不知道那一天是促销期，它可能把尖峰当作随机异常；如果模型知道促销、折扣、预售和购物车行为，尖峰就可以成为未来促销预测的有效依据。

代理变量也体现了特征的重要性。夜间灯光强度可以近似反映地区经济活动，旅游搜索指数可以反映潜在出行意愿，航班运力可以反映出境游恢复条件，声音和视频数据可以补充文本中没有表达出来的沟通信号。这些信息不一定来自目标变量本身，却可能提前反映需求、风险或情绪变化。

但是代理特征不能盲目信任。一个代理变量在某个时期有效，不代表永远有效。夜间灯光与经济活动的关系可能受到产业结构、节能政策或生产方式变化影响；搜索指数与真实消费之间也可能被舆论事件、平台推荐或短期恐慌放大。AI 预测需要自动发现特征，也需要持续检查特征是否仍然代表同一件事。

航班延误是另一个例子。传统模型容易想到天气、航空公司、航线距离和季节性；但在大型枢纽机场，一个小的前序延误可能沿着航班网络传递，造成后续机场持续拥堵。这种“传染效应”不是单条时间序列内部很容易看出的结构，而是跨航班、跨机场网络中的动态模式。AI 方法的价值之一，就是帮助我们在复杂系统中发现这类人工难以穷尽的交互特征。

人工特征工程与自动化特征学习¶

人工特征工程依赖专家经验和大量试错。差分（differencing）、移动平均、傅里叶项（Fourier terms）、节假日哑变量（holiday dummy variables）、自相关函数（Autocorrelation Function, ACF）和统计特征（statistical features）都很有用，也具有较强解释性。很多经典工具会把一条时间序列转换成一组可计算特征，再根据这些特征判断更适合使用哪类模型。

问题在于，商业预测很少只有一条序列。电商平台可能要同时预测上百万个商品、地区、仓库和时间粒度。少量专家可以解释几个重点品类，却无法持续手工维护所有产品的促销规则、生命周期、替代关系和区域差异。人工特征工程在规模上会遇到成本边界。

案例：阿里巴巴电商预测为什么需要 AI 特征学习

阿里巴巴这类电商平台的预测任务，不能只理解成“预测某个商品明天卖多少”。更真实的问题是：某个品类、某个地区、某个仓库、某个时间粒度下，明天甚至未来几周需要准备多少库存。例如 3C 部门可能关心海淀区明天会有多少用户购买某类联想电脑；这个预测会直接影响补货、仓储、配送时效、现金流和用户体验。

如果只看某个 3C 品类的日销量曲线，很多波动会像噪声：某一天突然上升，某一天突然下降，肉眼很难判断原因。把 618、双十一、春节、预售、优惠券、平台补贴、购物车加购和价格变化标出来以后，许多“异常”就会变成可解释的业务事件。也就是说，销量曲线本身只是结果，真正有预测价值的信息常常藏在平台运营、用户行为和促销机制里。

这个例子也说明人工特征工程的边界。一个懂 3C 的专家可以解释几个重点商品，七八个人的团队也许能维护少量核心品类；但当平台面对数万甚至更多商品、多个地区、多个仓库和频繁变化的活动节奏时，人工逐条解释“为什么这里卖得多、那里卖得少”就不可持续。更合理的方式，是把促销、价格、节假日、地区、点击、加购、库存、物流和历史销售等信号沉淀为自动化特征，让模型在大量序列中学习相似结构。

因此，阿里巴巴电商预测的关键不是把一个专家经验复制成几千份，而是把专家能够识别的业务逻辑转化为平台能力：数据自动接入，特征自动生成，模型批量比较，预测结果进入补货和调度系统。这样，AI 预测才真正从单个模型变成企业基础设施。

我们用创业公司作一个简单成本估算：如果一家预测公司拿到一笔启动资金，却必须为每个行业请高水平专家、再配一个十人团队手工做特征，资金很快会被人力成本吃掉。Amazon、京东、阿里这类平台也不能把一个十人预测团队简单扩成几百人、几千人来追赶业务规模。自动化特征学习的管理价值，正是在于把专家经验沉淀成可复用流程，让系统可以在海量序列上稳定运行。

维度	人工特征工程	自动化特征学习
主要来源	专家经验、统计定义、业务规则	大规模历史数据、多源数据、模型表示
优点	可解释、容易检查、适合明确机制	可扩展、能捕捉非线性和高维交互
风险	成本高、覆盖有限、依赖少数专家	可能难解释、可能学习伪相关
适用场景	关键业务、数据较少、机制清楚	多序列、大规模、模式复杂、外部信号丰富

自动化特征学习并不等于取消领域知识。更准确的说法是：领域知识帮助我们定义问题、筛选数据、设定约束和解释结果；AI 模型帮助我们在高维数据中学习人工难以逐一设计的结构。把时间序列转换成图像或其他可学习表示，再用于模型选择和组合，就是自动化特征学习进入预测的一个例子 Li et al., 2020。

在 AI 预测流程中，特征可以来自几个层次。第一层是人工可解释特征，如趋势、季节性、促销和滞后项。第二层是自动提取的统计特征，如峰值、波动性、自相关强度和间歇性。第三层是模型学到的表示，例如 embedding、深度网络隐藏状态或时间序列基座模型中的序列表示。好的系统通常不会只依赖其中一层，而是把可解释特征、自动化特征和业务约束结合起来。

图像、文本和自然语言处理（Natural Language Processing, NLP）也会进入预测流程。二手书交易中，图片可以帮助系统识别书的新旧程度，文字识别可以确认书名和版本，历史销售记录可以估计流行度和合理价格。这类信息本来很难被传统时间序列模型直接使用，但 AI 可以把它们转化为结构化特征，再进入销量、定价或库存预测。

特征矩阵与模型匹配¶

当平台有几十万条甚至上百万条时间序列时，不能靠直觉逐条选择模型。一个可操作的做法是先为每条序列计算一组特征，形成特征矩阵（feature matrix）：每一行是一条时间序列，每一列是一个特征，例如 Linearity、Curvature、ACF、Trend、峰值强度、波动性和季节性强度。

有了特征矩阵，就可以比较不同模型在不同特征区域中的表现。Auto ARIMA（Automatic ARIMA）更擅长某些自回归、差分和季节结构；ETS（Error-Trend-Seasonal）更适合一些平滑趋势和季节性问题；神经网络可能在非线性和复杂交互中更有优势；Naive（朴素法）方法虽然简单，在很多短期、稳定场景中仍是重要基线。模型表现不是抽象地“谁最好”，而是和序列特征有关。

这就是模型匹配（model matching）的思想：先问这条序列是什么形状，再问哪个模型适合这种形状。线性很强的数据不一定需要复杂神经网络；高峰明显、促销强烈或外部冲击频繁的数据，可能需要更多事件特征和非线性模型。AI 预测系统要学习的，不只是预测值本身，还包括“什么样的序列交给什么样的模型或专家”。

MoE 会把这个问题进一步推进。模型匹配不是人工列一张固定规则表就结束，而是可以变成可学习的路由机制：系统先识别序列形态和业务上下文，再决定调用哪些专家模型，以及各自占多少权重。这样，AI 预测平台学习的不只是 forecast，还包括 forecast 的分工方式。

这一思想也解释了为什么简单基线不能省略。Naive 方法用最后一个观测值预测未来，看起来粗糙，却能检验复杂模型是否真的学到了额外信息。如果复杂模型不能稳定超过 Naive、季节性 Naive 或移动平均，就很难说它提供了可用的智能。

可解释特征与隐藏表示¶

tsfeatures 这类工具代表了一种重要路线：先由专家定义一组可解释时间序列特征，再把它们写成函数自动提取。早期研究曾整理出几十个核心特征，例如线性、曲率、自相关、趋势和差分相关特征。它们计算成本低，解释性强，适合作为自动化预测的起点。

另一类工具如 catch22 会从大量候选特征中筛选更紧凑的代表性特征。特征数量并不是越多越好。上千、上万维特征可能改善模型输入，却会让管理者难以理解为什么系统相信某个预测。企业系统通常需要在可解释性（interpretability）和预测性能之间折中：可解释统计特征帮助人理解，深度学习 embedding 或隐藏状态帮助模型捕捉传统特征之外的结构。

因此，AI 预测不是“人工特征”与“深度学习特征”二选一。更稳健的做法是把可解释特征、自动化统计特征、深度表示和业务约束组合起来，让系统既能发现隐藏规律，也能向人说明主要依据。

泛化能力¶

泛化能力（generalization）指模型在未见过的新数据上仍能保持稳定预测性能。预测模型不能只拟合历史，它必须面对未来。

泛化能力不足通常表现为：

过拟合（overfitting）：历史数据拟合很好，未来误差很大。
欠拟合（underfitting）：模型太简单，连趋势和季节性都没有学到。
对新情境脆弱：外部条件变化后，预测效果骤降。
特征失效：过去有效的外生变量或代理变量，在新的制度、技术或行为环境下不再有效。

提升泛化能力的方法包括滚动预测验证、合理的特征选择、简单基准模型、组合预测、概率预测，以及在统计模型和 AI 模型之间做稳健集成。不要只比较训练集误差；更应该用“过去预测未来”的方式模拟真实使用场景。

新冠后出境游恢复说明，AI 预测并不只是寻找更复杂的函数。疫情前的旅游需求有明显趋势和季节性，常规模型可以较好外推；疫情冲击后，历史规律被打断，问题变成了“系统何时恢复、恢复到什么水平、以什么路径恢复”。这时需要先构造没有冲击时的基准预测，再观察恢复窗口中的航班、搜索、政策和客流信号，用恢复系数（recovery coefficient）、分层预测（hierarchical forecasting）、预测调和（forecast reconciliation）和组合预测（forecast combination）把不同信息整合起来。

这个例子说明，泛化能力不是模型名带来的，而是由问题设定、数据窗口、外部信号、验证方式和业务假设共同决定的。越是依赖历史数据的模型，越需要对“未来是否仍像过去”保持警惕。

在恢复预测中，模型之外的假设同样重要。我们通常需要先假设系统会逐渐恢复，再估计恢复的时间、水平和曲线形状。海外活动、交通流量、住宿、航班运力、签证政策、地缘政治和搜索行为不会直接给出答案，但会给出恢复速度的暗示。AI 的作用之一，就是帮助整合这些弱信号，而不是机械地把疫情前趋势向后延长。

泛化也意味着不要把预测理解成单一方法竞赛。我们把预测系统类比为一辆车：稳定长距离运行不只靠发动机，也不只靠轮胎，而是动力、电池、能耗、稳定性和抗疲劳系统共同工作。Forecasting 同样不是纯粹 methodology-driven 的事情，而是统计工具、工程系统和决策支持共同构成的能力。

组合预测与稳定性¶

现代时间序列预测很少追求“一个模型打天下”。ARIMA、ETS、树模型、神经网络、时间序列基座模型和人工规则都可能在某些序列上有效，但几乎没有一个模型能在所有特征、所有频率和所有步长上胜出。组合预测或集成方法的直觉是：让多个模型分别捕捉不同维度的信息，再用验证表现、序列特征或业务规则分配权重。

稳定性是企业预测的硬要求。一个模型如果今天预测海淀区某类电脑需求 100 台，明天跳到 500 台，后天又变成 10 台，即使某些单点误差不大，也会给库存、现金流、仓储和调货计划带来冲击。自动化预测平台要追求的不是孤立一次的“看起来很准”，而是在大量序列、多个预测步长和不同业务周期中稳定输出可用结果。

AI 预测流程¶

一个完整的 AI 预测流程至少包括七步：

定义预测目标：预测什么变量、预测多远、服务什么决策，明确点预测、区间预测或概率预测需求。
整理目标数据：统一时间粒度，处理缺失值、异常值、多序列层级和数据口径变化。
接入外部信息：加入价格、天气、节假日、促销、搜索、文本、图片、声音、视频和业务事件等可能影响未来的信号。
构造或学习特征：结合人工特征、自动统计特征、深度表示和多序列相似性。
训练和比较模型：同时保留简单基准、统计模型、机器学习模型、深度学习模型和时间序列基座模型候选。
评价和集成结果：使用滚动验证、留出测试、业务指标、组合预测、分层预测和预测调和检查稳定性。
部署与监控：持续检查数据漂移（data drift）、误差变化、特征失效、计算成本和决策效果。

AI 预测最容易被误解的地方，是把模型调用当成完整流程。事实上，模型只是流程中的一个环节。数据质量、特征设计、验证方式、业务反馈和系统监控同样决定预测系统的价值。

亚马逊预测平台的案例强调了规模问题。少量产品可以靠专家团队手工预测；当产品、地区、仓库和时间粒度同时扩张时，预测必须变成平台能力，包括数据接入、特征生成、批量建模、自动评估和业务系统集成。Google Cloud 的产能管理也类似：如果客户未来需要多少机器、在哪个区域部署、需求如何增长都不确定，平台就必须用预测来平衡服务水平、能源成本和闲置资源。

因此，AI 预测系统不应是“这个场景调一个模型、那个场景换一套脚本”的碎片化工具。它更像统一平台：能够在大量序列上接入数据、学习特征、比较模型、生成预测、记录误差并把结果交给业务系统。只有这样，预测才可能从研究示例变成企业能力。

预测与决策的连接¶

预测本身不产生价值，只有进入决策才产生价值。销量预测可以影响库存；需求预测可以影响排班；价格预测可以影响采购；风险预测可以影响授信；旅游恢复预测可以影响航线、签证、营销和外交政策。

因此，在设计预测任务时要同时回答两个问题：预测误差如何衡量？误差会怎样影响决策？如果高估和低估的成本不同，模型选择和评价指标也应当不同。对电商来说，高估需求可能造成库存积压，低估需求可能造成缺货和现金流损失；对云计算平台来说，高估算力需求会造成机器闲置，低估需求会影响服务可用性。

AI 预测系统还需要向决策者解释“为什么可以相信”。可信不是因为模型复杂，也不是因为专家声音大，而是因为系统能展示数据来源、验证记录、误差范围、关键假设和业务后果。预测是科学，也是实践中的判断艺术：它既要有可检验的方法，也要能在不确定条件下支持具体行动。

常见错误¶

把“模型更复杂”误认为“预测一定更好”。
把 AI 给出的快速起点当成已经验证过的最终预测。
忽略简单基准模型，没有证明 AI 模型带来增量价值。
只看点预测，不看预测区间、误差分布或决策损失。
用未来信息构造训练特征，造成数据泄露。
把某个代理变量过去的相关性当作稳定机制。
只依赖少数专家手工特征，无法覆盖大规模多序列场景。
忽略序列特征与模型表现之间的匹配关系，默认一个模型适合所有序列。
遇到疫情、政策、供应链中断等结构突变时，仍然机械外推历史规律。
在一个场景上调参成功后，直接假设能泛化到所有场景。
做出预测后没有部署、监控和业务反馈，导致模型无法持续改进。

练习¶

为一个零售销量预测任务列出至少五个可能有用的外生特征，并区分哪些是可直接观测特征，哪些是代理特征。
解释为什么 618、双十一 和春节变量可能改善电商销量预测，也可能造成过拟合。
为三条不同形状的时间序列列出可能的 Linearity、ACF 和季节性特征，并说明你会优先比较哪些模型。
选择一个你熟悉的业务场景，比较人工特征工程和自动化特征学习各自适合解决的问题。
设计一个新冠后旅游恢复预测方案，说明如何构造无冲击基准、恢复窗口信号和最终预测路径。
找一个你认为有用的代理变量，说明它为什么可能有效，以及在什么情况下会失效。
设计一个滚动验证方案，比较简单基准模型、统计模型和 AI 模型的泛化能力。

参考文献¶

References¶

Makridakis, S., Petropoulos, F., & Kang, Y. (2023). Large Language Models: Their Success and Impact. Forecasting, 5(3), 536–549. 10.3390/forecast5030030
Garza, A., Challu, C., & Mergenthaler-Canseco, M. (2024). TimeGPT-1. 10.48550/arXiv.2310.03589
Li, X., Kang, Y., & Li, F. (2020). Forecasting with Time Series Imaging. Expert Systems with Applications, 160, 113680. 10.1016/j.eswa.2020.113680