人工智能预测
人工智能预测的核心不是把传统预测问题简单交给一个更大的模型,而是改变预测系统获取信息、学习特征、比较模型和服务决策的方式。传统方法往往依赖人工设定趋势、季节性、滞后项、节假日和外生变量;AI 方法则希望从大规模、多来源、高维度的数据中自动发现可预测结构,并把这些结构转化为稳定可用的预测表示。大语言模型对预测领域的影响,也主要体现在这种信息组织、自动化和流程重构上 Makridakis et al., 2023。
在本课程中,AI 预测仍然首先是时间序列 forecasting,而不是任意机器学习 prediction。用学生画像预测期末成绩属于一般 prediction;用历史销量、价格、节假日、促销和外部事件预测未来销量,则是更严格的 forecasting。这个区别能帮助我们避免把任何模型输出都称为预测系统。
AI 进入预测以后,真正要解决的是四类瓶颈:序列数量太多,人工无法逐条建模;关键特征隐藏在业务系统和外部环境中,肉眼不容易发现;疫情、政策和供应链冲击会打断历史规律;预测结果还必须进入库存、产能、价格和政策等后续决策流程。
我们把这个问题概括为一个现实压力:现代社会的数据已经多到不能靠手工消化。订单、点击、图片、文本、定位、航班、天气、设备日志和财务记录都在持续生成。传统预测不是没有用,而是在数据规模、变量种类和更新频率上遇到了边界。AI 预测要回答的不是“能不能把一个模型叫作智能”,而是能不能在这种数据规模下更快地发现结构、形成预测并服务决策。
我们还要补充一个重要提醒:AI 不保证永远超过人类专家或传统统计模型。它更像一种会逐渐基础设施化的预测起点,可以快速给出候选判断、候选代码和候选曲线,但这些输出最终仍要被现实检验。一个严肃的 AI 预测系统,不能只问“模型能不能给答案”,还要问“这个答案是否在统一评价规则下超过了专家、朴素基准或传统模型”。
从企业角度看,AI 预测会逐渐像数据一样成为常规输入。管理者不一定要把 AI 输出当成最终答案,但可以把它当作 reference:当新人、专家、统计模型和 AI 给出不同预测时,系统要记录这些候选判断,并用统一评价规则决定谁在什么场景下更可信。这样 AI 不是替代所有判断,而是进入预测平台,成为可比较、可追踪、可复用的一类信息资产。
在这个基础上,我们进一步强调:时间序列基座模型让预测更像基础设施,而不只是一次性建模项目。预训练阶段已经付出了主要学习成本,推理阶段则把新的时间序列送入模型,快速得到候选预测;TimeGPT 这类模型正是这种思路的代表 Garza et al., 2024。健康设备是一个直观例子:手表持续记录血氧和心率,如果模型能预测未来几分钟可能出现异常,就可以提前提醒老人坐下或求助。这里的价值不一定来自 benchmark 上多提高 1% 的精度,而是来自预测能否及时进入真实行动。
如果继续把基础设施问题推进到本地 AI 算力,就会看到另一层约束。云端大模型使用方便,但医院、企业、教学和个人健康数据常常不能随意上传。个人或小团队如果拥有本地 AI 计算设备,就可以在自己的环境里运行开源模型、做领域微调、保存敏感数据,并把预测能力嵌入团队或家庭流程。AI 预测的基础设施因此不只包括算法和 API,也包括数据是否留在本地、算力是否可持续、模型是否能在小团队中被反复使用。
只要业务记录带有时间戳,它就可能被重新组织成时间序列或时间序列特征。一次点击、一次预约、一次车辆等待、一张商品图片的上传、一次 API 调用,本身看起来都不是传统时间序列;但当它们持续发生并与目标变量相连时,就会变成预测系统的输入。AI 预测的一个核心能力,是把这些分散痕迹转化为可学习信号。
学习目标¶
完成本章后,你应该能够:
解释时间序列特征(time-series features)在 AI 预测中的作用。
区分人工特征工程(manual feature engineering)和自动化特征学习(automated feature learning)。
说明趋势、季节性、自相关、外生变量和代理变量如何影响预测结果。
解释时间序列特征矩阵如何帮助模型匹配。
解释泛化能力不足、过拟合、欠拟合和结构突变在预测中的表现。
为一个业务预测任务设计基本的 AI 预测流程。
时间序列特征¶
时间序列特征是从历史数据和相关信息中提取出来、能够反映规律性和动态变化的属性。模型能学到什么,往往取决于输入中是否包含有用特征。
常见特征包括:
趋势特征(trend feature):序列是否长期上升或下降,例如某个行业的销售额持续增长,或某类商品需求逐步下降。
季节性特征(seasonal feature):固定周期内重复出现的模式,例如夏季饮料需求高于冬季、春节期间电商消费结构变化、用电量存在季度和日内周期。
自相关特征(autocorrelation feature):当前时刻与过去时刻之间的相关性,例如本月需求受到上月需求影响,或者金融收益率与前几期收益存在弱相关。
外生特征(exogenous feature):价格、天气、促销、政策、宏观经济、搜索指数、航班运力和地缘政治等外部信息。
代理特征(proxy feature):不能直接观察目标机制时,用夜间灯光、搜索行为、客流、定位、图片、声音或视频等信号近似刻画真实活动。
这些特征有些很容易看见。自动售货机中的饮料销量可能有夏季高、冬季低的季节性,也可能有上午、下午和晚上不同的日内周期。用电量可能同时包含季度、月度、周度和日内周期。趋势可以通过移动平均等简单方法提取:固定一个窗口,逐步向前滑动并计算局部平均,就能看到比原始波动更平滑的长期方向。
也有些特征不容易直接从图上看出。阿里巴巴某类 3C 产品的日销量如果只看黑白曲线,很多尖峰和下跌都像噪声;一旦把 618、双十一、春节、预售、优惠券和平台活动标出来,许多异常波动就变成了可解释的业务事件。预测像破案:历史序列是基本证据,特征是关键线索。没有线索,模型只能猜测;线索越接近真实机制,预测越可能稳定。
还有一些特征来自行为轨迹,而不是传统表格。地图软件里的拥堵和红灯等待时间,可能来自手机导航轨迹、速度变化和周边车流,而不是来自每个路口的官方传感器。企业 demo 预约和成单率预测,也会使用客户预约、跟进、地区、渠道和转化时间分布。这类数据说明,AI 预测经常要把业务过程中的“痕迹”转化为可学习信号。
特征为什么重要¶
特征决定模型能否区分“噪声”和“信号”。如果一个商品在 双十一 前后出现销量尖峰,但模型不知道那一天是促销期,它可能把尖峰当作随机异常;如果模型知道促销、折扣、预售和购物车行为,尖峰就可以成为未来促销预测的有效依据。
代理变量也体现了特征的重要性。夜间灯光强度可以近似反映地区经济活动,旅游搜索指数可以反映潜在出行意愿,航班运力可以反映出境游恢复条件,声音和视频数据可以补充文本中没有表达出来的沟通信号。这些信息不一定来自目标变量本身,却可能提前反映需求、风险或情绪变化。
但是代理特征不能盲目信任。一个代理变量在某个时期有效,不代表永远有效。夜间灯光与经济活动的关系可能受到产业结构、节能政策或生产方式变化影响;搜索指数与真实消费之间也可能被舆论事件、平台推荐或短期恐慌放大。AI 预测需要自动发现特征,也需要持续检查特征是否仍然代表同一件事。
航班延误是另一个例子。传统模型容易想到天气、航空公司、航线距离和季节性;但在大型枢纽机场,一个小的前序延误可能沿着航班网络传递,造成后续机场持续拥堵。这种“传染效应”不是单条时间序列内部很容易看出的结构,而是跨航班、跨机场网络中的动态模式。AI 方法的价值之一,就是帮助我们在复杂系统中发现这类人工难以穷尽的交互特征。
人工特征工程与自动化特征学习¶
人工特征工程依赖专家经验和大量试错。差分(differencing)、移动平均、傅里叶项(Fourier terms)、节假日哑变量(holiday dummy variables)、自相关函数(Autocorrelation Function, ACF)和统计特征(statistical features)都很有用,也具有较强解释性。很多经典工具会把一条时间序列转换成一组可计算特征,再根据这些特征判断更适合使用哪类模型。
问题在于,商业预测很少只有一条序列。电商平台可能要同时预测上百万个商品、地区、仓库和时间粒度。少量专家可以解释几个重点品类,却无法持续手工维护所有产品的促销规则、生命周期、替代关系和区域差异。人工特征工程在规模上会遇到成本边界。
我们用创业公司作一个简单成本估算:如果一家预测公司拿到一笔启动资金,却必须为每个行业请高水平专家、再配一个十人团队手工做特征,资金很快会被人力成本吃掉。Amazon、京东、阿里这类平台也不能把一个十人预测团队简单扩成几百人、几千人来追赶业务规模。自动化特征学习的管理价值,正是在于把专家经验沉淀成可复用流程,让系统可以在海量序列上稳定运行。
| 维度 | 人工特征工程 | 自动化特征学习 |
|---|---|---|
| 主要来源 | 专家经验、统计定义、业务规则 | 大规模历史数据、多源数据、模型表示 |
| 优点 | 可解释、容易检查、适合明确机制 | 可扩展、能捕捉非线性和高维交互 |
| 风险 | 成本高、覆盖有限、依赖少数专家 | 可能难解释、可能学习伪相关 |
| 适用场景 | 关键业务、数据较少、机制清楚 | 多序列、大规模、模式复杂、外部信号丰富 |
自动化特征学习并不等于取消领域知识。更准确的说法是:领域知识帮助我们定义问题、筛选数据、设定约束和解释结果;AI 模型帮助我们在高维数据中学习人工难以逐一设计的结构。把时间序列转换成图像或其他可学习表示,再用于模型选择和组合,就是自动化特征学习进入预测的一个例子 Li et al., 2020。
在 AI 预测流程中,特征可以来自几个层次。第一层是人工可解释特征,如趋势、季节性、促销和滞后项。第二层是自动提取的统计特征,如峰值、波动性、自相关强度和间歇性。第三层是模型学到的表示,例如 embedding、深度网络隐藏状态或时间序列基座模型中的序列表示。好的系统通常不会只依赖其中一层,而是把可解释特征、自动化特征和业务约束结合起来。
图像、文本和自然语言处理(Natural Language Processing, NLP)也会进入预测流程。二手书交易中,图片可以帮助系统识别书的新旧程度,文字识别可以确认书名和版本,历史销售记录可以估计流行度和合理价格。这类信息本来很难被传统时间序列模型直接使用,但 AI 可以把它们转化为结构化特征,再进入销量、定价或库存预测。
特征矩阵与模型匹配¶
当平台有几十万条甚至上百万条时间序列时,不能靠直觉逐条选择模型。一个可操作的做法是先为每条序列计算一组特征,形成特征矩阵(feature matrix):每一行是一条时间序列,每一列是一个特征,例如 Linearity、Curvature、ACF、Trend、峰值强度、波动性和季节性强度。
有了特征矩阵,就可以比较不同模型在不同特征区域中的表现。Auto ARIMA(Automatic ARIMA)更擅长某些自回归、差分和季节结构;ETS(Error-Trend-Seasonal)更适合一些平滑趋势和季节性问题;神经网络可能在非线性和复杂交互中更有优势;Naive(朴素法)方法虽然简单,在很多短期、稳定场景中仍是重要基线。模型表现不是抽象地“谁最好”,而是和序列特征有关。
这就是模型匹配(model matching)的思想:先问这条序列是什么形状,再问哪个模型适合这种形状。线性很强的数据不一定需要复杂神经网络;高峰明显、促销强烈或外部冲击频繁的数据,可能需要更多事件特征和非线性模型。AI 预测系统要学习的,不只是预测值本身,还包括“什么样的序列交给什么样的模型或专家”。
MoE 会把这个问题进一步推进。模型匹配不是人工列一张固定规则表就结束,而是可以变成可学习的路由机制:系统先识别序列形态和业务上下文,再决定调用哪些专家模型,以及各自占多少权重。这样,AI 预测平台学习的不只是 forecast,还包括 forecast 的分工方式。
这一思想也解释了为什么简单基线不能省略。Naive 方法用最后一个观测值预测未来,看起来粗糙,却能检验复杂模型是否真的学到了额外信息。如果复杂模型不能稳定超过 Naive、季节性 Naive 或移动平均,就很难说它提供了可用的智能。
可解释特征与隐藏表示¶
tsfeatures 这类工具代表了一种重要路线:先由专家定义一组可解释时间序列特征,再把它们写成函数自动提取。早期研究曾整理出几十个核心特征,例如线性、曲率、自相关、趋势和差分相关特征。它们计算成本低,解释性强,适合作为自动化预测的起点。
另一类工具如 catch22 会从大量候选特征中筛选更紧凑的代表性特征。特征数量并不是越多越好。上千、上万维特征可能改善模型输入,却会让管理者难以理解为什么系统相信某个预测。企业系统通常需要在可解释性(interpretability)和预测性能之间折中:可解释统计特征帮助人理解,深度学习 embedding 或隐藏状态帮助模型捕捉传统特征之外的结构。
因此,AI 预测不是“人工特征”与“深度学习特征”二选一。更稳健的做法是把可解释特征、自动化统计特征、深度表示和业务约束组合起来,让系统既能发现隐藏规律,也能向人说明主要依据。
泛化能力¶
泛化能力(generalization)指模型在未见过的新数据上仍能保持稳定预测性能。预测模型不能只拟合历史,它必须面对未来。
泛化能力不足通常表现为:
过拟合(overfitting):历史数据拟合很好,未来误差很大。
欠拟合(underfitting):模型太简单,连趋势和季节性都没有学到。
对新情境脆弱:外部条件变化后,预测效果骤降。
特征失效:过去有效的外生变量或代理变量,在新的制度、技术或行为环境下不再有效。
提升泛化能力的方法包括滚动预测验证、合理的特征选择、简单基准模型、组合预测、概率预测,以及在统计模型和 AI 模型之间做稳健集成。不要只比较训练集误差;更应该用“过去预测未来”的方式模拟真实使用场景。
新冠后出境游恢复说明,AI 预测并不只是寻找更复杂的函数。疫情前的旅游需求有明显趋势和季节性,常规模型可以较好外推;疫情冲击后,历史规律被打断,问题变成了“系统何时恢复、恢复到什么水平、以什么路径恢复”。这时需要先构造没有冲击时的基准预测,再观察恢复窗口中的航班、搜索、政策和客流信号,用恢复系数(recovery coefficient)、分层预测(hierarchical forecasting)、预测调和(forecast reconciliation)和组合预测(forecast combination)把不同信息整合起来。
这个例子说明,泛化能力不是模型名带来的,而是由问题设定、数据窗口、外部信号、验证方式和业务假设共同决定的。越是依赖历史数据的模型,越需要对“未来是否仍像过去”保持警惕。
在恢复预测中,模型之外的假设同样重要。我们通常需要先假设系统会逐渐恢复,再估计恢复的时间、水平和曲线形状。海外活动、交通流量、住宿、航班运力、签证政策、地缘政治和搜索行为不会直接给出答案,但会给出恢复速度的暗示。AI 的作用之一,就是帮助整合这些弱信号,而不是机械地把疫情前趋势向后延长。
泛化也意味着不要把预测理解成单一方法竞赛。我们把预测系统类比为一辆车:稳定长距离运行不只靠发动机,也不只靠轮胎,而是动力、电池、能耗、稳定性和抗疲劳系统共同工作。Forecasting 同样不是纯粹 methodology-driven 的事情,而是统计工具、工程系统和决策支持共同构成的能力。
组合预测与稳定性¶
现代时间序列预测很少追求“一个模型打天下”。ARIMA、ETS、树模型、神经网络、时间序列基座模型和人工规则都可能在某些序列上有效,但几乎没有一个模型能在所有特征、所有频率和所有步长上胜出。组合预测或集成方法的直觉是:让多个模型分别捕捉不同维度的信息,再用验证表现、序列特征或业务规则分配权重。
稳定性是企业预测的硬要求。一个模型如果今天预测海淀区某类电脑需求 100 台,明天跳到 500 台,后天又变成 10 台,即使某些单点误差不大,也会给库存、现金流、仓储和调货计划带来冲击。自动化预测平台要追求的不是孤立一次的“看起来很准”,而是在大量序列、多个预测步长和不同业务周期中稳定输出可用结果。
AI 预测流程¶
一个完整的 AI 预测流程至少包括七步:
定义预测目标:预测什么变量、预测多远、服务什么决策,明确点预测、区间预测或概率预测需求。
整理目标数据:统一时间粒度,处理缺失值、异常值、多序列层级和数据口径变化。
接入外部信息:加入价格、天气、节假日、促销、搜索、文本、图片、声音、视频和业务事件等可能影响未来的信号。
构造或学习特征:结合人工特征、自动统计特征、深度表示和多序列相似性。
训练和比较模型:同时保留简单基准、统计模型、机器学习模型、深度学习模型和时间序列基座模型候选。
评价和集成结果:使用滚动验证、留出测试、业务指标、组合预测、分层预测和预测调和检查稳定性。
部署与监控:持续检查数据漂移(data drift)、误差变化、特征失效、计算成本和决策效果。
AI 预测最容易被误解的地方,是把模型调用当成完整流程。事实上,模型只是流程中的一个环节。数据质量、特征设计、验证方式、业务反馈和系统监控同样决定预测系统的价值。
亚马逊预测平台的案例强调了规模问题。少量产品可以靠专家团队手工预测;当产品、地区、仓库和时间粒度同时扩张时,预测必须变成平台能力,包括数据接入、特征生成、批量建模、自动评估和业务系统集成。Google Cloud 的产能管理也类似:如果客户未来需要多少机器、在哪个区域部署、需求如何增长都不确定,平台就必须用预测来平衡服务水平、能源成本和闲置资源。
因此,AI 预测系统不应是“这个场景调一个模型、那个场景换一套脚本”的碎片化工具。它更像统一平台:能够在大量序列上接入数据、学习特征、比较模型、生成预测、记录误差并把结果交给业务系统。只有这样,预测才可能从研究示例变成企业能力。
预测与决策的连接¶
预测本身不产生价值,只有进入决策才产生价值。销量预测可以影响库存;需求预测可以影响排班;价格预测可以影响采购;风险预测可以影响授信;旅游恢复预测可以影响航线、签证、营销和外交政策。
因此,在设计预测任务时要同时回答两个问题:预测误差如何衡量?误差会怎样影响决策?如果高估和低估的成本不同,模型选择和评价指标也应当不同。对电商来说,高估需求可能造成库存积压,低估需求可能造成缺货和现金流损失;对云计算平台来说,高估算力需求会造成机器闲置,低估需求会影响服务可用性。
AI 预测系统还需要向决策者解释“为什么可以相信”。可信不是因为模型复杂,也不是因为专家声音大,而是因为系统能展示数据来源、验证记录、误差范围、关键假设和业务后果。预测是科学,也是实践中的判断艺术:它既要有可检验的方法,也要能在不确定条件下支持具体行动。
常见错误¶
把“模型更复杂”误认为“预测一定更好”。
把 AI 给出的快速起点当成已经验证过的最终预测。
忽略简单基准模型,没有证明 AI 模型带来增量价值。
只看点预测,不看预测区间、误差分布或决策损失。
用未来信息构造训练特征,造成数据泄露。
把某个代理变量过去的相关性当作稳定机制。
只依赖少数专家手工特征,无法覆盖大规模多序列场景。
忽略序列特征与模型表现之间的匹配关系,默认一个模型适合所有序列。
遇到疫情、政策、供应链中断等结构突变时,仍然机械外推历史规律。
在一个场景上调参成功后,直接假设能泛化到所有场景。
做出预测后没有部署、监控和业务反馈,导致模型无法持续改进。
练习¶
为一个零售销量预测任务列出至少五个可能有用的外生特征,并区分哪些是可直接观测特征,哪些是代理特征。
解释为什么
618、双十一和春节变量可能改善电商销量预测,也可能造成过拟合。为三条不同形状的时间序列列出可能的
Linearity、ACF和季节性特征,并说明你会优先比较哪些模型。选择一个你熟悉的业务场景,比较人工特征工程和自动化特征学习各自适合解决的问题。
设计一个新冠后旅游恢复预测方案,说明如何构造无冲击基准、恢复窗口信号和最终预测路径。
找一个你认为有用的代理变量,说明它为什么可能有效,以及在什么情况下会失效。
设计一个滚动验证方案,比较简单基准模型、统计模型和 AI 模型的泛化能力。
参考文献¶
- Makridakis, S., Petropoulos, F., & Kang, Y. (2023). Large Language Models: Their Success and Impact. Forecasting, 5(3), 536–549. 10.3390/forecast5030030
- Garza, A., Challu, C., & Mergenthaler-Canseco, M. (2024). TimeGPT-1. 10.48550/arXiv.2310.03589
- Li, X., Kang, Y., & Li, F. (2020). Forecasting with Time Series Imaging. Expert Systems with Applications, 160, 113680. 10.1016/j.eswa.2020.113680