Skip to article frontmatterSkip to article content
Site not loading correctly?

This may be due to an incorrect BASE_URL configuration. See the MyST Documentation for reference.

商业预测与决策

北京大学光华管理学院

企业做预测,不是为了得到一个漂亮的数字,而是为了做更好的决策。库存、产能、定价、风险控制、营销投入和供应链安排,都需要在未来尚未发生时提前行动。因此,商业预测(business forecasting)的核心问题是:如何把预测结果嵌入决策流程,从“预测准确”走向“决策有效”。

学习目标

完成本章后,你应该能够:

从描述到决策

传统预测常常停留在“描述与拟合”:给定历史数据,选择模型,生成未来值,计算误差。现代商业预测则更强调“决策驱动(decision-driven)与智能优化(intelligent optimization)”。预测结果必须进入后续行动,例如补货、排产、调价、投放或风控。

这意味着预测任务不能只由数据科学团队单独定义。业务部门需要说明决策目标、约束条件和错误成本;技术团队需要提供数据管道、模型服务和自动化评估;管理层需要决定预测结果在流程中拥有多大权重。判断调整和供应链预测研究也说明,预测流程如果脱离业务约束和执行机制,误差改善很难自然转化为决策改善 Fildes et al., 2009

很多学生学习预测时容易把注意力放在模型本身:选择哪个算法、调什么参数、误差指标是否更低。真正进入企业场景后,模型只是解决方案中的一个组件。预测要发挥作用,必须被放到一个能够持续接入数据、生成特征、调用模型、展示结果并触发行动的平台中。

因此,本章讨论的商业预测不是“训练一个模型”,而是“设计一个可运行的预测-决策系统”。一个管理者如果只看模型层,就很难判断上游数据是否可靠、下游动作是否可执行,也很难在模型失效时及时干预。

预测-决策一体化

预测-决策一体化(forecast-decision integration)的基本逻辑是:

  1. 根据业务问题定义预测目标。

  2. 用历史数据和外部信息生成预测。

  3. 将预测输入到决策规则或优化模型(optimization model)中。

  4. 执行动作并记录结果。

  5. 同时评价预测误差和决策收益。

例如,库存管理中,预测销量只是第一步。真正的决策是订多少货、放在哪个仓、何时补货。如果预测低估,可能缺货;如果预测高估,可能积压。一个模型即使 MAE 较低,也可能因为系统性低估高峰需求而造成严重业务损失。

决策也会反过来驱动预测。假设管理目标是今年粮食增产 5%,预测系统就不能只在年底报告实际产量,而要在播种后、汛期、病虫害发生时持续监控不同地区和作物的产量风险。预测一旦显示某地可能减产,决策者就要考虑补种、调拨、灭虫或调整作物结构。此时预测不是旁观的报表,而是干预行动的看板。

我们把这点概括为“预测驱动的决策”。管理者的经验也像一种模型,只不过存在人的脑子里,难迁移、难验证,也难稳定复用。企业如果能把历史时间序列、专家判断、行业知识和模型评估结构化沉淀下来,就能让预测从个人经验转化为组织能力。预测值本身也应被看成企业每天生产的数据之一,反过来支持库存、现金流、产能、人力和战略安排。

更完整的企业流程可以写成:数据输入(data input) -> 特征层(feature layer) -> 模型层(model layer) -> 服务层(serving layer) -> 决策层(decision layer)。

这个链条中任何一环薄弱,都会削弱预测价值。数据输入不稳定,模型会学到错误信号;特征层缺失,模型只能看到原始序列;模型层缺少基准和比较,复杂模型未必带来增量;服务层没有看板、API 或监控,预测无法进入业务系统;决策层没有审批和覆盖规则,预测错误可能直接放大为业务损失。

企业预测平台的五层架构

企业级预测平台通常可以拆成五层。

层级核心问题典型内容
数据层预测系统看到了什么?业务订单、价格、库存、天气、宏观变量、实时 API、外部事件
特征层原始数据如何变成模型可用信息?滞后项、移动平均、节假日、促销、embedding、特征库(feature store)
模型层用什么方法生成预测?统计模型、机器学习模型、深度学习模型、时间序列基座模型、人工规则
服务层预测如何交付给业务?批量任务、API、看板(dashboard)、报告、告警、模型监控(model monitoring)
决策层谁根据预测采取行动?自动补货、人工审批、copilot 建议、风控限额、异常覆盖

这五层说明,现代预测已经从单个算法问题变成工程问题。单机、单模型仍然可以处理小任务,但面对上千条时间序列、实时市场数据或跨区域需求预测时,企业需要自动化和平台化能力。预测平台不仅要算得准,还要算得快、接得上数据、解释得清楚,并能把结果送到正确的人或系统面前。

在 AI 场景中,服务层和决策层会变得更重要。系统可能不只是给出一个数字,而是像 copilot 一样建议“买多少”“补多少”“是否停止交易”“是否需要人工复核”。人的角色也随之变化:不是手工计算每个预测,而是监督系统、批准关键动作、设置边界,并在异常情况下接管。

这五层也说明,模型不是平台的全部。数据层要持续接入可靠数据源;特征层要把原始数据转成可复用的特征或 embedding,并保存到 feature store;模型层要同时容纳统计模型、机器学习模型、深度学习模型和时间序列基座模型;服务层要把预测做成 dashboard、API 或小程序;决策层才把预测转成买卖、补货、排产或审批。只学一个模型算法,通常只是在模型层工作;真正的平台设计者要能看懂整条链路。

企业为什么需要多类模型

几乎没有企业只依赖一个预测模型。企业级预测通常包含多层模型:

统计模型并没有过时。对于简单、稳定、数据量有限的任务,统计模型可能仍是最可靠的主力。AI 模型的价值在于处理更大规模、更复杂结构和更自动化的预测需求。

模型选择取决于数据频率、序列规模、业务稳定性和决策成本。一个成熟门店的周度补货,可能用季节性朴素模型或指数平滑就足够;一个高频金融看板,可能更依赖低延迟特征和树模型;一个新产品或长尾 SKU,可能需要时间序列基座模型从相似序列中迁移信息。平台的价值正在于允许多类模型共存,并用统一评估和监控机制比较它们。

平台化预测

当企业面对成千上万条时间序列时,预测就不再是单个 notebook 或单个模型的问题,而是平台问题。平台化预测通常需要:

即时零售可以展示平台化预测的数量级:100 个小区、每天 32 个十五分钟时段、200 个商品,就已经是 64 万条需求序列;如果每条序列比较 10 个候选模型,就是 640 万次模型计算。更重要的是,这类任务可能每 15 分钟刷新一次。这个例子说明,企业预测不能依赖“一个专家手工维护一条序列”,而要依赖批量建模、任务调度、共享特征、统一评估和自动监控。

亚马逊和 Google 的预测实践说明,大型企业会把预测作为云服务或内部平台能力。用户上传业务数据,平台补充外部信息、自动训练模型、生成预测并按计算、存储或调用资源收费。预测服务的竞争力不仅来自算法,还来自数据、算力、工程和业务集成。

这里要区分两类“云”。一种只是把机器搬到云端,本质上仍是远程主机;另一种是真正的平台服务,能够把数据接入、特征生成、模型训练、评估、部署、监控和看板连接起来。后者才是现代企业预测需要的能力。

现代预测平台还需要 MLOps(Machine Learning Operations)思维。生产系统不是把数据倒进 ARIMA 或某个深度模型后一次性输出结果,而是不断检查特征是否仍然有效、模型是否稳定、预测结果是否漂移、指标是否可靠。新数据进入后,系统可能需要自动重新训练、重新评估、重新发布,并把每一步记录下来。否则,平台看起来有很多模型,实际仍然依赖人工临时维护。

MoE 思想给平台化预测补上了组织层面的解释。企业不应要求一个专家或一个模型理解所有商品,而应把不同专家的能力沉淀为可调用的预测者:有人或模型擅长 3C,有人擅长汽车配件,有人擅长季节性需求,有人擅长促销冲击。平台的任务是记录这些预测者在相似场景中的表现,并在新任务到来时决定谁参与、谁权重更高;这和组合预测长期强调的稳健性逻辑是一致的 Wang et al., 2023

例如,一个零售企业不是只预测一个商品,而是要同时预测许多门店、地区、品类和时间粒度。一个金融或算力调度平台也不是只预测一个指标,而是要接入实时数据流,对大量对象持续更新预测。此时分布式计算(distributed computing)、GPU 加速、任务调度(job scheduling)和自动监控不再是技术细节,而是预测系统能否运行的前提。

Google Cloud 的产能管理则展示了另一类商业预测。云平台必须预测客户未来对机器、区域、带宽和计算时长的需求。低估需求会影响服务水平;高估需求会造成机器、电力、制冷和维护成本浪费。以新业务出海为例:客户今天可能说需要五千台机器,明天需求可能变成一万台;如果云平台没有准备,服务就会出问题,但如果长期预留过多资源,闲置成本又会由平台承担。

更困难的是,客户自己也未必知道未来需要多少资源,尤其是新产品出海、模型上线或业务快速增长时。平台必须根据客户计划、历史用量、行业相似案例、地区选择和实时信号估计资源需求,并把预测结果连接到服务保障、资源预留和动态定价。未来这类系统还可能通过对话式入口收集需求:客户说明要出海、要部署在哪个区域、预计有多少用户,系统再把自然语言描述转化为资源规划和价格建议。

因此,企业预测可以理解为连接算力、云平台和多类模型的系统工程。平台要把数据、模型、评估、权限、费用和业务动作连接起来。模型效果只是其中一部分;在跨地区、跨品类和多层级业务中,还要处理上下层预测是否一致的问题,预测调和研究正是为这类平台约束提供方法基础 Zhang et al., 2023。如果没有稳定的数据入口、可追踪的评估记录和明确的责任边界,预测结果很难进入真实决策。

算力也是平台能力的一部分。传统单序列预测可以在单机上完成;但如果要同时预测几千种加密货币、上万只股票、数十万商品或每个社区的实时需求,就需要分布式计算、GPU 加速和任务调度。学校高性能计算平台提供的是算力入口,而完整商业云平台还要把数据、特征、模型、服务和前端连接成一条生产线。

决策成本与评价指标

预测误差只有放进业务场景中才有意义。不同场景对误差的容忍度不同:

因此,评价指标不应只有 RMSE 或 MAE。还应考虑服务水平、缺货率、库存周转、利润、现金流、客户满意度和风险暴露。预测团队要把技术指标翻译成业务指标。

库存例子可以把这一点说得更具体。点预测如果告诉我们某个关键备件平均需要 4 个,并不代表只准备 4 个就合理;如果需求波动较大,为了达到 90%、95% 或 99% 的服务水平(service level),安全库存(safety stock)可能要显著高于均值。服务水平越高,缺货风险越低,但持有成本、仓储占用和资金压力也越高。关键基础设施备件、普通鞋类库存和电商长尾商品,对同一个预测误差的容忍度完全不同,所以预测系统必须把误差分布、服务水平和业务损失连在一起。

在平台化场景中,评价还要覆盖服务质量。一个模型误差较低,但延迟太高、成本太大、无法解释、无法接入业务系统,也不一定适合上线。相反,一个简单模型如果能稳定运行、及时告警、容易被业务人员理解,可能更适合关键流程。

预测进入决策后,还要设计人工介入边界。自动系统可以给出建议,例如建议补货数量、交易方向或产能配置;但高风险动作通常需要审批、限额或熔断机制(circuit breaker)。评价预测系统时,不仅要问“模型准不准”,还要问“谁会看到结果”“谁能批准动作”“系统出错时谁来接管”。

错误预测还会沿供应链放大。如果一个平台通过补贴快速进入外卖或即时零售业务,前端需求可能突然被拉高;如果骑手、门店备货、食品加工和后端调度没有同步预测,结果就可能是订单没人送、食品堆积、资源浪费和用户体验下降。此时问题不是单个误差指标不好看,而是预测、产能和执行系统没有同步。

京东物流和外卖补贴的例子说明,促销决策、库存预测和履约预测必须同时工作。如果一毛钱奶茶突然带来大量订单,但门店产能、骑手运力和库存没有提前准备,用户看到的是“下单成功”,系统承受的却是履约失败。配送到达时间预测(Estimated Time of Arrival, ETA)也一样:平台承诺晚上六点送到,用户就会据此安排工作和等待;如果九点半还没送到,预测误差就直接变成客户体验损失。

天气预测这类行业例子可以帮助理解“误差如何变成决策”。天气预报如果只告诉你今天可能下雨,已经不足以满足很多场景;农业灌溉、出行安排和大型活动更关心未来几十分钟、某个地点上方那片云是否会降雨。现代天气预测的业务问题已经从“明天下不下雨”推进到更细的时间和空间粒度。

地图导航中的拥堵和红灯等待预测,会影响路线选择。很多人以为红灯倒计时来自官方传感器,实际系统经常是根据手机导航轨迹、车辆速度和路口等待时间推断红灯周期。国内许多红绿灯有固定周期,因此下一轮等待时间可以预测;但如果数据采集被异常行为干扰,例如大量手机同时移动,系统也可能把不存在的拥堵判断为真实拥堵。

汽车、保险和智能驾驶场景还提醒我们,预测系统必须考虑法律和治理边界。车辆刹车频率、急加速、路线和方向盘动作可以用于预测风险,但保险公司能否据此动态定价,取决于当地法律和公平性要求。相同数据在智能驾驶中可能用于判断驾驶员是否突发疾病、车辆是否需要接管;在保险定价中却可能涉及歧视或合规问题。预测结果不能只停留在分数上,它必须服务于是否提醒、限速、接管、报警或人工复核等具体动作。

同样,销售 demo 预约和成单率预测不是为了得到一个转化概率,而是为了决定何时联系客户、由谁跟进、预算投向哪个地区,以及海外扩张时如何配置团队。预测的商业价值来自后续动作:如果系统不能改变资源分配和行动顺序,再漂亮的概率也只是报表。

组织协作

商业预测与决策需要多类角色协同:

如果只有模型,没有业务约束,预测可能无法落地;如果只有经验,没有数据验证,决策可能难以扩展;如果只有平台,没有责任边界,系统很难持续改进。

这种协作要求团队从“预测师”转向“预测系统设计者”。未来进入企业实习或工作时,不应只问某个模型怎么调参,还要问数据如何收集、特征如何生成、模型如何部署、结果如何展示、业务如何使用,以及失败时如何回滚。

这也是为什么预测既是科学也是实践判断。科学部分要求数据、模型、误差和验证可复现;实践部分要求团队说清关键假设、可接受风险和业务边界。真正能说服决策者的,不是“我们是专家”,而是系统能证明预测在过去相似场景中有效、在当前场景中有合理证据,并且在出错时有可控的接管方案。

实施清单

在启动一个商业预测项目之前,至少回答以下问题:

  1. 预测结果服务哪个具体决策,动作是什么?

  2. 决策需要什么时间粒度、提前量和刷新频率?

  3. 哪些数据流进入系统,数据口径和权限是否清楚?

  4. 哪些特征可以自动生成,是否需要 feature store?

  5. 允许哪些模型族进入比较,简单基准是什么?

  6. 预测通过 API、看板、报告还是自动规则交付?

  7. 高估和低估的业务成本是否对称?

  8. 模型上线后如何监控误差、漂移、延迟和调用成本?

  9. 谁有权审批、覆盖或停止模型建议?

  10. 当数据异常、模型失效或业务环境突变时,系统如何回退?

练习

  1. 选择一个企业场景,画出从数据层、特征层、模型层、服务层到决策层的流程图。

  2. 对库存场景分别讨论高估和低估需求的成本。

  3. 设计一个指标表,同时包含预测误差、业务结果、延迟和成本指标。

  4. 为一个预测 dashboard 设计三个告警规则,说明何时需要人工接管。

  5. 讨论一个你熟悉的平台化预测服务,它的价值来自算法、数据、工程还是业务集成?

参考文献

References
  1. Fildes, R., Goodwin, P., Lawrence, M., & Nikolopoulos, K. (2009). Effective Forecasting and Judgmental Adjustments: An Empirical Evaluation and Strategies for Improvement in Supply-Chain Planning. International Journal of Forecasting, 25(1), 3–23. 10.1016/j.ijforecast.2008.11.010
  2. Wang, X., Hyndman, R. J., Li, F., & Kang, Y. (2023). Forecast Combinations: An over 50-Year Review. International Journal of Forecasting, 39(4), 1518–1547. 10.1016/j.ijforecast.2022.11.005
  3. Zhang, B., Kang, Y., Panagiotelis, A., & Li, F. (2023). Optimal Reconciliation with Immutable Forecasts. European Journal of Operational Research, 308(2), 650–660. 10.1016/j.ejor.2022.11.035