NSSF Project: Hierarchical economic forecasting from a global modelling perspective

国家社会科学基金一般项目(22BTJ028):全局模型视角下的复杂分层经济预测研究。2022-2025 (结项鉴定优秀) 成果展示。

成果研究内容

本研究从经济预测的全局视角展现了创新性和应用价值。首先,分层预测是一种组合预测的范式。我们从预测组合的角度全面回顾总结了从简单到复杂预测组合方法的发展历程,特别是时间变权重、非线性组合及跨模型学习的创新,引入了点预测和概率预测的组合视角。这一研究首次在理论框架中整合相关开源工具,为研究者和实践者提供了系统性的指导,并明确了分层经济预测当前的挑战和未来的研究方向,系统地梳理了预测组合技术的发展和前沿方向。

接下来,我们将概率预测调引入分层经济预测中,我们提出了一种基于深度学习的新方法,通过在损失函数中加入Kullback-Leibler散度正则化项,将预测与协调步骤集成到一个端到端框架中。相比传统分离式预测方法,该方法在底层层级预测精度和一致性上表现出色,并通过实验验证了其在层次时间序列数据上的优势。这一创新解决了复杂经济层次结构预测中的核心难题,为概率预测调和树立了新的标准。

此外,在应用中我们还提出了一种基于自然语言处理的经济灾害预测方法,利用在线新闻文本数据,通过Word2Vec和BERT模型提取文本特征,并结合Random Forest、LightGBM和XGBoost等机器学习算法,预测灾害的持续时间和经济损失。该方法在提升灾害预测的时效性和准确性方面具有突出优势,尤其是在野火和飓风等高影响灾害场景中表现卓越,同时验证了文本驱动预测模型的实用性,为灾害管理和经济损失预测提供了新的技术工具。

最后,关于因果推断与预测的结合,研究深入探讨了因果模型在时间序列预测中的潜力,特别是通过图模型和反事实分析揭示因果关系。这项研究将因果推断与机器学习方法相结合,为预测任务引入新的分析维度,同时探讨了在有限数据和高计算复杂性条件下的解决方案。文章还介绍了如CausalNex等开源工具,填补了理论与实践之间的空白,为因果推断与预测领域的融合开辟了新的路径。

总体而言,我们从预测组合、概率预测调和到灾害预测等多个全局经济预测方向,在理论创新、模型设计和实际应用上都具有显著的贡献,不仅丰富了现代预测技术的研究视角,还为未来的全局经济预测的深入研究和实际应用提供了经验和指导。

资料收集和数据采集情况

首先在文献收集方面,本研究系统梳理了700余篇与研究内容相关的理论和应用文献并编撰成册,详情见结项报告。在数据采集方面,本论文收集到两类数据集。一个是公开数据集用来对所提出的方法进行了详细验证。另外一个是与我国经济相关的宏观微观数据集以及卫星图像数据。

在公开数据集收集中,研究采用了多个经典的时间序列数据集,例如M4数据集,该数据集包含不同频率(如年度、季度、月度等)的时间序列,是时间序列预测领域的基准数据集,用于验证预测方法的通用性和性能。此外,澳大利亚旅游数据因其层次结构特性,被用于测试分层预测模型的调和能力;维基百科页面浏览量数据则凭借其大规模、非线性和多变量特性,用于评估全局预测模型在复杂场景下的表现。

在实际应用场景中,本研究使用了自然灾害经济损失数据,数据涵盖财产损失、房屋损毁和经济脆弱性指标,同时结合了遥感图像数据,用于探索多模态数据在灾害预测中的潜力,研究还创新性地使用在线新闻文本数据,通过Word2Vec和BERT模型处理,用于预测灾害的持续时间和严重程度,弥补了传统保险理赔数据在时效性上的不足。同时,研究结合遥感图像数据与经济指标,展示了多模态信息在自然灾害损失预测中的实际应用。

此外,研究还整合了零售行业销售数据,记录不同地区和产品的销售情况和供应链管理中的间歇性需求时间序列,为全集经济动态预测(如促销、新品上市)提供数据支持;中国出境旅游数据则结合了宏观经济变量(如汇率、收入水平)和在线搜索指数,用于疫情后旅游需求的复苏预测。针对间歇性需求和稀疏数据,在健康领域,我们选取了具有代表性的婴儿死亡率数据,这些数据用于测试预测方法在稀疏和不规则需求场景下的适用性。

这些数据的采集方法包括公开数据集下载、行业数据整合、以及遥感图像和新闻文本的处理等详细过程均在成果论文对应的公开代码库公布。通过整合结构化和非结构化数据,研究实现了多源异质数据的联合全局建模,不仅为模型开发提供了扎实的基础,也验证了所提出方法在多个领域的适用性。

成果的价值和影响

本研究成果在预测技术的理论深化、方法创新和实际应用中具有重要的价值和广泛的影响,主要体现在以下几个方面:

首先本研究在经济预测技术领域提供了新的理论框架和思路。例如,分层预测组合技术的全面回顾系统性地总结了从简单到复杂组合方法的演进过程,并提出了点预测与概率预测结合的新视角,为未来研究提供了一个清晰的理论蓝图。通过讨论因果推断与时间序列预测的结合,则拓宽了预测研究的边界,将因果关系和反事实分析引入预测任务,为建模复杂系统和揭示变量间的深层关系提供了理论依据。这些理论探索不仅丰富了预测科学的知识体系,也为相关领域的学者提供了深入研究的方向。

方法上来讲,本研究提出了一系列创新性方法,如基于深度学习的概率预测协调方法和最佳起始点估计方法,这些技术突破了传统方法的局限。例如,利用Kullback-Leibler散度正则化实现预测与协调的端到端集成,为分层经济时间序列数据预测中的一致性问题提供了高效解决方案。此外,基于自然语言处理的灾害预测方法首次将文本数据应用于灾害管理,为时效性强的预测任务开辟了新的数据来源和建模方法。这些技术创新显著提升了预测的准确性、鲁棒性和适应性。

在实际应用中,这些成果为解决复杂问题提供了有效工具。例如,灾害预测方法通过在线新闻文本数据的利用,大幅提升了灾害损失预测的时效性和准确性,为政府和企业的应急决策提供了重要支持。预测组合技术在零售、旅游和供应链管理等领域的应用,提高了资源配置效率和经营管理水平。层次时间序列预测技术的改进,则为经济统计和政策制定提供了更精确的支持。这些应用展现了研究成果在广泛领域中的适用性和影响力。

从社会层面来看,这些研究通过改进预测技术,增强了各行业应对复杂环境和不确定性的能力。例如,灾害预测为降低灾害损失、优化救援资源分配提供了数据支持;因果推断方法为公共政策的优化设计提供了科学依据;预测组合技术在疫情后的旅游业复苏中展现了关键作用,为推动经济发展和社会稳定贡献了力量。

本研究成果均发表在高水平学术期刊和会议上,为预测技术和应用领域的学术发展做出了重要贡献。这些研究已经吸引了学术界的广泛关注,已经有一篇发表的论文以被选入ESI高被引论文。这些研究成果具有深远的价值和影响,在理论创新、方法突破、实践应用和社会贡献等方面均表现突出。它们不仅为预测科学的研究与实践提供了新的方向,也为解决复杂社会经济问题提供了可靠的技术支持和科学依据。未来,这些成果的进一步推广和应用,预计将在更多领域创造更大的社会和经济价值。

论文成果(唯一标注)

  1. Li, Feng (2024). “A Forecaster’s Review of Judea Pearl’s Causality: Models, Reasoning and Inference, Second Edition, 2009”. International Journal of Forecasting 40 (1). (IF 7.9, JCR Q1), pp. 423–425. DOI: 10.1016/j.ijforecast.2023.08.005.
  2. Li, Li, Li, Feng, & Kang, Yanfei (2023). “Forecasting Large Collections of Time Series: Feature-Based Methods”. In: Forecasting with Artificial Intelligence: Theory and Applications, ed. by Mohsen Hamoudia et al. Cham: Springer Nature Switzerland, pp. 251–276. ISBN: 978-3-031-35879-1. DOI: 10.1007/978-3-031-35879-1_10.
  3. Wang, Han, Wang, Wen, Li, Feng, Kang, Yanfei, & Li, Han (2024). “Catastrophe Duration and Loss Prediction via Natural Language Processing”. Variance Forthcoming.
  4. Wang, Xiaoqian, Hyndman, Rob J., Li, Feng, & Kang, Yanfei (2023). “Forecast combinations: An over 50-year review”. International Journal of Forecasting 39 (4). (IF 7.9, JCR Q1, ESI Highly Cited Paper), pp. 1518–1547. DOI: 10.1016/j.ijforecast.2022.11.005.
  5. Wang, Xiaoqian, Kang, Yanfei, & Li, Feng (2022). Another look at forecast trimming for combinations: robustness, accuracy and diversity. DOI: 10.48550/arXiv.2208.00139.
  6. Zhang, Guanyu, Li, Feng, & Kang, Yanfei (2023). “Probabilistic Forecast Reconciliation with Kullback-Leibler Divergence Regularization”. In: 2023 IEEE International Conference on Data Mining Workshops (ICDMW). 2023 IEEE International Conference on Data Mining Workshops (ICDMW), pp. 601–607. DOI: 10.1109/ICDMW60847.2023.00084.
  7. Zhong, Yiming, Ren, Yinuo, Cao, Guangyao, Li, Feng, & Qi, Haobo (2024). “Optimal Starting Point for Time Series Forecasting”. Expert Systems with Applications (Forthcoming). (IF 7.6, JCR Q1). DOI: 10.48550/arXiv.2409.16843.
  8. 王雯 & 李丰 (2024). “基于分段组合 VARX 模型的中国出境游客数量预测”. 经济管理学刊 已接收.

其他成果

  1. Gao, Yuan, Pan, Rui, Li, Feng, Zhang, Riquan, & Wang, Hansheng (2024). “Grid Point Approximation for Distributed Nonparametric Smoothing and Prediction”. Journal of Computational and Graphical Statistics (In Press), pp. 1–29. DOI: 10.1080/10618600.2024.2409817.
  2. Ren, Yinuo, Li, Feng, Kang, Yanfei, & Wang, Jue (2023). “Infinite forecast combinations based on Dirichlet process”. In: 2023 IEEE International Conference on Data Mining Workshops (ICDMW), pp. 579–587. DOI: 10.1109/ICDMW60847.2023.00081.