NSFC Project: Efficient Bayesian Flexible Density Methods with High Dimensional Financial Data

国家自然科学基金项目“贝叶斯柔性密度方法及其在高维金融数据中的应用(11501587 )”成果展示。

项目背景

贝叶斯高维密度柔性建模是贝叶斯方法论的热点和难点课题。然而目前多元密度建模方法的研究成果往往限定在对单一的或者连续或者离散型变量下密度特征的静态研究中,而且实际可操作性停留在响应变量维度小于十的低维情况,尚不能实现有效全面地描述复 杂高维数据中关联性尤其是尾部关联性。基于申请者前期研究成果,本课题拟首先从混合有连续边际和离散边际的二维Copula密度的贝叶斯柔性建模出发,以密度估计理论为支撑,利用并改进MCMC抽样技术、结合贝叶斯变量选择理论、深入研究混合离散和连续边际的Copula协变量相依的动态相依性和尾部相依性。其次利用贝叶斯条件独立性、以及基于预测的贝叶斯模型比较理论,将二维Copula柔性密度理论扩展到混合连续边际和离散边际的高维贝叶斯柔性密度的高效构建和估计中。本课题理论成果将为混合有文本信息的高维金融数据建模等复杂数据应用领域提供有效的解决工具。

本课题通过对基于高维金融数据的贝叶斯柔性密度建模,对贝叶斯方法在高维柔性密度估计的模型假设、模型估计、模型验证、模型预测等理论和计算进行研究。从二维离散和连续边际的 Copula的柔性密度模型出发,研究高维 Copula 模型柔性边际相关性以及尾部相依性,并将该成果拓展到混合离散和连续边际的高维 Copula 柔性密度估计,将该方法应用到互联网金融环境下文本信息对股票和金融市场的实时影响分析中。该课题计划达到本领域国际领先水平。

项目申请者形成的相依数据的统计计算理论体系直接吸引波士顿大学医学院主动邀请其加入糖尿病风险预测的全球合作团队 (该国际团队唯一的亚洲研究员) 并将贝叶斯风险预测理论应用到疾病风险预测研究中。其初期合作成果研究全球糖尿病发展趋势,并构建目前全球最大的糖尿病研究数据库,该成果“Cohort Profile”(Pino, Zuo, Olivera, Mahalingaiah, Keiser, Moore, Li, Vasan, Corkey, & Kalesan,2018) 发表在统计与医学交叉顶级期刊 BMJ Open。目前该项合作在进一步深化,包扩研究基于人口统计学的差异研究全因死亡率以及影响因素,本项目通过其唯一的资源数据研究二型糖尿病发病率差异以及发展趋势、生物标志物在疾病诊断前后与疾病相关的结果、并发症和早产死亡、以及评估种族/族裔的差异。该项成果具有广泛的科学意义,使得原本应用于金融风险管理的 Copula 模型能够迁移到医学与疾病成因研究中,除现有已发表论文目前该项目还有 1 篇相关论文 (Bailey et al., 2019) 发表在综合期刊 PLoS One。预计在疾病预防领域会有很好的应用前景。已结题项目的理论进展实现了时间序列预测在复杂模型中高效 MCMC 估计。申请者将统计计算与大数据实践结合, 将复杂统计模型部署到大数据分布式计算平台。出版专著《大数据分布式计算与案例》。该书成为全国应用统计专业学位研究生教育指导委员会推荐用书。也是为本次项目申请做了前期探索和准备。

该研究预期完成分别针对三个研究内容一共 3 篇在国际刊物发表的高水平论文。该课题预期开发包括 3–4 个针对高维复杂金融数据贝叶斯建模的统计软件包。目前研究目标均已完成, 软件包在申请人GitHub 页面(https://github.com/feng-li)均公开源码并标注基金支持。此外还有 4 篇相关在投论文在结项后以本项目标注,全部成果如下所示。

项目成果

  1. Wang, X., Kang, Y., Petropoulos, F., & Li, F. (2022). “The Uncertainty Estimation of Feature-Based Forecast Combinations”. Journal of the Operational Research Society 73.5, pp. 979–993. doi: 10. 1080/01605682.2021.1880297.
  2. Kang, Y., Spiliotis, E., Petropoulos, F., Athiniotis, N., Li, F., & Assimakopoulos, V. (2021). “Déjà vu: A Data-Centric Forecasting Approach through Time Series Cross-Similarity”. Journal of Business Research 132, pp. 719–731. doi: 10.1016/j.jbusres.2020.10.051.
  3. Zhu, X., Li, F., & Wang, H. (2021). “Least-Square Approximation for a Distributed System”. Journal of Computational and Graphical Statistics 30.4, pp. 1004–1018. doi: 10.1080/10618600.2021. 1923517.
  4. Kang, Y., Hyndman, R. J., & Li, F. (2020). “GRATIS: GeneRAting TIme Series with Diverse and Controllable Characteristics”. Statistical Analysis and Data Mining: The ASA Data Science Journal 13.4, pp. 354–376. doi: 10.1002/sam.11461.
  5. Bailey, H. M., Zuo, Y., Li, F., Min, J., Vaddiparti, K., Prosperi, M., Fagan, J., Galea, S., & Kalesan, B. (2019). “Changes in Patterns of Mortality Rates and Years of Life Lost Due to Firearms in the United States, 1999 to 2016: A Joinpoint Analysis”. PLOS ONE 14.11, e0225223. doi: 10.1371/journal.pone.0225223.Li, F. & He, Z. (2019). “Credit Risk Clustering in a Business Group: Which Matters More, Systematic or Idiosyncratic Risk?” Cogent Economics & Finance 7.1. Ed. by D. McMillan, p. 1632528. doi: 10.1080/23322039.2019.1632528.
  6. Li, F. & Kang, Y. (2018). “Improving Forecasting Performance Using Covariate-Dependent Copula Models”. International Journal of Forecasting 34.3, pp. 456–476. doi: 10.1016/j.ijforecast.2018.01.007.
  7. Pino, E. C., Zuo, Y., Olivera, C. M. D., Mahalingaiah, S., Keiser, O., Moore, L. L., Li, F., Vasan, R. S., Corkey, B. E., & Kalesan, B. (2018). “Cohort Profile: The MULTI sTUdy Diabetes rEsearch(MULTITUDE) Consortium”. BMJ Open 8.5, e020640. doi: 10.1136/bmjopen-2017-020640.
  8. 李丰 (2016). 大数据分布式计算与案例. 第一版. 中国人民大学出版社. isbn: 978-7-300-23027-6.