金融预测智能体 - 人工智能预测

金融市场（financial market）是预测模型最难也最有吸引力的应用场景之一。它有大量数据、即时反馈和明确收益指标，但也有噪声（noise）、反身性（reflexivity）、非平稳性（nonstationarity）和强竞争。本章以 AI 交易竞赛（AI trading competition）、企业文本预测和金融智能体为线索，讨论为什么金融预测不能只依赖通用智能，还需要领域数据、风险控制和制度约束。

学习目标¶

完成本章后，你应该能够：

说明金融市场为什么是 AI 预测能力的高压测试。
区分“会聊天的模型”和“能在市场中稳定决策的模型”。
解释领域数据、交易经验和风险控制在金融预测中的作用。
说明 K 线、文本、声音、视频和另类数据各自提供什么信息。
理解市场反身性如何改变预测和决策的关系。
识别实盘 AI 交易中的伦理、透明性和监管风险。

金融预测为什么特殊¶

金融预测和普通需求预测不同。需求预测的目标通常是降低误差，金融预测则直接面对收益、风险和竞争对手。市场是动态系统：如果某个信号被越来越多人使用，它的收益可能会下降；如果模型行为影响了其他参与者，预测对象本身也会改变。

金融数据也高度多源。价格、成交量、订单簿（order book）、新闻、财报电话会（earnings call）、社交媒体、政策事件和宏观指标都会影响资产价格。只看 K 线（candlestick chart），等于只看市场已经压缩后的结果；很多更早、更细的信号已经在压缩过程中丢失。机器学习资产定价研究也说明，非线性交互和高维预测信号可以显著改变传统收益预测问题的建模方式 Gu et al., 2020。

因此，AI 金融预测的核心不是让模型“猜涨跌”，而是构建信息、行为和收益之间的闭环。

AI 交易竞赛的启发¶

我们用 Nof1.ai 的 Alpha Arena 说明金融预测评估：多个大模型在相同数据、相同提示词和真实资金约束下交易，最终以账户余额和风险表现作为结果。这个设定把模型评测从静态问答推向动态市场。

这个案例更接近一个真实实验：实验者给多个主流大模型分别分配账户，每个账户有初始资金，让模型读取当前时间、账户状态、过去一段市场数据和可交易资产信息，然后输出买什么、买多少、持有还是卖出。模型没有为这个任务重新训练，而是通过相对统一的 prompt 进入交易流程。实验者再按模型指令执行真实加密货币交易。

案例：Nof1.ai 的 Alpha Arena

Nof1.ai 的 Alpha Arena 把“AI 会不会做金融预测”从一道问答题变成了一个真实交易问题。Nof1 团队在第一季中给六个领先大模型各分配 1 万美元，让它们在 Hyperliquid 上交易加密货币永续合约（perpetual futures contract）；模型只能使用数值型市场数据和统一的 prompt/harness，不做任务专门微调，也不由人类在交易过程中代为判断。模型每隔几分钟读取市场价格、成交量、技术指标（technical indicators）、账户余额、持仓、收益和 Sharpe ratio（夏普比率），然后输出结构化行动：做多还是做空、买哪种币、数量、杠杆、止损（stop-loss）、止盈（take-profit）、信心分数和退出计划。

这个实验的叙事价值在于，它把金融预测的几个关键层次同时摆在台面上。过去量化交易的门槛很高：机构需要低延迟服务器、靠近交易所的机房、快速算法、C/C++ 工程能力和专业交易团队。普通投资者面对机构，往往缺少数据、模型、风控和执行系统。大模型介入以后，门槛似乎变低了：我们可以把市场状态整理成 prompt，让模型像交易员一样给出下一步行动。可是，门槛降低并不等于风险消失，它只是把风险从“不会写算法”转移到“模型是否真的理解交易”。

在 nof1.ai 的页面上，排行榜不只显示谁赚了多少钱，还展示风险调整后的指标、交易次数、账户状态和模型输出。Model Chat 尤其值得看：它暴露了模型每一次如何理解市场数据、如何解释自己的仓位、如何设置止损和止盈。这样我们能看到一个很重要的事实：同样的提示词，不会产生同样的交易员。有的模型更频繁交易，有的模型更耐心；有的模型仓位集中，有的模型更愿意分散；有的模型文字解释很漂亮，但交易判断并不一定更好；有的模型看起来很积极，却可能被手续费和滑点侵蚀收益。

这也和散户、机构和量化交易的关系连在一起。一个公开看板会让普通投资者看到原本只有机构内部才有的策略曲线、交易频率和风险表现，它像量化投资里的“自动驾驶”：系统建议买什么、卖什么、买多少、何时退出，人仍然可以接管。但这个比喻必须加上刹车。看到某个模型短期领先，不等于可以机械跟买；如果很多人都跟随同一个公开模型，模型交易会影响市场，市场反过来影响模型表现，原来的预测问题就会变成反馈系统问题。

Alpha Arena 也说明，金融 AI 的评价不能只看最终收益。我们至少要同时看 PnL（Profit and Loss）、最大回撤（maximum drawdown）、Sharpe ratio、交易次数、手续费、杠杆、持仓集中度、止损执行和策略一致性。更进一步，还要检查信息边界：模型是否联网，是否读到外界对自己表现的评论，是否有历史行动记忆，prompt 是否让不同模型承担了同样约束。Nof1 团队也明确提醒，第一季不是为了用一次短期实验宣布永久赢家，而是为了观察模型在真实、动态、有风险的环境中暴露出的行为差异和失效模式。

因此，这个案例最适合被当作金融智能体的原型，而不是投资建议。它告诉我们，大模型可以从“解释市场”走向“参与决策”，但真正可用的金融 AI 必须把数据输入、特征工程、模型推理、交易执行、风险控制、审计日志和人工接管放在同一个系统里。金融预测的难点从来不是让模型说一句“看涨”或“看跌”，而是让它在成本、风险、约束和反馈中持续做出可审计、可中止、可评价的行动。

这种实验有几个启发。

第一，同样的提示词不代表同样的决策。模型的训练数据、架构和安全偏好会影响风险反应。有的模型可能频繁交易，有的模型更像量化策略。

第二，收益不是唯一指标。最大回撤、单笔极端亏损、交易频率和风险暴露同样重要。一个模型短期收益高，但承担了不可接受的尾部风险，并不能说明它更适合真实资产管理。

这也是概率预测在金融中尤其重要的原因。金融决策通常不只关心收益分布的中心位置，而是关心左尾：亏损超过某个阈值的概率有多大，最坏一段尾部的平均损失是多少。Value-at-Risk 和 Expected Shortfall 就是这类风险摘要。完整预测分布包含这些信息，但实际风控报告往往会把尾部风险单独列出，因为它直接决定仓位、保证金和止损边界。

第三，市场反馈会改变模型表现。如果很多人开始跟随某个模型的交易，原有策略可能被拥挤交易削弱，甚至产生反向机会。

第四，交易频次本身就是风险。一个模型可能看起来很勤奋，频繁买卖，但加密货币交易也有手续费和滑点（slippage）。过度交易会消耗收益，甚至把原本略有优势的预测变成亏损策略。另一个模型交易次数少，却通过较稳健的分散持仓保持更好结果，这说明预测能力必须和执行成本一起评价。

这类竞赛还提醒我们，评估大模型交易能力时必须控制信息边界。提示词是否完全一致，模型是否可以联网，模型是否能读到网上关于自己策略表现的评论，都会影响结果。如果一个模型在交易过程中不断看到“某策略表现很好”的外部反馈，它可能强化已有行为；这时我们评估到的就不只是模型的原始预测能力，而是模型、搜索、舆论和市场共同构成的反馈系统。

我们还要提醒你，这类实验不构成投资建议。看到某个模型短期盈利，不能直接得出“跟着它买就能赚钱”的结论。真实交易中，人会观察模型，模型可能观察外界反馈，市场又会对跟随行为作出反应。越是实时公开的策略，越容易从预测问题变成反馈系统问题。

领域知识的重要性¶

通用大模型擅长语言理解和生成，但金融预测需要更多领域先验。交易任务中，模型必须理解风险预算（risk budget）、仓位管理（position management）、止损、流动性、交易成本和市场冲击（market impact）。只会解释新闻，不等于能生成稳健交易策略。

领域知识至少体现在三层：

数据层：是否接入高质量行情、财报、新闻和另类数据。
表征层（representation layer）：是否把价格行为、波动、趋势、成交和事件转化为有效特征。
决策层：是否把预测转化为仓位和风险控制，而不是直接把方向判断当作交易。

课程中强调，金融预测不只需要智能，还需要算法和经验融合。一个有交易背景的数据团队，往往比只使用通用模型更清楚哪些信号可交易、哪些信号只是事后解释。

DeepSeek 等模型的金融表现可以说明：大模型的领域能力很大程度上来自训练数据和训练任务。如果一个模型在预训练或后续训练中接触过大量金融文本、交易数据和风控逻辑，它在金融任务中可能比通用聊天能力更强的模型更稳健。反过来，如果训练数据没有反映分散投资、风险预算和市场结构，模型给出的交易建议就可能很危险。

个人投资者和机构投资者的差异也说明了这一点。个人投资者往往依赖有限信息和短期判断，机构则更强调数据、模型、风控和执行系统。AI 工具可以降低信息处理门槛，但不能消除风险预算和交易纪律。

不同模型在交易实验中的行为差异，可以看作领域知识和训练数据差异的外显。有的模型会给出很长、很规范的文字解释，却缺少明确有效的交易判断；有的模型可能只押注最高自信资产，短期收益高但集中风险也大；有的模型偏好某类资产，可能与训练语料中的社交媒体叙事有关；还有的模型更重视分散持仓、止损和交易成本。模型会不会“像交易员一样思考”，取决于它是否在训练和对齐过程中接触过足够多的金融数据、仓位管理和风控逻辑。

从 K 线到高维信息空间¶

K 线图浓缩了市场交易后的结果，但它不是全部信息。价格变化背后可能有公司基本面、行业景气、政策预期、投资者情绪和流动性变化。我们把 K 线理解为市场信息的低维 embedding：它把无数信号压缩成开盘价、最高价、最低价、收盘价和成交量等少数数字。这个压缩有价值，也会丢失大量细节。AI 方法的优势在于可以把更多信号拉入更高维的信息空间。

这种扩展并不意味着“数据越多越好”。维度越高，噪声越多，伪相关也越多。关键是学习有效表征，例如从财报文本中提取语气变化，从新闻中识别事件类型，从市场微结构中识别流动性压力。

现代金融预测常见流程是：

收集多源数据。
将结构化和非结构化信息转化为统一特征或 embedding。
用模型预测收益、波动、风险或事件概率。
通过组合优化和风控规则生成决策。
用真实或模拟交易结果持续回测和监控。

LLM 和其他 AI 方法的价值，是尝试从新闻、财报、政策、公司事件和投资者情绪中恢复更高维的信息空间。但这一步必须接受回测和风控检验，不能把“信息更多”直接等同于“交易更好”。

另类数据（alternative data）就是这种思路的具体体现。卫星图像、用电量、物流运输、招聘信息、地方论坛、社交媒体、IP 地址和行业调研，都可能提供价格序列中尚未充分显现的信号。关键不是盲目收集更多数据，而是判断这些数据是否能形成独特、可验证、可持续的预测特征。

企业文本与未来表现¶

财报电话会、管理层讨论、风险提示和新闻文本，都包含对企业未来表现有用的信息。LLM 可以从这些文本中提取语气、主题、风险暴露和战略变化，再与财务指标和市场数据结合。FinBERT 等金融领域语言模型表明，领域化文本表示能够改善金融文本情绪和信息抽取 Huang et al., 2023。

这种任务的价值不在于让模型替代分析师，而是扩大分析师可处理的信息范围。模型可以快速阅读大量文本，生成结构化特征；人类分析师则负责判断这些特征是否有经济意义，是否会被市场提前定价。

文本之外，声音和视频也可以成为金融预测数据。财报电话会中，管理层如何回答尖锐问题、是否需要翻译、语速和停顿如何变化、分析师是否反复追问，都可能影响市场对企业可信度和风险的判断。这些信息不一定完整写在公告里，却会通过投资者沟通影响价格；音频-文本金融大模型正是在尝试把这类多模态信号（multimodal signals）纳入风险预测 Liu et al., 2025。

处理这类非书面数据通常需要三步。第一，做说话人切分（speaker diarization），识别 CEO、CFO、分析师或主持人分别在什么时候发言。第二，把声音转成文本，并保留语速、停顿、音调等声学特征。第三，把文本、声学特征和市场数据合并，检验它们是否能解释未来收益、波动或风险事件。

反身性¶

金融市场存在反身性：参与者的认知会影响市场，市场变化又会反过来改变参与者认知。叙事经济学也提醒我们，故事、情绪和社会传播会影响经济行为和市场结果 Shiller, 2019。AI 交易让这种反馈更复杂。模型预测市场，模型交易影响市场，其他参与者观察模型行为后又调整策略。

这意味着金融预测不能假设环境静止。一个在历史回测中有效的信号，公开后可能迅速失效。一个模型在无人关注时表现好，被大规模跟随后可能出现拥挤风险。

因此，金融 AI 系统需要持续监控策略容量、市场冲击和行为反馈，而不是只保存一次回测结果。

A 股市场的讨论提醒我们，投资者结构会影响波动和行为反馈。非机构投资者占比较高时，情绪、跟风和政策预期可能更快反映到价格中。模型不仅要读价格，还要理解市场参与者结构和制度环境。

本地信息和社交传播也会放大这种反身性。某些地方企业的经营问题，可能先在员工、供应商或本地论坛中口口相传，之后才反映到价格或新闻中。模型如果只读公开价格，就会晚一步；但如果模型使用社交和地理信息，又必须面对隐私、噪声和操纵风险。

伦理与监管¶

实盘 AI 交易涉及透明性、问责性和公平性。黑盒模型可能做出难以解释的交易；自动化系统可能放大市场波动；模型也可能被用于操纵、跟单诱导或信息不对称套利。

大模型交易还带来新的公平性问题。如果某些模型拥有更多私有交易数据、新闻数据或社交数据，它们的“知识”会变成普通投资者难以复制的优势。对于个人投资者、监管者和新兴市场来说，这可能形成新的力量不对称。预测能力越强，越需要明确谁能使用、使用什么数据、结果如何审计，以及错误导致损失时由谁承担责任。

可行的治理措施包括：

对模型输入、输出和交易决策保留审计日志（audit log）。
设置风险限额、人工熔断和异常交易监控。
在监管沙盒（regulatory sandbox）中测试高风险策略。
对关键模型建立可解释性报告。
明确模型是否允许联网、是否使用私有数据、是否可能读取其他参与者的反馈。
明确模型错误导致损失时的责任边界。

金融预测的最终目标不是让 AI 自由下注，而是在风险可控的边界内提高信息处理和决策质量。

小结¶

金融预测是 AI 能力、数据质量、市场机制和风险治理的综合测试。通用模型提供新的信息处理能力，但真正可用的金融 AI 还需要领域知识、另类数据、可交易信号、风险控制和监管框架。市场中的预测不是旁观者游戏，预测行为本身会成为市场的一部分。

练习¶

设计一个 AI 交易模型评估表，至少包含收益、回撤、交易频率和风险指标。
说明为什么只看 K 线可能会丢失重要信息。
为财报电话会文本预测未来收益设计一个特征提取流程。
选择一种另类数据，说明它可能提供什么独特信号，以及如何验证其预测价值。
举例说明反身性如何让一个有效策略失效。
写出一个实盘 AI 交易系统必须具备的三条风控规则。
以 Nof1.ai Alpha Arena 为例，设计一张模型交易评价表，要求同时包含收益、风险、交易成本、信息边界和人工接管机制。

参考文献¶

References¶

Gu, S., Kelly, B., & Xiu, D. (2020). Empirical Asset Pricing via Machine Learning. The Review of Financial Studies, 33(5), 2223–2273. 10.1093/rfs/hhaa009
Huang, A. H., Wang, H., & Yang, Y. (2023). FinBERT: A Large Language Model for Extracting Information from Financial Text. Contemporary Accounting Research, 40(2), 806–841. 10.1111/1911-3846.12832
Liu, Y., Bu, N., Li, Z., Zhang, Y., & Zhao, Z. (2025). AT-FinGPT: Financial Risk Prediction via an Audio-Text Large Language Model. Finance Research Letters, 77, 106967. 10.1016/j.frl.2025.106967
Shiller, R. J. (2019). Narrative Economics: How Stories Go Viral and Drive Major Economic Events. Princeton University Press.