桥水基金最新研究:前沿 AI 模型金融判断准确率未达 80% 可信门槛,GPT 和 Claude 仅有 50~70%
最新 7 月 3 日消息,桥水基金旗下 AIA Labs 联合 OpenAI 前 CTO Mira Murati 创立的 Thinking Machines Lab 对包括 GPT、Claude 和 Gemini 在内的前沿大语言模型在基础金融信息筛选任务进行了测试,但结果表现不佳,而基于开源模型微调的自研模型在准确率和成本上均具有显著优势。
研究团队从投资分析师的日常工作中提取了六项典型任务,包括判断一篇财经文章对高管层是否具有参考价值、判断央行文件是否预示未来利率变化方向等。
报告指出,这些任务对专业投资者而言非常基础,但他们往往难以用语言清晰描述自己的判断逻辑。在前沿模型测试中,Gemini、Claude 和 GPT 各版本在使用基础提示词时平均准确率仅约 50%。
即使经过专家撰写的详细提示词和三级分类体系(“相关且有趣”“相关但无趣”“不相关”)优化后,准确率提升至 70% 左右,仍未达到研究人员设定的 80% 可信部署门槛。
报告还指出,模型迭代并未在该任务上带来显著进步,例如 GPT-5.4 比 GPT-5.2 价格高出 43%,但准确率仅略有提升。
研究团队随后采用微调方案,以阿里开源模型 Qwen3-235B 为基座,通过 Thinking Machines Lab 的 Tinker 平台进行训练。训练数据集构建过程中,团队最初采购了非专业标注服务,但发现大量标签存在错误。由于专家标注成本高昂,团队设计了一套验证机制:先用有缺陷的标签训练模型,再让模型重新评估同一批数据,将模型判断与原始标签不一致的争议样本交由专家校正,以此在保证质量的同时控制成本。
经过多轮训练优化 —— 包括交错批次训练、CISPO 损失函数与非对称裁剪、以及基于最佳验证准确率检查点的同策略蒸馏 —— 最终微调模型在测试中达到 84.7% 的准确率,优于测试中最佳前沿模型的 78.2%,错误率降低了 29.8%。同时,由于模型规模更小,推理成本仅为前沿模型的约十四分之一。
报告指出,这一结果再次证明前沿模型并未囊括所有可用数据,大量专有企业数据和未编码的人类专业知识仍存在于大模型的知识盲区中,尤其是那些企业有意保持私密的数据。通过工具链微调开源模型,企业可以保留模型权重、数据乃至算力基础设施的控制权,避免将专有数据交给前沿实验室后成为其产品竞争的基础。桥水方面表示,该模型已投入日常使用,并认为这种针对特定组织需求定制的“差异化智能”将是未来方向。
参考资料:
《Learning to Replicate Expert Judgment in Financial Tasks - Thinking Machines Lab》
《桥水基金最新研究:前沿 AI 模型金融判断准确率未达 80% 可信门槛,GPT 和 Claude 仅有 50~70%》转载自互联网,如有侵权,联系我们删除,QQ:369-8522。
相关图文
-
工信部决定成立量子信息标准化技术委员会,负责行业标准制修订工作
工信部今日正式成立量子信息标准化技术委员会,编号 MIIT / TC10,负责基础共性、量子计算、量子通信及量子精密测量等四大领域的标准制定。委员会由南方科技大学薛其坤院士担任主任,汇聚了华为、中兴等 62 名产业与技术专家。#量子计算##华为##中兴#... -
两部门发文鼓励电影院多样化经营,支持放映虚拟现实电影、引入 AI 智能体
国家电影局与市场监管总局联合发文,鼓励电影院进行业态创新与设备升级,明确支持放映虚拟现实电影。未来电影院将不仅是观影场所,还可能融合餐饮、文创、游戏等多种业态,打造文化消费新地标。#虚拟现实电影##电影院新业态#... -
国家邮政局调研中通、圆通、韵达、申通、极兔快递总部,整治“内卷式”竞争
国家邮政局近日调研中通、圆通、韵达、申通、极兔五大快递企业总部,强调要持续深化治理“内卷式”竞争,摒弃“以价换量”思维,同时强化快递员权益保障和安全生产,维护行业稳定与高质量发展。#快递行业反内卷# #快递员权益保障#... -
索尼宣布推出官方周边第一弹:三款经典音频产品化身 T 恤帆布包,7 月 10 日正式开售
索尼官方周边 VOL.1 系列以 CDixIV Metal46 磁带、Flamingo 便携黑胶唱片机及 WM-F5 Walkman 为灵感,推出 T 恤、帆布包和钥匙扣。7 月 10 日起在官方商城、直营店及 BW 2026 现场同步开售。#索尼周边# #经典音频##索尼直营店# #索尼黑胶唱片机# #walkman# #BW2026# #索尼官方周边# #SonyOfficialMerch# #SonysOfficialGoods# #索尼周边官周首发# #限量发售# #索粉必入#... -
DeepSeek-V4 原厂直供模型 7 月中旬登陆腾讯云,同步引入峰谷定价机制
腾讯云宣布将于 7 月中旬上线 DeepSeek-V4 原厂直供正式版,并同步引入官网的峰谷定价机制。高峰时段(每日 9-12 点、14-18 点)价格翻倍,涉及 Pro 和 Flash 两个版本。企业版积分抵扣规则也相应调整。#腾讯云##DeepSeek##AI大模型#...












