首页 > 互联网>桥水基金最新研究：前沿 AI 模型金融判断准确率未达 80% 可信门槛，GPT 和 Claude 仅有 50~70%

桥水基金最新研究：前沿 AI 模型金融判断准确率未达 80% 可信门槛，GPT 和 Claude 仅有 50~70%

IT之家互联网2026-07-04 05:57:01

桥水基金联合研究团队测试发现，GPT、Claude 等前沿大模型在基础金融信息筛选任务上准确率仅约 50%，优化后也仅 70%，未达 80% 可信门槛。而基于开源模型微调的自研模型准确率达 84.7%，成本仅为前沿模型的十四分之一。#AI金融##大模型应用#...

最新 7 月 3 日消息，桥水基金旗下 AIA Labs 联合 OpenAI 前 CTO Mira Murati 创立的 Thinking Machines Lab 对包括 GPT、Claude 和 Gemini 在内的前沿大语言模型在基础金融信息筛选任务进行了测试，但结果表现不佳，而基于开源模型微调的自研模型在准确率和成本上均具有显著优势。

研究团队从投资分析师的日常工作中提取了六项典型任务，包括判断一篇财经文章对高管层是否具有参考价值、判断央行文件是否预示未来利率变化方向等。

报告指出，这些任务对专业投资者而言非常基础，但他们往往难以用语言清晰描述自己的判断逻辑。在前沿模型测试中，Gemini、Claude 和 GPT 各版本在使用基础提示词时平均准确率仅约 50%。

即使经过专家撰写的详细提示词和三级分类体系（“相关且有趣”“相关但无趣”“不相关”）优化后，准确率提升至 70% 左右，仍未达到研究人员设定的 80% 可信部署门槛。

报告还指出，模型迭代并未在该任务上带来显著进步，例如 GPT-5.4 比 GPT-5.2 价格高出 43%，但准确率仅略有提升。

研究团队随后采用微调方案，以阿里开源模型 Qwen3-235B 为基座，通过 Thinking Machines Lab 的 Tinker 平台进行训练。训练数据集构建过程中，团队最初采购了非专业标注服务，但发现大量标签存在错误。由于专家标注成本高昂，团队设计了一套验证机制：先用有缺陷的标签训练模型，再让模型重新评估同一批数据，将模型判断与原始标签不一致的争议样本交由专家校正，以此在保证质量的同时控制成本。

经过多轮训练优化 —— 包括交错批次训练、CISPO 损失函数与非对称裁剪、以及基于最佳验证准确率检查点的同策略蒸馏 —— 最终微调模型在测试中达到 84.7% 的准确率，优于测试中最佳前沿模型的 78.2%，错误率降低了 29.8%。同时，由于模型规模更小，推理成本仅为前沿模型的约十四分之一。

报告指出，这一结果再次证明前沿模型并未囊括所有可用数据，大量专有企业数据和未编码的人类专业知识仍存在于大模型的知识盲区中，尤其是那些企业有意保持私密的数据。通过工具链微调开源模型，企业可以保留模型权重、数据乃至算力基础设施的控制权，避免将专有数据交给前沿实验室后成为其产品竞争的基础。桥水方面表示，该模型已投入日常使用，并认为这种针对特定组织需求定制的“差异化智能”将是未来方向。

参考资料：

《Learning to Replicate Expert Judgment in Financial Tasks - Thinking Machines Lab》

《桥水基金最新研究：前沿 AI 模型金融判断准确率未达 80% 可信门槛，GPT 和 Claude 仅有 50~70%》转载自互联网，如有侵权，联系我们删除，QQ：369-8522。

本文网址：https://www.jsj.wang/2026/07/1783115832260.html

魅族售后将新增无人机相关业务，合作方为广东百纳智航

两家企业将在全国范围开展无人机装调检修工程师和 CAAC 飞手招生培训，并在重点门店开展无人机维修业务。...

互联网 2026-07-18 0
滴滴：女司机可自主选择是否参与“她计划”，拒单管理规则和平台全量司机一致

针对网传“她计划”订单收入低、女司机不能拒单等谣言，滴滴发文澄清。官方表示，该功能遵循自愿原则，女司机可自主选择是否参与，订单计价与拒单管理与平台全量司机规则完全一致。该功能旨在为女乘客与女司机提供更精准、安心的匹配选项。#滴滴她计划# #网约车安全#...

互联网 2026-07-18 2
上半年全国铁路投资 3632 亿元增长 2.1%，西安至十堰高铁等新线开通

2026 年上半年全国铁路固定资产投资达 3632 亿元，同比增长 2.1%，投产新线 355.2 公里。西安至十堰高铁、金华至建德高铁等一批新线开通运营，雄安至商丘高铁等在建项目有序推进，为“十五五”铁路建设实现良好开局。 #铁路建设#...

互联网 2026-07-18 2
OpenAI 奥尔特曼调侃 Anthropic 最新广告：我还以为这是讽刺短片

Anthropic 推出一支 90 秒的警示性广告，展示 AI 潜在风险，引发网络两极评价。奥尔特曼调侃其风格像讽刺作品。该广告是“Hard Questions”项目的一部分，旨在收集公众对 AI 发展的疑问与担忧。#AI伦理##科技争议#...

互联网 2026-07-18 2
贺炜问 AI 预测世界杯冠军

7 月 17 日，央视新闻发布荣耀 Robot Phone 亮相世界杯相关视频，并展示了 Robot Phone 的 AI 具身交互能力...

互联网 2026-07-18 0
安克官宣 2026 年充电宝新品将陆续通过新国标

安克近日宣布，旗下自带线充电宝已通过新国标 GB47372-2026《移动电源安全技术规范》认证标准和技术要求。安克同时表示，2026 年上市的充电宝新品均将陆续通过新国标认证。#安克充电宝##新国标 GB47372-2026#...

互联网 2026-07-18 0