OpenAI o1-preview AI 推理模型“不讲武德”:国际象棋对垒跳出规则外“作弊”取胜
2025-01-01 07:20:57人工智能 IT之家 故渊
科技媒体 The Decoder 昨日(12 月 30 日)发布博文,报道称 AI 安全研究公司 Palisade Research 实测 OpenAI 的 o1-preview 模型,在和专业国际象棋引擎 Stockfish 的 5 场比赛中,通过“作弊”手段取胜。
最新 12 月 31 日消息,科技媒体 The Decoder 昨日(12 月 30 日)发布博文,报道称 AI 安全研究公司 Palisade Research 实测 OpenAI 的 o1-preview 模型,在和专业国际象棋引擎 Stockfish 的 5 场比赛中,通过“作弊”手段取胜。
在和 Stockfish 的 5 场国际象棋对弈中,OpenAI 的 o1-preview 模型并非通过正面较量取胜,均通过修改记录棋局数据的文本文件(FEN 表示法)迫使 Stockfish 认输。
最新援引新闻稿,研究人员仅在提示中提及 Stockfish 是“强大的”对手,o1-preview 就自行采取了这种“作弊”行为。而 GPT-4o 和 Claude 3.5 并无这种“作弊”行为,只有在研究人员特别建议后才尝试破解系统。
该公司称 o1-preview 的行为,与 Anthropic 发现的“对齐伪造”(alignment faking)现象相符,即 AI 系统表面遵循指令,暗地里却执行其它操作。
Anthropic 的研究表明,AI 模型 Claude 有时会故意给出错误答案以避免不想要的结果,发展出自身隐藏的策略。
研究人员计划公开实验代码、完整记录和详细分析,并表示确保 AI 系统真正符合人类价值观和需求,而非仅仅表面顺从,仍是 AI 行业面临的重大挑战。
赞一个! ()
相关文章
- 2024 胡润中国人工智能企业 50 强公布:寒武纪 2380 亿
- 阿里通义万相 2.1 模型宣布升级:首次实现中文文字视频
- 开源媒体播放器 VLC 下载破 60 亿次,预览本地 AI 字幕
- 英伟达迷你超算遭友商嘲讽:宣传 FP4 算力,实际“不如买
- 银河通用发布全球首个端到端具身抓取基础大模型 Grasp
- 雷蛇推出“AI 游戏伴侣”Project AVA:支持实时指导 +
- 京东方 CES 2025 发布行业首款 65 英寸 4K 超高清“AI
- 微软开源 140 亿参数小语言 AI 模型 Phi-4,性能比肩 GP
- 微软承认必应 AI 图像生成器 PR16“开倒车”,现回滚至
- 西藏地震期间“小孩被埋”等 AI 图大量传播,严重可追责