OpenAI 再成“榜一大哥”:o1-preview AI 模型更轻松驾驭数学、编程等任务
2024-09-21 08:05:33人工智能 IT之家 故渊
科技媒体 The Decoder 昨日(9 月 19 日)发布博文,报道称在聊天机器人竞技场(Chatbot Arena)上,OpenAI 的新人工智能模型 o1-preview 和 o1-mini 问鼎榜首。
最新 9 月 20 日消息,科技媒体 The Decoder 昨日(9 月 19 日)发布博文,报道称在聊天机器人竞技场(Chatbot Arena)上,OpenAI 的新人工智能模型 o1-preview 和 o1-mini 问鼎榜首。
聊天机器人竞技场简介
聊天机器人竞技场是一个比较人工智能模型的平台,它利用 6000 多个社区评分对新的 OpenAI 系统进行了评估。
结果
结果显示,o1-preview 和 o1-mini 尤其在数学任务、复杂提示和编程方面表现出色。
Lmsys 提供的数学模型优势图表清楚地显示,o1-preview 和 o1-mini 的得分超过 1360 分,远高于其他模型的表现。最新附上相关截图如下:
O1 的目标是为人工智能推理设定一个通用新标准,即在回答前“思考”" 更长时间。
然而,O1 模型并非在所有方面都优于 GPT-4o。许多任务并不需要复杂的逻辑推理,有时 GPT-4o 的反应更快。
注意事项
o1-preview 和 o1-mini 的票数远低于 GPT-4o 或 Anthropic's Claude 3.5 等成熟模型,每个模型都只有不到 3000 条评论,这样小的样本量可能无法准确代表实际结果,限制结果的意义。
赞一个! ()
相关文章
- 麻省理工研究:生成式 AI 未能对世界形成连贯的理解
- AI 影响建筑业:美国私人数据中心建设开支激增至近 300
- 人形机器人变身“大厨”煎牛排,OpenAI 押注的 1X 公司
- 谷歌将为苹果 iPhone 推出独立的 Gemini App,支持 AI
- 月之暗面创始人被前公司投资人提起仲裁,受理律师回应将
- AI 初创公司推出 Nous Chat 聊天机器人,底层基于 Meta
- 解散近 50 年后,披头士乐队借 AI 修复歌曲《Now and Th
- 消息称 OpenAI 新 AI 模型进步放缓,公司探索新策略应对
- 社交平台 X 正测试向用户免费开放 AI 聊天机器人 Grok
- 研究揭示 AI 对话方面的缺陷:不知道何时该插话