微软发布 Windows Agent Arena 基准框架,评估 AI Agents 运行主流 Windows 应用性能
2024-09-16 07:49:18人工智能 IT之家 故渊
科技媒体 NeoWin 昨日(9 月 14 日)发布博文,报道称微软官方推出了 Windows Agent Arena 基准框架,用于评估生成式 AI Agents 在 Windows PC 上的性能。
最新 9 月 15 日消息,科技媒体 NeoWin 昨日(9 月 14 日)发布博文,报道称微软官方推出了 Windows Agent Arena 基准框架,用于评估生成式 AI Agents 在 Windows PC 上的性能。
Windows Agent Arena 基准框架
微软表示该基准框架 AI Agents 使用主流 Windows 应用方面的能力和速度,其中包括 Microsoft Edge 和谷歌 Chrome 浏览器,Visual Studio Code 等编程应用,记事本、时钟和画图等预装 Windows 应用,VLC 等主流媒体播放器。
最新翻译部分微软官方博文内容如下:
我们采用 OSWorld 框架,构建了横跨代表性领域的 150 多项多样化 Windows 任务,这些任务要求代理具备规划、屏幕理解和工具使用的能力。
我们的基准测试同样具有可扩展性,能够在 Azure 上无缝并行化,从而在最短 20 分钟内完成全面评估。
Navi
微软研究院也打造了自己的多模态 Agents Navi,并在 Windows Agent Arena 基准测试中对其进行了试验。
它被要求根据特定文本提示执行任务,例如:“你能将我正在浏览的网页转换成 PDF 文件并放置在我的主屏幕上吗,就是那个桌面?”结果显示,Navi 的平均任务成功率为 19.5%,相较于人类 74.5% 的表现评分,这一成绩仍显偏低。
最新附上参考地址
Windows Agent Arena
赞一个! ()
相关文章
- 国家安全部:警惕深度伪造技术带来的安全风险
- TrendForce 发布 “2025 十大重点科技领域市场趋势预
- Mistral AI 更新 Le Chat 聊天机器人,引入“登顶复杂数
- 英伟达黄仁勋称未来三种机器人有望大规模生产 :汽车、
- 消息称 OpenAI 正与三星洽谈合作,有望在 Galaxy 手机中
- Claude 自动玩崩铁清日常,NUS 新论文完整测评 AI 电脑
- 陶哲轩宣布“等式理论计划”成功:人类 AI 协作,57 天完
- OpenAI 向杜克大学资助“人工智能道德”研究
- 参数量仅 0.25B,成都人形机器人创新中心全国首发 R-DDI
- 一只暹罗猫竟是论文作者!谷歌学术 20 岁,创始人首次公开