人工智能

微软发布 Windows Agent Arena 基准框架，评估 AI Agents 运行主流 Windows 应用性能

2024-09-16 07:49:18人工智能 IT之家故渊

科技媒体 NeoWin 昨日（9 月 14 日）发布博文，报道称微软官方推出了 Windows Agent Arena 基准框架，用于评估生成式 AI Agents 在 Windows PC 上的性能。

最新 9 月 15 日消息，科技媒体 NeoWin 昨日（9 月 14 日）发布博文，报道称微软官方推出了 Windows Agent Arena 基准框架，用于评估生成式 AI Agents 在 Windows PC 上的性能。

微软表示该基准框架 AI Agents 使用主流 Windows 应用方面的能力和速度，其中包括 Microsoft Edge 和谷歌 Chrome 浏览器，Visual Studio Code 等编程应用，记事本、时钟和画图等预装 Windows 应用，VLC 等主流媒体播放器。

最新翻译部分微软官方博文内容如下：

我们采用 OSWorld 框架，构建了横跨代表性领域的 150 多项多样化 Windows 任务，这些任务要求代理具备规划、屏幕理解和工具使用的能力。
我们的基准测试同样具有可扩展性，能够在 Azure 上无缝并行化，从而在最短 20 分钟内完成全面评估。

微软研究院也打造了自己的多模态 Agents Navi，并在 Windows Agent Arena 基准测试中对其进行了试验。

微软发布 Windows Agent Arena 基准框架，评估 AI Agents 运行主流 Windows 应用性能

它被要求根据特定文本提示执行任务，例如：“你能将我正在浏览的网页转换成 PDF 文件并放置在我的主屏幕上吗，就是那个桌面？”结果显示，Navi 的平均任务成功率为 19.5%，相较于人类 74.5% 的表现评分，这一成绩仍显偏低。

微软发布 Windows Agent Arena 基准框架，评估 AI Agents 运行主流 Windows 应用性能