计算机教程网

您现在的位置是:首页 > 智能时代 > 人工智能

人工智能

微软发布 Windows Agent Arena 基准框架,评估 AI Agents 运行主流 Windows 应用性能

2024-09-16 07:49:18人工智能 IT之家 故渊
科技媒体 NeoWin 昨日(9 月 14 日)发布博文,报道称微软官方推出了 Windows Agent Arena 基准框架,用于评估生成式 AI Agents 在 Windows PC 上的性能。

最新 9 月 15 日消息,科技媒体 NeoWin 昨日(9 月 14 日)发布博文,报道称微软官方推出了 Windows Agent Arena 基准框架,用于评估生成式 AI Agents 在 Windows PC 上的性能

Windows Agent Arena 基准框架

微软表示该基准框架 AI Agents 使用主流 Windows 应用方面的能力和速度,其中包括 Microsoft Edge 和谷歌 Chrome 浏览器,Visual Studio Code 等编程应用,记事本、时钟和画图等预装 Windows 应用,VLC 等主流媒体播放器。

最新翻译部分微软官方博文内容如下:

我们采用 OSWorld 框架,构建了横跨代表性领域的 150 多项多样化 Windows 任务,这些任务要求代理具备规划、屏幕理解和工具使用的能力。

我们的基准测试同样具有可扩展性,能够在 Azure 上无缝并行化,从而在最短 20 分钟内完成全面评估。

Navi

微软研究院也打造了自己的多模态 Agents Navi,并在 Windows Agent Arena 基准测试中对其进行了试验。

它被要求根据特定文本提示执行任务,例如:“你能将我正在浏览的网页转换成 PDF 文件并放置在我的主屏幕上吗,就是那个桌面?”结果显示,Navi 的平均任务成功率为 19.5%,相较于人类 74.5% 的表现评分,这一成绩仍显偏低。

最新附上参考地址

  • Windows Agent Arena