人工智能

谷歌深夜炸场：Gemini 2.0 正式发布，关键基准测试性能约为 1.5 Pro 两倍

2024-12-12 07:37:25人工智能 IT之家问舟

谷歌正式发布Gemini 2.0，号称迄今为止为智能体时代最有能力的AI模型，带来了增强的性能、更多的多模态性和新的原生工具使用。

感谢最新网友風見暉一的线索投递！

最新 12 月 11 日消息，谷歌正式发布 Gemini 2.0，号称是谷歌迄今为止功能最强的 AI 模型，带来了更强的性能、更多的多模态表现（如原生图像和音频输出）和新的原生工具应用。

如图所示， Gemini 2.0 在关键基准测试中相对于 Gemini 1.5 Pro 实现了大幅性能提升而且延迟更低，谷歌官方的表述是“关键基准测试中超越了 1.5 Pro，速度是其两倍”。

据介绍，Gemini 2.0 还带来了多种新功能。除了支持图像、视频和音频等多模态输入外，现在还支持多模态输出，例如与文本混合的原生文生图、可自定义的文本转语音 (TTS) 多语言音频内容。此外，它还支持原生调用工具，如 Google 搜索、代码执行以及第三方用户定义函数等等。

谷歌深夜炸场：Gemini 2.0 正式发布，关键基准测试性能约为 1.5 Pro 两倍

谷歌 Gemini 2.0 Flash 对原生用户界面操作实现了多方面的改进，例如多模态推理、长上下文理解、复杂指令遵循和规划、组合函数调用、原生工具使用等，并进一步优化了延迟问题。

谷歌表示：AI 智能体的实际应用是一个激动人心、充满可能性的研究领域。我们正在通过一系列原型探索这个新领域，这些原型可以帮助人们完成任务并把事情做好，其中包括对 Project Astra 的更新，Project Astra 是我们探索通用人工智能（AGI）未来功能的研究原型；新的 Project Mariner 则将从你的浏览器开始探索人机交互的未来；以及 Jules，这是一个可以帮助开发人员的 AI 代码智能体。

即日起，开发人员便可在 AI Studio 和 Vertex AI 中对 Gemini 2.0 Flash 实验版本进行试用（文本转语音和原生图像生成仅供早期访问合作伙伴使用，但所有开发者均可使用多模态输入和文本输出，预计将于 1 月广泛开放），而且该版本也已经在网页版中为 Gemini Advanced 开放试用，移动版后续推出。

谷歌深夜炸场：Gemini 2.0 正式发布，关键基准测试性能约为 1.5 Pro 两倍

为了帮助开发人员开发动态和交互式应用，谷歌还发布了新的多模态实时 API，它具有实时音频、视频输入能力，而且能够使用多个组合工具。

赞一个！ ()

计算机教程网

计算机教程网

人工智能

谷歌深夜炸场：Gemini 2.0 正式发布，关键基准测试性能约为 1.5 Pro 两倍

AI 视频生成王者 Sora 上线：OpenAI 的“魔法棒”，1080P@20 秒具象化你的想象力

云深处科技自研国产机器狗 X30 交付新加坡电网，预估每年节省 480 小时人工隧道检查时间

相关文章