Google Gemini 2.0 发布,新一代AI模型具有多模态图像和音频输出
Google 推出了最新一代 AI 模型 Gemini 2.0,其不仅支持多模态图像和音频输出,还具备“代理型 AI”(Agentic AI)功能。代理型 AI 模型是能够通过自适应决策独立完成任务的 AI 系统,例如通过一个提示自动完成购物或预约等任务。

Gemini 2.0 包含多个 AI 代理(Agents),可在各种领域为用户提供帮助。例如,它可以在《部落冲突》等游戏中实时提供建议,或者根据提示选择礼物并将其添加到购物车中。
与其他 AI 代理类似,Gemini 2.0 的代理具有目标导向行为(Goal-Oriented Behavior)。它们可以创建基于任务的步骤列表并自主完成这些任务。
以下是 Gemini 2.0 中的一些主要代理:
-
Project Astra:设计为 Android 手机的通用 AI 助手,支持多模态功能,并集成 Google 的搜索、Lens 和地图功能。
-
Project Mariner:另一个实验性的 AI 代理,可在网络浏览器中自主导航。目前,该项目以 Chrome 扩展的形式提供早期预览,仅面向“可信测试者”(Trusted Testers)。

除代理功能外,Gemini 2.0 Flash 是 Google 新 AI 模型的首个版本,目前处于实验(Beta)阶段。与 Gemini 1.0 和 1.5 模型相比,Flash 具有更低的延迟、更高的基准性能,以及在数学和编程推理和理解方面的显著提升。它还基于 Google DeepMind 的 Imagen 3 文生图模型,原生支持图像生成功能。
Gemini 2.0 Flash Experimental 已在网页端面向所有用户开放使用,并将在不久后登陆移动端 Gemini 应用。用户需要从下拉菜单中选择 Gemini 2.0 Flash Experimental 以参与测试。

下面是Google 和 Alphabet CEO Sundar Pichai 的一封信,信中说道:
信息是人类进步的核心。这正是我们26年来一直致力于的使命——组织全球信息,并使其易于获取和有用。这也是为什么我们不断推动人工智能的边界,以跨各种输入方式组织信息,并通过任何输出方式使其易于获取,从而真正为您所用。
去年12月我们推出Gemini 1.0时,这便是我们的愿景。作为首个原生多模态模型,Gemini 1.0和1.5在多模态和长上下文理解方面取得了重大进展,能够跨文本、视频、图像、音频和代码理解信息,并处理更多此类信息。
如今,数百万开发者正在使用Gemini进行开发。它正帮助我们重新构想所有产品——包括拥有20亿用户的全部7款产品——并创造新产品。NotebookLM就是一个很好的例子,展示了多模态和长上下文如何为人们赋能,以及为何它受到如此多人的喜爱。
过去一年,我们一直在投资开发更具代理性的模型,这意味着它们能够更深入地理解您周围的世界,提前多步思考,并在您的监督下代表您采取行动。
今天,我们激动地宣布推出为这一新代理时代打造的下一代模型:Gemini 2.0,这是我们迄今为止最强大的模型。凭借在多模态(如原生图像和音频输出)和原生工具使用方面的新进展,它将使我们能够构建新的AI代理,让我们更接近实现通用助手的愿景。
今天,我们将2.0版本交付给开发者和受信任的测试者。我们正在努力将其快速融入我们的产品中,首先以Gemini和搜索为起点。从今天起,我们的Gemini 2.0 Flash实验模型将对所有Gemini用户开放。我们还推出了一项名为“深度研究”的新功能,该功能利用先进的推理和长上下文能力充当研究助手,为您探索复杂主题并编译报告。该功能今天已在Gemini Advanced中上线。
在AI的推动下,搜索产品的变革最为显著。我们的AI概览现已覆盖10亿人,使他们能够提出全新类型的问题——这迅速成为我们最受欢迎的搜索功能之一。作为下一步,我们将把Gemini 2.0的先进推理能力引入AI概览,以处理更复杂的主题和多步骤问题,包括高级数学方程、多模态查询和编程。本周我们已开始有限测试,并将在明年年初更广泛地推出。未来一年,我们还将继续将AI概览推广到更多国家和地区,支持更多语言。
2.0版本的进步得益于我们在AI创新方面长达十年的全栈式差异化投资。它基于我们定制的硬件,如我们的第六代TPU——Trillium。TPU为Gemini 2.0的训练和推理提供了100%的动力,如今Trillium已面向客户全面开放,以便他们也能使用其进行构建。
如果说Gemini 1.0是关于组织和理解信息,那么Gemini 2.0就是让这些信息变得更加有用。我迫不及待想看到这一新时代将带来什么。
—— Sundar Pichai
开发者也可以通过 Google AI Studio 和 Vertex AI 访问该新模型。此外,Google 确认将在明年 1 月发布更多 Gemini 2.0 模型的尺寸版本。

Gemini 2.0 的发布标志着 Google 在 AI 技术领域迈向了一个新的阶段,为用户和开发者带来了更强大的多模态功能、更智能的代理体验以及更多的创新可能性。