Google Gemini 2.0 发布，新一代AI模型具有多模态图像和音频输出

Google 推出了最新一代 AI 模型 Gemini 2.0，其不仅支持多模态图像和音频输出，还具备“代理型 AI”（Agentic AI）功能。代理型 AI 模型是能够通过自适应决策独立完成任务的 AI 系统，例如通过一个提示自动完成购物或预约等任务。

Google Gemini 2.0 发布，新一代AI模型具有多模态图像和音频输出 - 第1张

Gemini 2.0 包含多个 AI 代理（Agents），可在各种领域为用户提供帮助。例如，它可以在《部落冲突》等游戏中实时提供建议，或者根据提示选择礼物并将其添加到购物车中。

与其他 AI 代理类似，Gemini 2.0 的代理具有目标导向行为（Goal-Oriented Behavior）。它们可以创建基于任务的步骤列表并自主完成这些任务。

以下是 Gemini 2.0 中的一些主要代理：

Project Astra：设计为 Android 手机的通用 AI 助手，支持多模态功能，并集成 Google 的搜索、Lens 和地图功能。
Project Mariner：另一个实验性的 AI 代理，可在网络浏览器中自主导航。目前，该项目以 Chrome 扩展的形式提供早期预览，仅面向“可信测试者”（Trusted Testers）。

Google Gemini 2.0 发布，新一代AI模型具有多模态图像和音频输出 - 第2张

除代理功能外，Gemini 2.0 Flash 是 Google 新 AI 模型的首个版本，目前处于实验（Beta）阶段。与 Gemini 1.0 和 1.5 模型相比，Flash 具有更低的延迟、更高的基准性能，以及在数学和编程推理和理解方面的显著提升。它还基于 Google DeepMind 的 Imagen 3 文生图模型，原生支持图像生成功能。

Gemini 2.0 Flash Experimental 已在网页端面向所有用户开放使用，并将在不久后登陆移动端 Gemini 应用。用户需要从下拉菜单中选择 Gemini 2.0 Flash Experimental 以参与测试。

Google Gemini 2.0 发布，新一代AI模型具有多模态图像和音频输出 - 第3张

下面是Google 和 Alphabet CEO Sundar Pichai 的一封信，信中说道：

信息是人类进步的核心。这正是我们26年来一直致力于的使命——组织全球信息，并使其易于获取和有用。这也是为什么我们不断推动人工智能的边界，以跨各种输入方式组织信息，并通过任何输出方式使其易于获取，从而真正为您所用。

去年12月我们推出Gemini 1.0时，这便是我们的愿景。作为首个原生多模态模型，Gemini 1.0和1.5在多模态和长上下文理解方面取得了重大进展，能够跨文本、视频、图像、音频和代码理解信息，并处理更多此类信息。

如今，数百万开发者正在使用Gemini进行开发。它正帮助我们重新构想所有产品——包括拥有20亿用户的全部7款产品——并创造新产品。NotebookLM就是一个很好的例子，展示了多模态和长上下文如何为人们赋能，以及为何它受到如此多人的喜爱。

过去一年，我们一直在投资开发更具代理性的模型，这意味着它们能够更深入地理解您周围的世界，提前多步思考，并在您的监督下代表您采取行动。

今天，我们激动地宣布推出为这一新代理时代打造的下一代模型：Gemini 2.0，这是我们迄今为止最强大的模型。凭借在多模态（如原生图像和音频输出）和原生工具使用方面的新进展，它将使我们能够构建新的AI代理，让我们更接近实现通用助手的愿景。

今天，我们将2.0版本交付给开发者和受信任的测试者。我们正在努力将其快速融入我们的产品中，首先以Gemini和搜索为起点。从今天起，我们的Gemini 2.0 Flash实验模型将对所有Gemini用户开放。我们还推出了一项名为“深度研究”的新功能，该功能利用先进的推理和长上下文能力充当研究助手，为您探索复杂主题并编译报告。该功能今天已在Gemini Advanced中上线。

在AI的推动下，搜索产品的变革最为显著。我们的AI概览现已覆盖10亿人，使他们能够提出全新类型的问题——这迅速成为我们最受欢迎的搜索功能之一。作为下一步，我们将把Gemini 2.0的先进推理能力引入AI概览，以处理更复杂的主题和多步骤问题，包括高级数学方程、多模态查询和编程。本周我们已开始有限测试，并将在明年年初更广泛地推出。未来一年，我们还将继续将AI概览推广到更多国家和地区，支持更多语言。

2.0版本的进步得益于我们在AI创新方面长达十年的全栈式差异化投资。它基于我们定制的硬件，如我们的第六代TPU——Trillium。TPU为Gemini 2.0的训练和推理提供了100%的动力，如今Trillium已面向客户全面开放，以便他们也能使用其进行构建。

如果说Gemini 1.0是关于组织和理解信息，那么Gemini 2.0就是让这些信息变得更加有用。我迫不及待想看到这一新时代将带来什么。

—— Sundar Pichai

开发者也可以通过 Google AI Studio 和 Vertex AI 访问该新模型。此外，Google 确认将在明年 1 月发布更多 Gemini 2.0 模型的尺寸版本。

Google Gemini 2.0 发布，新一代AI模型具有多模态图像和音频输出 - 第4张

Gemini 2.0 的发布标志着 Google 在 AI 技术领域迈向了一个新的阶段，为用户和开发者带来了更强大的多模态功能、更智能的代理体验以及更多的创新可能性。

AI(146)Google Gemini 2.0(1)

{{userData.name}}

Google Gemini 2.0 发布，新一代AI模型具有多模态图像和音频输出

免费下载：GOYO语音分离器 – AI降噪插件

更强的AI作曲Stable Audio 2.0，支持上传样本创作

Skyworks 推出AI Dialog Boost 嵌入式软件语音清晰度解决方案

iZotope 发布AI人工智能混响Aurora Reverb

Adobe Premiere Pro 支持AI智能混音以及缩短音乐适配剪辑

Waves Clarity Vx和Pro：自动、基于AI人工智能的声音去音降噪

Sound Variety 推出免费 Windows Tube Compressor 插件 FeenstaubTC

Sound Magic 发布 GraphicQ 并附带免费立体声版本

免费插件-KazrogKClipZero

Reason Studios 重新发布 ReCycle 免费软件

LancasterAudio&AuroraDSP发布Pulse2免费IR加载插件

Fors 发布 Sala 免费混响效果插件

韩美合拍科幻大片《编号17》声音制作幕后

Sonbile 发布pure:bundle AI 驱动去嘶音插件

NEST Acoustics 发布 Delta 旁链饱和插件

APL Virtuoso Lite 简化版双耳监听软件发布

十年最佳电影混音爆裂鼓手 Whiplash 2015

MSG通过 Sphere Entertainment 收购 Holoplot

2017年度优秀声音电影及2018奥斯卡声音奖预测

拼来的奥斯卡，真实的枪战现场录制《边境杀手》声音编辑 Alan Robert Murray谈

里程碑作品《现代启示录》首映40周年杜比全景声重装发行

第35届中国电影金鸡奖最佳录音提名公布！

SSG Audio 推出母带处理 AI 插件

免费雨声音效库，声音人的必备！

Pro Tools 2024.6更新！更强大更便捷

iZotope RX11正式发布！新功能一览中字视频

AI音乐音干分离工具大盘点系列四基于在线独家

Techivation 发布AI驱动的动态共振抑制器插件

DaVinci Resolve 达芬奇19的音频AI新功能

一文带你了解为什么雨声能助我们入眠

就这么屌，与ChatGTP-4o对话就完成角色配音

第96届奥斯卡获奖公布 Ludwig Göransson 颁奖视频