谷歌推出 Gemini 3.5 实时语音翻译功能

predict.info — Premium Domain For Sale Domain only: USD 200,000. Prediction platform technology priced separately. predict.info

Inquire

谷歌推出了 Gemini 3.5 实时语音翻译，这是一款尖端的语音到语音翻译模型，能够无缝地翻译超过 70 种语言的对话。该功能于 2026 年 6 月 9 日宣布，标志着谷歌翻译从统计机器翻译到 AI 驱动的实时能力的二十年发展历程中的重要飞跃。

与早期的逐句翻译系统不同，Gemini 3.5 能够连续翻译语音，保留讲话者的自然语调、节奏和音高。这确保了流畅、近乎实时的翻译，避免了常常打断交流的尴尬停顿。该模型设计为仅比讲话者慢几秒钟，非常适合需要即时理解的场景，如商务会议、多语言通话或导览。

如何使用 Gemini 3.5

该功能从今天开始逐步推出，并集成到多个谷歌平台中：

开发者：通过Gemini 实时 API和谷歌 AI Studio提供公开预览。
企业：本月开始提供Google Meet的私人预览，支持视频会议中的 70 多种语言语音翻译。
消费者：正在全球范围内向 Android 和 iOS 的谷歌翻译应用中推出，配备耳机集成以实现实时音频流和新的“监听模式”以进行隐蔽翻译。

Gemini 3.5 不仅仅是一个供日常使用的工具。开发者和企业正在利用其功能开发实时口译应用。例如，东南亚网约车巨头 Grab 正在测试该模型，以实现司机和乘客之间的多语言交流，这些乘客每月进行超过 1000 万次语音通话。

实时翻译的进步

Gemini 3.5 建立在谷歌翻译 AI 创新的基础之上。早在 2016 年，谷歌通过神经机器翻译（GNMT）系统彻底改变了翻译领域，引入了端到端神经网络和零样本翻译。到了 2026 年，Gemini 3.5 集成了生成式 AI，能够动态处理多语言输入，即使在嘈杂环境中也能工作。它还支持超过 2000 种语言组合的视频会议翻译，相较于之前只能翻译到和从英语的限制取得了巨大的飞跃。

此外，该模型生成的所有音频都嵌入了 SynthID，这是一个不可察觉的标记，用于确保可检测性并防止 AI 生成内容的滥用。这体现了谷歌对负责任 AI 实践的持续关注。

对更广泛 AI 市场的影响

Gemini 3.5 实时语音翻译的发布反映了谷歌在引领 AI 驱动翻译市场方面的持续承诺，这是一个实时多模态解决方案正在成为常态的竞争领域。作为其 Gemini AI 产品组合的一部分，这一发展使谷歌能够与微软和 OpenAI 等公司竞争，部署先进的模型用于实际日常用途。

对于交易者和市场观察者来说，谷歌在 AI 领域的创新意味着长期的竞争优势，特别是在谷歌 Workspace 等企业工具中。随着 AI 功能更深入地集成到重要的商业软件中，像谷歌这样的市场领导者可能会看到与其 AI 生态系统相关的采用率和收入流的增加。

对于消费者来说，Gemini 3.5 的实际应用——从无缝的多语言交流到隐蔽的实时翻译——预示着一个语言障碍越来越无关紧要的未来。广泛的设备可用性确保了这不仅限于小众市场，而是面向大众普及。

下一步是什么？

谷歌计划在 2026 年内进一步扩大 Gemini 3.5 实时语音翻译的覆盖范围，并预计今年晚些时候在谷歌 Workspace 中实现更广泛的可用性。对于开发者来说，Gemini 实时 API 的集成已经在 Agora 和 LiveKit 等会话式 AI 平台中推动了创新，使语音翻译应用的部署更加轻松。

随着采用的增长，真正的考验将是该模型在高风险场景中的表现，例如企业会议或现场直播。目前，Gemini 3.5 实时语音翻译通过将 AI 精确性与实用性结合，为实时翻译设定了一个很高的标准。

Image source: Shutterstock

Bookmark

谷歌推出 Gemini 3.5 实时语音翻译功能

如何使用 Gemini 3.5

实时翻译的进步

对更广泛 AI 市场的影响

下一步是什么？

Premium Sponsors

Flash News