Google DeepMind 发布具备先进空间 AI 的 Gemini Robotics-ER 1.6 - Blockchain.News

Google DeepMind 发布具备先进空间 AI 的 Gemini Robotics-ER 1.6

realtime news Apr 14, 2026 15:55

Google 最新的机器人 AI 模型通过新的 Gemini API 访问,为自主机器人带来了增强的空间推理和仪表读取能力。

Google DeepMind 发布具备先进空间 AI 的 Gemini Robotics-ER 1.6

Google DeepMind 于 2026 年 4 月 14 日发布了 Gemini Robotics-ER 1.6,这是其专为在物理环境中运行的自主机器人设计的具身推理 AI 的重大升级。

新模型针对机器人领域的一个根本挑战:让机器真正理解它们所看到的东西。读取压力表、清点货架上的物品、判断任务是否成功——这些听起来很简单,但实际上大多数机器人仍然难以做到。

据 DeepMind 研究人员 Laura Graesser 和 Peng Xu 表示,Gemini Robotics-ER 1.6 在空间和物理推理基准测试中的表现优于其前代版本(ER 1.5)和 Gemini 3.0 Flash。改进主要体现在三个核心领域:指向精度、物体计数和已完成任务的成功检测。

仪表读取能力是一项真正的新突破。机器人现在可以解读模拟仪表和液位计——这类设备常见于制造工厂、炼油厂或工业设施中。这一功能源于 DeepMind 与 Boston Dynamics 的持续合作,表明真正的商业应用推动了这项开发,而不仅仅是学术基准测试。

在底层架构上,该模型作为高级推理层协调其他 AI 系统。它可以调用 Google 搜索进行信息检索,触发视觉-语言-动作模型进行物理操作,或执行开发者定义的自定义第三方功能。可以将其视为决定做什么的大脑,而其他专用模型负责执行。

开发者可以立即通过 Gemini API 和 Google AI Studio 访问 Gemini Robotics-ER 1.6。DeepMind 还发布了一个 Colab 笔记本,其中包含具身推理任务的配置示例和提示指南——这为构建自主系统的团队提供了实用的起点。

发布时机对于更广泛的 AI-机器人融合趋势具有重要意义。随着仓储自动化、工业检测和服务机器人市场的扩张,瓶颈越来越多地出现在感知和推理方面,而非机械能力。Boston Dynamics 的机器人已经能够做后空翻;更难的问题是让它们理解何时需要调整阀门。

Gemini Robotics-ER 1.6 能否在商业部署中兑现承诺还有待观察。但仪表读取能力和与 Boston Dynamics 的合作表明,DeepMind 正在为精度至关重要、错误代价高昂的工业应用场景进行开发。

Image source: Shutterstock