Place your ads here email us at info@blockchain.news
增强机器人技术:NVIDIA Cosmos Reason提升AI性能 - Blockchain.News

增强机器人技术:NVIDIA Cosmos Reason提升AI性能

realtime news Aug 11, 2025 15:44

在GTC 2025大会上推出的NVIDIA Cosmos Reason是一种先进的视觉语言模型,通过改进的推理和决策能力增强了机器人和AI的能力。

增强机器人技术:NVIDIA Cosmos Reason提升AI性能

在NVIDIA GTC 2025大会上亮相的NVIDIA Cosmos Reason,凭借其尖端的视觉语言模型(VLM)有望彻底改变机器人技术和物理AI领域。根据NVIDIA的博客,它旨在增强机器人的推理能力及基于视觉的AI系统,通过整合先前知识、物理理解和常识,更好地解释和与现实世界互动。

高级功能与改进

Cosmos Reason VLM同时处理视频和文本输入,通过被称为投影仪的视觉编码器和翻译器将视频转换为标记。这些视频标记与文本提示结合在一起,由核心模型进行分析,核心模型使用大型语言模型(LLM)模块和技术的混合体来生成逻辑和详细的响应。

利用监督微调和强化学习,Cosmos Reason弥合了多模态感知与现实世界决策之间的差距。其思维链推理能力使其能够不需要人类注释的情况下掌握世界动态。这种创新方法带来了显著的性能提升,细调使模型的基础性能提升了10%以上,而强化学习又增加了5%,在关键的机器人和自动驾驶汽车基准测试中实现了65.7的平均得分。

应用与使用案例

Cosmos Reason的能力拓展至各类机器人和物理AI应用,为开发者提供了一个强大的工具来改进AI驱动的决策。通过从Hugging Face下载模型检查点以及在GitHub上访问推理脚本和后训练资源,开发者可以利用Cosmos Reason的全部潜力。该模型支持不同的视频分辨率和帧率,以及指导其推理和响应的文本提示。

提升AI性能

对于希望为特定任务微调Cosmos Reason的开发者,提供监督微调(SFT)以改善机器人特定视觉问答场景的性能。此过程利用如robovqa的数据集进一步增强模型的能力。在GitHub上可访问全面的信息和微调脚本。

Cosmos Reason专为NVIDIA GPU优化,可以在Docker环境中或直接在开发者的设置中执行。该模型支持从边缘到云的AI管道,能够在NVIDIA的高性能GPU上运行,如DGX Spark、RTX Pro 6000、AI H100 Tensor Core GPUs或DGX Cloud上的Blackwell GB200 NVL72。

入门指南

对于那些有兴趣进一步探索Cosmos Reason的开发者,NVIDIA提供了丰富的文档、教程和实际使用案例,这些资源旨在帮助开发者最大化利用Cosmos Reason的潜力,确保无缝集成到现有的工作流程中。

欲获取更详细的信息,请访问NVIDIA博客

Image source: Shutterstock