NVIDIA Nemotron 3 Nano Omni 重新定义多模态 AI 的效率
realtime news Apr 28, 2026 16:58
NVIDIA 于 2026 年 4 月推出的 Nemotron 3 Nano Omni 将视觉、音频和语言整合到一个模型中,为 AI 代理提供了 9 倍的吞吐量提升。
NVIDIA 正式发布了 Nemotron 3 Nano Omni,这是一款突破性的多模态 AI 模型,旨在将视觉、音频和语言处理统一到一个高效的系统中。该模型于 2026 年 4 月 28 日发布,其基于 30B-A3B 混合专家模型(MoE)架构,消除了对分散处理堆栈的需求,与其他开放的多模态模型相比,实现了高达 9 倍的吞吐量提升。这种效率的飞跃可能显著降低大规模部署 AI 的企业推理成本。
传统 AI 系统通常依赖于针对文本、音频和视觉的单独模型,这增加了编排的复杂性和推理成本。而 Nemotron 3 Nano Omni 将这些模态整合为一个统一的从感知到行动的闭环。此设计改善了跨模态上下文一致性,使 AI 代理能够处理需要同时进行视觉、听觉和文本推理的任务。凭借其 256K 的上下文窗口,该模型特别适合于长时间跨度的工作流程,例如分析复杂文档或总结冗长的视频内容。
该模型已经在多个行业基准测试中表现出色。在 MMlongbench-Doc 和 OCRBenchV2 等文档智能基准测试中,以及在 WorldSense 和 VoiceBench 等平台上的视频和音频理解测试中均处于领先地位。值得注意的是,在 MediaPerf 评估(一个针对现实媒体任务的视频模型基准测试)中,Nemotron 3 Nano Omni 在视频级标记的吞吐量和推理成本方面取得了最高分,验证了其在实际应用中的效率。
推动 Nemotron 3 Nano Omni 性能的关键创新之一是其混合 MoE 架构。通过仅激活每种模态所需的专家,该模型在保持准确性和响应速度的同时,将计算开销降至最低。NVIDIA 还结合了针对硬件的优化,使该模型能够无缝运行于 Ampere、Hopper 和 Blackwell GPU 架构之上。诸如 FP8 和 NVFP4 量化等功能进一步提升了其效率,使其适用于云部署和本地企业环境。
除了效率,NVIDIA 还优先考虑了可访问性和可定制性。Nemotron 3 Nano Omni 提供完全开放的权重、数据集和训练配方,可在 Hugging Face 和 OpenRouter 等平台上获取。企业可以根据特定领域的应用需求调整模型,同时保护数据隐私,这对金融、医疗和媒体等行业来说是至关重要的。
主要云服务提供商如 Amazon SageMaker、Oracle Cloud 和 NVIDIA 自家的 NIM 服务的早期采用,突显了该模型的多功能性。NVIDIA 还发布了适用于 TensorRT-LLM 和 vLLM 等流行推理引擎的部署指南,确保开发人员能够轻松将模型集成到现有工作流程中。
Nemotron 3 Nano Omni 的推出标志着 AI 发展中的一个重要里程碑。通过将多模态处理整合到一个开放模型中,NVIDIA 正在解决长期以来阻碍代理 AI 系统效率的关键问题。其降低成本、提高吞吐量和增强准确性的潜力,使 Nemotron 3 Nano Omni 成为寻求可扩展多模态 AI 解决方案的企业的重要选择。
开发人员和企业现在可以通过 Hugging Face 和 NVIDIA NIM 等平台访问 Nemotron 3 Nano Omni。凭借其开源框架和广泛的部署支持,该模型有望加速依赖高容量多模态数据处理的行业的创新步伐。
Image source: Shutterstock