NVIDIA Nemotron 3 Nano Omni 重新定义多模态 AI 的效率

NVIDIA Nemotron 3 Nano Omni 重新定义多模态 AI 的效率 - Blockchain.News

NVIDIA 正式发布了 Nemotron 3 Nano Omni，这是一款突破性的多模态 AI 模型，旨在将视觉、音频和语言处理统一到一个高效的系统中。该模型于 2026 年 4 月 28 日发布，其基于 30B-A3B 混合专家模型（MoE）架构，消除了对分散处理堆栈的需求，与其他开放的多模态模型相比，实现了高达 9 倍的吞吐量提升。这种效率的飞跃可能显著降低大规模部署 AI 的企业推理成本。

传统 AI 系统通常依赖于针对文本、音频和视觉的单独模型，这增加了编排的复杂性和推理成本。而 Nemotron 3 Nano Omni 将这些模态整合为一个统一的从感知到行动的闭环。此设计改善了跨模态上下文一致性，使 AI 代理能够处理需要同时进行视觉、听觉和文本推理的任务。凭借其 256K 的上下文窗口，该模型特别适合于长时间跨度的工作流程，例如分析复杂文档或总结冗长的视频内容。

该模型已经在多个行业基准测试中表现出色。在 MMlongbench-Doc 和 OCRBenchV2 等文档智能基准测试中，以及在 WorldSense 和 VoiceBench 等平台上的视频和音频理解测试中均处于领先地位。值得注意的是，在 MediaPerf 评估（一个针对现实媒体任务的视频模型基准测试）中，Nemotron 3 Nano Omni 在视频级标记的吞吐量和推理成本方面取得了最高分，验证了其在实际应用中的效率。

推动 Nemotron 3 Nano Omni 性能的关键创新之一是其混合 MoE 架构。通过仅激活每种模态所需的专家，该模型在保持准确性和响应速度的同时，将计算开销降至最低。NVIDIA 还结合了针对硬件的优化，使该模型能够无缝运行于 Ampere、Hopper 和 Blackwell GPU 架构之上。诸如 FP8 和 NVFP4 量化等功能进一步提升了其效率，使其适用于云部署和本地企业环境。

除了效率，NVIDIA 还优先考虑了可访问性和可定制性。Nemotron 3 Nano Omni 提供完全开放的权重、数据集和训练配方，可在 Hugging Face 和 OpenRouter 等平台上获取。企业可以根据特定领域的应用需求调整模型，同时保护数据隐私，这对金融、医疗和媒体等行业来说是至关重要的。

主要云服务提供商如 Amazon SageMaker、Oracle Cloud 和 NVIDIA 自家的 NIM 服务的早期采用，突显了该模型的多功能性。NVIDIA 还发布了适用于 TensorRT-LLM 和 vLLM 等流行推理引擎的部署指南，确保开发人员能够轻松将模型集成到现有工作流程中。

Nemotron 3 Nano Omni 的推出标志着 AI 发展中的一个重要里程碑。通过将多模态处理整合到一个开放模型中，NVIDIA 正在解决长期以来阻碍代理 AI 系统效率的关键问题。其降低成本、提高吞吐量和增强准确性的潜力，使 Nemotron 3 Nano Omni 成为寻求可扩展多模态 AI 解决方案的企业的重要选择。

开发人员和企业现在可以通过 Hugging Face 和 NVIDIA NIM 等平台访问 Nemotron 3 Nano Omni。凭借其开源框架和广泛的部署支持，该模型有望加速依赖高容量多模态数据处理的行业的创新步伐。

Image source: Shutterstock

NVIDIA Nemotron 3 Nano Omni 重新定义多模态 AI 的效率

Premium Sponsors

Flash News