NVIDIA Jetson 的内存技巧让边缘设备运行 100 亿参数的 AI 模型 - Blockchain.News

NVIDIA Jetson 的内存技巧让边缘设备运行 100 亿参数的 AI 模型

realtime news Apr 20, 2026 23:58

NVIDIA揭示了优化技术,可在Jetson设备上回收多达12GB的内存,使多亿参数的LLM能够在边缘硬件上运行。

NVIDIA Jetson 的内存技巧让边缘设备运行 100 亿参数的 AI 模型

NVIDIA发布了一份详细的技术指南,说明了开发者如何将多亿参数的AI模型压缩到资源受限的边缘设备上——这一进展可能会改变自主系统和物理AI代理在无云依赖的情况下的运行方式。

这些技术适用于Jetson Orin NX和Orin Nano平台,根据实现深度的不同,可以回收5GB至12GB的内存。这为运行10亿参数的LLM和40亿参数的视觉语言模型提供了足够的空间,即使设备仅有8GB的统一内存。

内存节省来源

优化堆栈从基础层开始,目标是五个层次。仅禁用图形桌面就可释放高达865MB的内存。关闭未使用的划分区域——为显示和摄像子系统保留的内存块——可回收至少100MB或更多。当总内存预算仅为8GB或16GB时,这些数字并不小。

在DeepStream等框架中的流水线优化通过消除生产部署中不必要的可视化组件,贡献了412MB的节省。将实现从Python切换到C++可节省84MB。运行在容器中而不是裸机中:70MB。

但真正的收获来自量化。将Qwen3 8B从FP16转换为W4A16格式可节省大约10GB内存。对于较小的Qwen3 4B模型,从BF16转换为INT4可回收约5.6GB内存。

生产就绪的结果

NVIDIA在Reachy Mini Jetson Assistant上展示了这些优化——一款完全运行在8GB内存且无云连接的Orin Nano上的对话式AI机器人。该系统同时运行一个完整的多模态流水线:通过Llama.cpp运行一个4位量化的Cosmos-Reason2-2B视觉语言模型,faster-whisper进行语音识别,Kokoro TTS进行语音输出,加上机器人SDK和实时网络控制面板。

公司建议采用特定的量化方法:从高精度开始,然后逐步评估低精度选项,直到准确性低于可接受阈值为止。格式如NVFP4、INT4和W4A16在保持大多数LLM任务较高准确性的同时,提供了显著的内存节省。

超越GPU的硬件加速器

Jetson平台包括专门的加速器,用于减少特定任务的GPU负载。可编程视觉加速器比持续的GPU处理更高效地处理始终开启的工作负载,如运动检测和目标跟踪。视频编码和解码运行在专用的NVENC/NVDEC硬件上,而不是消耗GPU循环。

NVIDIA的cuPVA SDK用于视觉加速器,目前处于早期访问阶段,这表明公司看到了对超越仅GPU解决方案的节能边缘推理日益增长的需求。

对于构建自主系统、机器人应用或任何云延迟或连接性不可接受的物理AI部署的开发者而言,这些优化提供了一条实用的路径,可在本地运行有能力的模型。经过测试的全部模型列表可在NVIDIA的Jetson AI Lab Models页面上找到,开发者论坛中也正在进行社区讨论。

Image source: Shutterstock