NVIDIA Jetson 的内存技巧让边缘设备运行 100 亿参数的 AI 模型

NVIDIA Jetson 的内存技巧让边缘设备运行 100 亿参数的 AI 模型 - Blockchain.News

NVIDIA发布了一份详细的技术指南，说明了开发者如何将多亿参数的AI模型压缩到资源受限的边缘设备上——这一进展可能会改变自主系统和物理AI代理在无云依赖的情况下的运行方式。

这些技术适用于Jetson Orin NX和Orin Nano平台，根据实现深度的不同，可以回收5GB至12GB的内存。这为运行10亿参数的LLM和40亿参数的视觉语言模型提供了足够的空间，即使设备仅有8GB的统一内存。

内存节省来源

优化堆栈从基础层开始，目标是五个层次。仅禁用图形桌面就可释放高达865MB的内存。关闭未使用的划分区域——为显示和摄像子系统保留的内存块——可回收至少100MB或更多。当总内存预算仅为8GB或16GB时，这些数字并不小。

在DeepStream等框架中的流水线优化通过消除生产部署中不必要的可视化组件，贡献了412MB的节省。将实现从Python切换到C++可节省84MB。运行在容器中而不是裸机中：70MB。

但真正的收获来自量化。将Qwen3 8B从FP16转换为W4A16格式可节省大约10GB内存。对于较小的Qwen3 4B模型，从BF16转换为INT4可回收约5.6GB内存。

生产就绪的结果

NVIDIA在Reachy Mini Jetson Assistant上展示了这些优化——一款完全运行在8GB内存且无云连接的Orin Nano上的对话式AI机器人。该系统同时运行一个完整的多模态流水线：通过Llama.cpp运行一个4位量化的Cosmos-Reason2-2B视觉语言模型，faster-whisper进行语音识别，Kokoro TTS进行语音输出，加上机器人SDK和实时网络控制面板。

公司建议采用特定的量化方法：从高精度开始，然后逐步评估低精度选项，直到准确性低于可接受阈值为止。格式如NVFP4、INT4和W4A16在保持大多数LLM任务较高准确性的同时，提供了显著的内存节省。

超越GPU的硬件加速器

Jetson平台包括专门的加速器，用于减少特定任务的GPU负载。可编程视觉加速器比持续的GPU处理更高效地处理始终开启的工作负载，如运动检测和目标跟踪。视频编码和解码运行在专用的NVENC/NVDEC硬件上，而不是消耗GPU循环。

NVIDIA的cuPVA SDK用于视觉加速器，目前处于早期访问阶段，这表明公司看到了对超越仅GPU解决方案的节能边缘推理日益增长的需求。

对于构建自主系统、机器人应用或任何云延迟或连接性不可接受的物理AI部署的开发者而言，这些优化提供了一条实用的路径，可在本地运行有能力的模型。经过测试的全部模型列表可在NVIDIA的Jetson AI Lab Models页面上找到，开发者论坛中也正在进行社区讨论。

Image source: Shutterstock

Bookmark

NVIDIA Jetson 的内存技巧让边缘设备运行 100 亿参数的 AI 模型

内存节省来源

生产就绪的结果

超越GPU的硬件加速器

Premium Sponsors

Flash News