Nexa AI 使用 NexaQuant 提升 AMD 平台的 DeepSeek R1 蒸馏性能
realtime news Feb 20, 2025 11:26
Nexa AI 为 DeepSeek R1 蒸馏引入 NexaQuant 技术,优化 AMD 平台上的性能,提升推理能力并减少内存占用。

Nexa AI 宣布为其 DeepSeek R1 蒸馏模型 Qwen 1.5B 和 Llama 8B 发布 NexaQuant 技术,旨在提升 AMD 平台上的性能和推理能力。根据AMD 社区的信息,该计划利用先进的量化技术优化大型语言模型的效率。
先进的量化技术
NexaQuant 技术采用了一种专有的量化方法,使模型在更低的 4 位量化水平上运行时仍能保持高性能。这种方法显著减少了内存使用,而不影响模型的推理能力,这对于使用链式思维痕迹的应用程序至关重要。
传统的量化方法,例如基于 llama.cpp Q4 K M 的方法,通常会在密集模型上导致较低的困惑度损失,但可能会对推理能力产生负面影响。Nexa AI 声称其 NexaQuant 技术能够恢复这些损失,在精度和性能之间提供平衡。
基准测试性能
Nexa AI 提供的基准测试显示,相比于其完整的 16 位版本,Q4 K M 量化的 DeepSeek R1 蒸馏在一些基准测试中,如 GPQA 和 AIME24,性能略低。然而,NexaQuant 方法据说能够减轻这些差异,在保持较低内存需求的同时提供更高的性能。
在 AMD 平台上的实施
NexaQuant 技术的集成对在 AMD Ryzen 处理器或 Radeon 显卡上操作的用户特别有利。Nexa AI 建议通过使用 LM Studio 来实现这些模型,通过特定的配置例如将 GPU 卸载层设置为最大化来确保最佳性能。
开发者可以直接从 Hugging Face 等平台获取这些高级模型,包括 DeepSeek R1 蒸馏 Qwen 1.5B 和 Llama 8B 的 NexaQuant 版本可供下载。
结论
通过引入 NexaQuant 技术,Nexa AI 旨在提升大型语言模型的性能和效率,使其在 AMD 平台上更加可及并有效地应用于更广泛的应用程序。这一发展强调了 AI 模型在应对不断增长的计算需求时的持续演变和优化。
Image source: Shutterstock