Nexa AI 使用 NexaQuant 提升 AMD 平台的 DeepSeek R1 蒸馏性能

Nexa AI 使用 NexaQuant 提升 AMD 平台的 DeepSeek R1 蒸馏性能 - Blockchain.News

Nexa AI 宣布为其 DeepSeek R1 蒸馏模型 Qwen 1.5B 和 Llama 8B 发布 NexaQuant 技术，旨在提升 AMD 平台上的性能和推理能力。根据AMD 社区的信息，该计划利用先进的量化技术优化大型语言模型的效率。

先进的量化技术

NexaQuant 技术采用了一种专有的量化方法，使模型在更低的 4 位量化水平上运行时仍能保持高性能。这种方法显著减少了内存使用，而不影响模型的推理能力，这对于使用链式思维痕迹的应用程序至关重要。

传统的量化方法，例如基于 llama.cpp Q4 K M 的方法，通常会在密集模型上导致较低的困惑度损失，但可能会对推理能力产生负面影响。Nexa AI 声称其 NexaQuant 技术能够恢复这些损失，在精度和性能之间提供平衡。

Nexa AI 提供的基准测试显示，相比于其完整的 16 位版本，Q4 K M 量化的 DeepSeek R1 蒸馏在一些基准测试中，如 GPQA 和 AIME24，性能略低。然而，NexaQuant 方法据说能够减轻这些差异，在保持较低内存需求的同时提供更高的性能。

NexaQuant 技术的集成对在 AMD Ryzen 处理器或 Radeon 显卡上操作的用户特别有利。Nexa AI 建议通过使用 LM Studio 来实现这些模型，通过特定的配置例如将 GPU 卸载层设置为最大化来确保最佳性能。

开发者可以直接从 Hugging Face 等平台获取这些高级模型，包括 DeepSeek R1 蒸馏 Qwen 1.5B 和 Llama 8B 的 NexaQuant 版本可供下载。

通过引入 NexaQuant 技术，Nexa AI 旨在提升大型语言模型的性能和效率，使其在 AMD 平台上更加可及并有效地应用于更广泛的应用程序。这一发展强调了 AI 模型在应对不断增长的计算需求时的持续演变和优化。

Image source: Shutterstock