Unsloth 简化了 NVIDIA Blackwell GPU 上的 LLM 训练

Unsloth 简化了 NVIDIA Blackwell GPU 上的 LLM 训练 - Blockchain.News

对 AI 从业者而言，Unsloth 的开源框架为在 NVIDIA Blackwell GPU 上训练大型语言模型（LLM）引入了一种简化流程。据NVIDIA 官方博客称，这一进展有望通过为个人和小型团队提供高效解决方案来使 AI 开发民主化。

Unsloth：LLM 训练的新纪元

Unsloth 旨在简化和加速 LLM 的微调和强化学习。使用自定义 Triton 内核和算法，Unsloth 在不影响准确性的情况下实现了 2 倍的训练吞吐量和 70% 的 VRAM 使用量减少。该框架支持 Llama、gpt-oss 和 DeepSeek 等流行模型，并针对 NVIDIA Blackwell GPU 使用 NVFP4 精度进行了优化。

Blackwell 的性能基准测试

Unsloth 在 NVIDIA Blackwell GPU 上的基准测试显示了显著的性能提升。该框架在处理超过 700 亿参数的模型时实现了 2 倍的训练速度和 70% 的 VRAM 减少。尤其是，它将上下文窗口扩展了 12 倍，能够在单个 GPU 上微调多达 400 亿参数的模型。

例如，使用具有 32 GB VRAM 的 NVIDIA GeForce RTX 5090 GPU，Unsloth 在上下文长度和 VRAM 效率方面展现了相较于传统配置的显著收益。

Unsloth 的设置

Unsloth 的安装过程用户友好，提供多种选项如 pip 安装、虚拟环境或 Docker 部署。这种灵活性允许用户利用任何 Blackwell 代 GPU，包括 GeForce RTX 50 系列。

Docker 和环境设置

对于偏好 Docker 的用户，Unsloth 提供了兼容 NVIDIA Blackwell GPU 的预构建镜像。Docker 容器需要 NVIDIA 容器工具包以获得最佳性能。或者，用户可以使用 Python 设置一个隔离环境，以确保与不同系统配置的兼容性。

Unsloth 还通过提供从源代码构建的解决方案解决了 xFormers 的潜在问题，增强了各种设置下的兼容性和稳定性。

借助 NVIDIA 云解决方案进行扩展

尽管 Unsloth 促进了本地实验，但其工作流程可完全扩展到云环境，如 NVIDIA DGX Cloud 和 NVIDIA Cloud Partners。这种可扩展性允许训练 70B+ 模型并支持企业工作负载，无需进行代码修改。

Unsloth 联合创始人 Daniel Han 强调了项目使 AI 可访问的使命：“AI 不应该是一个排外的俱乐部。下一个伟大的 AI 突破可能来自任何地方——学生、个人研究人员或小型初创企业。Unsloth 在这里确保他们拥有所需的工具。”

通过 Unsloth，用户可以在 NVIDIA GPU 上本地开始，并无缝过渡到基于云的解决方案，以进行广泛的 AI 开发，确保强大的性能和可靠性。

Image source: Shutterstock

Bookmark