CUDA Toolkit 13.0发布,揭示增强GPU编程的高级功能
realtime news Aug 06, 2025 11:53
NVIDIA的CUDA Toolkit 13.0引入了创新功能,如基于块的编程和统一的Arm平台支持,提高了开发者的生产力和GPU性能。

NVIDIA的CUDA Toolkit最新版本13.0现已发布,带来了一系列增强功能,旨在提高NVIDIA CPU和GPU的计算性能。据NVIDIA报道,这一重大版本为未来CUDA 13.X软件系列的发展奠定了基础。
主要功能和改进
CUDA Toolkit 13.0引入了几个关键改进,包括基于块编程的基础、在Arm平台上统一开发者体验,以及支持Red Hat Enterprise Linux 10等操作系统的更新。该版本还包括对NVIDIA Nsight开发者工具的更新,以及线性代数和FFT等数学库的优化。
最显著的进步之一是引入了基于块的编程,允许开发者定义数据块并指定针对这些块的操作。此模型自然映射到张量核心,提高了开发者的生产力,通过抽象底层线程管理最大化GPU性能。块编程模型将通过高级API和中间表示(IR)提供,使其对程序员和工具开发者均可访问。
统一的Arm平台支持
CUDA 13.0通过统一CUDA toolkit到服务器级和嵌入式设备上,简化了Arm平台的开发。这一变化消除了不同Arm目标需要单独安装或工具链的需求,从而提高了生产力,允许单一二进制文件无需代码更变就能部署到各种平台。
这种统一使开发者能够在类似DGX Spark这样高性能系统上模拟应用,并直接部署到像Thor这样的嵌入式目标上,消除了模拟和部署之间的先前障碍。
增强的开发者工具和库
更新还带来了对NVIDIA开发者工具的增强。Nsight Compute 2025.3现在包括指令混合和计分板依赖表,帮助开发者识别依赖阻塞并优化代码。此外,CUDA Toolkit数学库得到了改进,为BLAS L3内核提供了更好的性能,并支持SpGEMM计算中的64位索引矩阵。
此外,NVCC编译器现在使用Zstandard进行fatbin压缩,提供了更好的压缩比,对执行时间影响微乎其微。这一变更是提高CUDA应用效率和性能的更广泛努力的一部分。
持续支持和未来展望
CUDA Toolkit 13.0继续支持最新的NVIDIA GPU,包括Blackwell架构,并引入了对Jetson Thor的支持。该版本还标志着转向Jetson平台的开源GPU驱动程序,支持集成GPU和独立GPU的并行使用。
随着CUDA 13.0为GPU编程的未来奠定基础,开发者可以期待持续的增强,这将进一步简化开发流程,并改进NVIDIA硬件生态系统的性能。
Image source: Shutterstock