NVIDIA通过启发式算法和CUTLASS 4.2增强GEMM内核调优

NVIDIA通过启发式算法和CUTLASS 4.2增强GEMM内核调优 - Blockchain.News

NVIDIA推出了一种新方法来优化其GPU上的通用矩阵乘法（GEMM）内核调优，解决开发人员在选择最佳配置时面临的挑战。据NVIDIA官方博客介绍，通过引入nvMatmulHeuristics这一GPU内核元参数优化模块，该方法旨在通过采用快速启发式算法简化流程，大大减少内核调优所需的时间。

GEMM内核优化中的挑战

GEMM内核性能受多种编译时和运行时元参数的影响，如CTA、warp和指令级块大小、内核调度等。传统上，找到最佳内核需要生成和编译数千种可能的配置，然后进行详尽的自动调优，这既耗时又繁琐。

为缓解这些挑战，NVIDIA开发了nvMatmulHeuristics，以提供简化的GEMM内核调优流程。该模块会根据操作的特定参数和目标硬件的能力，建议一小组最佳内核配置，从而在提高性能的同时减少调优时间。

与CUTLASS 4.2集成后，nvMatmulHeuristics通过预测一组小而有针对性的高潜力内核配置，简化了内核生成和调优过程。该集成使开发人员无需依赖详尽的搜索方法即可快速识别出表现最好的候选配置。

启发式方法包括三个步骤：启发式预测、内核生成和自动调优。通过专注于少数有前景的配置，找到高性能内核所需的时间大大减少。这种方法不仅节省时间，还使开发人员能够高效实现接近最佳的性能。

nvMatmulHeuristics在性能测试中的影响显而易见。在NVIDIA的H100 SXM GPU上，该模块在仅150分钟内实现了96%的峰值性能，而详尽搜索则需要超过700分钟。同样，在NVIDIA B200 GPU上，其在构建和调优时间上实现了超过5倍的加速，达到99%的峰值性能。

nvMatmulHeuristics现已提供早期访问，支持包括NVIDIA Ampere、Ada、Hopper和初步的Blackwell架构在内的多种GPU架构。它兼容所有基于Tensor Core的GEMM精度并为开发人员提供Python和C++ API。

通过实现更快速、更高效的内核调优，nvMatmulHeuristics有潜力提高深度学习框架、编译器和内核库中的生产力。这一进步代表了优化GPU性能以处理复杂计算任务的重要一步。

Image source: Shutterstock