NVIDIA 的 ComputeEval 2025.2 挑战 LLMs 的高级 CUDA 任务
realtime news Nov 07, 2025 12:47
NVIDIA 扩展了 ComputeEval,增加了 232 个新的 CUDA 挑战,测试 LLMs 在复杂编程任务中的能力。探索对 AI 辅助编码的影响。
NVIDIA 宣布对 ComputeEval 进行重大更新,这是一款开源基准测试工具,旨在评估大型语言模型 (LLMs) 在 CUDA 编程任务中的表现。根据 NVIDIA 的介绍,最新版本 ComputeEval 2025.2 引入了 232 个新的和更复杂的挑战。
扩大基准测试的视野
ComputeEval 在几个月前首次启动,旨在评估 AI 编码助手生成 CUDA 代码的效率。最新更新大大扩展了数据集,总共增加到了 232 个问题。新增的挑战旨在测试 LLMs 处理现代 CUDA 特性的能力,如张量核心、高级共享内存模式和 warp 级操作,所有这些都在动态模拟等实际应用环境中。
这一扩展旨在通过要求模型正确安排复杂的 CUDA 特性(包括 CUDA 图形、流和事件)来推动 AI 能力的极限。这一举措体现了 NVIDIA 推动 AI 理解加速计算的承诺。
领先 LLMs 的性能指标
NVIDIA 的团队使用 ComputeEval 2025.2 评估了几个领先的 LLMs,以建立基线性能指标。结果表明,与之前的版本相比,全局通过率@1 准确率有所下降。此下降归因于新基准的难度增加,而不是模型能力的下降。例如,GPT-5(中等)显示的通过率@1 从 ComputeEval 2025.1 版本的 0.61 下降到 0.5819。类似地,Claude Sonnet 4.0 从 0.64 下降到 0.5517。
引入更具挑战性的问题是为了鼓励开发可以更有效地理解和执行复杂 CUDA 编程任务的 LLMs。
未来发展和社区参与
展望未来,NVIDIA 计划进一步扩展数据集并增强评估框架的能力。未来更新将扩大 ComputeEval 对其他 CUDA-X 库的覆盖,包括 cuBLAS、CUTLASS、cuDNN 和 RAPIDS。NVIDIA 鼓励更广泛的高性能计算 (HPC) 和 AI 社区参与并合作此项努力。
开发人员和研究人员可以在 GitHub 上探索 ComputeEval 代码,并在 Hugging Face 上访问数据集,促进 AI 辅助编码的持续改进和创新的协作环境。
Image source: Shutterstock