NVIDIA 的 RAPIDS cuDF 通过 JIT 编译提升数据处理能力

NVIDIA 的 RAPIDS cuDF 通过 JIT 编译提升数据处理能力 - Blockchain.News

NVIDIA 的 RAPIDS cuDF 引入了即时（Just-In-Time, JIT）编译，以提高在 GPU 上进行数据处理的效率。根据 NVIDIA 开发者博客的报道，这一进展旨在优化 GPU 资源的利用率并提高处理吞吐量。

理解 cuDF 和 JIT 编译

RAPIDS cuDF 提供了一套全面的提取、转换、加载（ETL）算法，专为 GPU 数据处理设计。对于熟悉 pandas 的用户，cuDF 提供了无需更改代码即可使用的加速算法，而 C++ 开发者则可以通过直接与 cuDF C++ 子模块交互获得新功能。

在 NVIDIA 运行时编译（NVRTC）库的帮助下，JIT 编译的集成允许在运行时创建高度优化的 GPU 内核。这种方法通过实现内核融合解决了过多 GPU 内存传输的问题，单个 GPU 内核可以对相同输入数据执行多重计算。

在 cuDF 中，表达式通常表示为操作数和操作符组成的树。JIT 转换方法利用 NVRTC 来编译自定义内核，从而更高效地执行这些表达式。相比于预编译和抽象语法树（AST）执行方法，这种方法减少了在 GPU 全局内存中存储中间数据的需要。

JIT 编译支持额外的操作符，如用于 if-else 分支的三元操作符和字符串函数，扩展了 cuDF 的能力，使其超越了 AST 执行。然而，它引入了大约 600 毫秒的内核编译时间，这可以通过预填充 JIT 缓存来减轻。

JIT 转换方法对性能有显著提升，特别是对于复杂的用户自定义函数（UDFs）。例如，通过 JIT 处理 UDFs 会因更少的内核启动、更好的缓存局部性和减少的 GPU 内存带宽使用而实现更快的运行时间。这转化为更复杂转换时 2 倍到 4 倍的加速。

尽管有这些优点，JIT 编译需要对内核缓存进行谨慎管理以避免运行时编译延迟。初始执行由于 JIT 编译而耗时更长，但后续运行受益于显著降低的开销。

NVIDIA 鼓励开发者通过可用资源探索 cuDF 的功能，其中包括 cuDF 文档和 RAPIDS Docker 容器，以便于测试和部署。RAPIDS cuDF GitHub 存储库提供了示例和详细的 JIT 编译实现数据处理任务的说明。

对有意利用 C++ 子模块的开发者来说，可以通过 rapidsai-nightly Conda 频道访问预构建的二进制文件和示例。这些资源为预编译和 JIT 编译表达式评估器提供了全面支持，从而促进高效的数据处理工作流程。

Image source: Shutterstock