NVIDIA通过Blackwell和nvCOMP增强数据解压缩
realtime news Oct 06, 2025 15:49
NVIDIA推出了Blackwell解压缩引擎和nvCOMP,提升数据解压缩效率,释放计算资源,对数据密集型应用至关重要。

NVIDIA推出了一项突破性的解决方案,旨在解决数据解压缩过程中遇到的挑战,这是数据管理中一项重要但常常消耗大量计算资源的过程。根据NVIDIA官方博客,在NVIDIA Blackwell架构中引入的硬件解压缩引擎(DE)与nvCOMP库一起,旨在优化这一过程。
用Blackwell革命性解压缩
Blackwell架构的DE专为加速广泛使用的格式如Snappy,LZ4和基于Deflate的流解压而设计。通过在硬件中处理解压缩,DE显著减少了流多处理器(SM)资源的负载,从而提升计算效率。这一硬件模块集成到复制引擎中,使得压缩数据可以直接传输并在传输过程中解压缩,从而有效地消除了顺序主机到设备复制的需求。
这种方法不仅提高了原始数据吞吐量,还促进了并发数据移动和计算操作。高性能计算、深度学习和基因组学等领域的应用可以在最新的Blackwell GPU带宽下处理数据,而不会遇到输入/输出瓶颈。
nvCOMP:GPU加速压缩
nvCOMP库提供了GPU加速的压缩和解压缩例程,支持多种标准和NVIDIA优化的格式。它使开发人员能够编写可移植的代码,可以随着DE在更多GPU上可用而适应变化。目前,DE支持包括B200,B300,GB200和GB300型号的部分GPU。
使用nvCOMP的API,开发人员可以利用DE的能力而无需更改现有代码。如果DE不可用,nvCOMP将默认为其基于SM的加速实现,确保一致的性能提升。
优化缓冲区管理
为了最大化性能,开发者应使用nvCOMP并采用适当的缓冲区分配策略。DE需要特定类型的缓冲区,如使用cudaMallocFromPoolAsync
或cuMemCreate
分配的缓冲区,才能达到最佳功能。这些分配方式促进设备到设备的解压缩,并在仔细设置下可以处理主机到设备的传输。
最佳实践包括批处理来自相同分配的缓冲区,以最小化主机驱动程序启动开销。开发者还应考虑DE的同步要求,因为nvCOMP API与调用流同步以实现高效的解压缩结果。
对比性能洞察
由于拥有专用的执行单元,DE在解压速率方面优于SM。在LZ4,Deflate和Snappy算法的Silesia基准测试上显示,DE在处理大数据集时表现出色,在高吞吐量需求的场景中超过了SM。
随着NVIDIA继续优化这些技术,预计将进一步增强软件优化,特别是针对Deflate和LZ4格式,提高nvCOMP库的实用性。
结论
NVIDIA的Blackwell解压缩引擎和nvCOMP库代表了数据解压技术的重要飞跃。通过将解压缩任务卸载到专用硬件,NVIDIA不仅加速了数据处理,还解放了GPU资源以用于其他计算任务。这一发展承诺为数据密集型应用提供更顺畅的工作流程和更佳的性能。
Image source: Shutterstock