NEW
Kaggle 比赛冠军揭示使用 cuML 的堆叠策略 - Blockchain.News

Kaggle 比赛冠军揭示使用 cuML 的堆叠策略

realtime news May 22, 2025 13:03

Kaggle 大师 Chris Deotte 分享了他在 2025 年 4 月 Kaggle 比赛中使用堆叠加速赢得比赛的经验心得,利用 GPU 加速实现快速高效的建模。

Kaggle 比赛冠军揭示使用 cuML 的堆叠策略

Kaggle 大师 Chris Deotte 揭示了他在 2025 年 4 月 Kaggle 比赛中获得第一名的秘密。此次挑战要求参与者预测播客收听时间,而 Deotte 的创新方法以使用 NVIDIA 的 cuML 为中心,该库是一个 GPU 加速的机器学习库,据 NVIDIA 的开发者博客报道。

理解堆叠

堆叠是一种复杂的技术,通过组合多个模型的预测来提高性能。Deotte 的策略包括创建一个三级堆叠,始于第一层模型,如梯度提升决策树(GBDT)、深度学习神经网络(NN)以及其他机器学习模型,如支持向量回归(SVR)和 k-最近邻(KNN)。这些模型通过 GPU 加速进行训练,以提高速度和效率。

然后,第二层模型使用第一层模型的输出进行训练,学会基于不同情景预测目标。最后,第三层模型对第二层模型的输出进行平均,形成一个强大的预测模型。

多样的预测方法

在比赛中,Deotte 探索了各种预测方法,包括直接预测目标、预测目标与节目长度的比率、预测线性关系的残差以及预测缺失特征。通过采用不同结构和超参数的多样化模型,Deotte 能够识别出最有效的策略来应对比赛的独特挑战。

构建堆叠

在开发了数百个多样化模型之后,Deotte 使用前向特征选择构建了最终的堆叠。第一层模型的输出,称为跨折(OOF)预测,被用作第二层模型的特征。此外,还包括了一些工程化特征,如模型信心和平均预测。

训练了多个第二层模型,包括 GBDT 和 NN 模型,最终第三层输出是它们预测结果的加权平均。这种先进的堆叠技术实现了交叉验证的 RMSE 为 11.54,私人排行榜的 RMSE 为 11.44,确保了比赛的第一名。

结论

Deotte 的成功展示了使用 cuML 进行 GPU 加速机器学习的强大功能。通过快速实验多样化的模型,他能够开发出在竞争激烈的领域中脱颖而出的高级解决方案。更多关于他策略的见解,请访问 NVIDIA 开发者博客

Image source: Shutterstock