关于 FP8 的快讯列表
| 时间 | 详情 |
|---|---|
|
2026-02-03 21:49 |
据@karpathy称:在NVIDIA H100上采用FP8将GPT-2训练时间降至2.91小时 成本接近20美元
据@karpathy称,在其 nanochat 的GPT-2复现中启用FP8训练,使“time to GPT-2”再降4.3%,单台8卡H100节点用时2.91小时。 据@karpathy称,按8卡H100的临时价位一次运行约20美元,而此前3.04小时的运行约73美元,较OpenAI最初的GPT-2训练已实现约600倍成本下降。 据@karpathy称,H100上的FP8理论FLOPs为两倍,但实际收益受缩放转换开销、训练并非完全受算力瓶颈以及GPT-2规模下GEMM较小等限制,单步加速约7.3%,综合调整训练步数后净收益约5%。 据@karpathy称,torchao报告在Llama3 8B上FP8可达25%加速,提示更大模型或受益更多,他并表示可通过对特定层选择性使用FP8与改进数值稳定性继续提升。 据@karpathy称,额外性能提升来自FlashAttention 3、Muon优化器、带可学习门控的残差与跳连以及value embeddings,并已在GitHub提供可复现实验与“time to GPT-2”榜单。 |
|
2025-06-05 00:00 |
DeepSeek利用Nvidia H800 GPU高效训练AI模型,推动加密市场AI应用变革
据@DeepSeek_AI透露,DeepSeek团队公布了其前沿混合专家模型DeepSeek-R1和DeepSeek-V3的高效训练方法,通过2,048块Nvidia H800 GPU和FP8等内存优化技术,大幅降低了AI训练成本(来源:DeepSeek_AI Twitter,2024年6月)。这一AI训练效率的提升,将为区块链AI项目降低开发门槛,有望推动去中心化AI协议和AI加密代币的创新,利好相关加密基础设施和公链生态发展。 |