FP8 快讯列表

快讯列表

关于 FP8 的快讯列表

时间	详情
2026-02-03 21:49	据@karpathy称：在NVIDIA H100上采用FP8将GPT-2训练时间降至2.91小时成本接近20美元据@karpathy称，在其 nanochat 的GPT-2复现中启用FP8训练，使“time to GPT-2”再降4.3%，单台8卡H100节点用时2.91小时。据@karpathy称，按8卡H100的临时价位一次运行约20美元，而此前3.04小时的运行约73美元，较OpenAI最初的GPT-2训练已实现约600倍成本下降。据@karpathy称，H100上的FP8理论FLOPs为两倍，但实际收益受缩放转换开销、训练并非完全受算力瓶颈以及GPT-2规模下GEMM较小等限制，单步加速约7.3%，综合调整训练步数后净收益约5%。据@karpathy称，torchao报告在Llama3 8B上FP8可达25%加速，提示更大模型或受益更多，他并表示可通过对特定层选择性使用FP8与改进数值稳定性继续提升。据@karpathy称，额外性能提升来自FlashAttention 3、Muon优化器、带可学习门控的残差与跳连以及value embeddings，并已在GitHub提供可复现实验与“time to GPT-2”榜单。来源
2025-06-05 00:00	DeepSeek利用Nvidia H800 GPU高效训练AI模型，推动加密市场AI应用变革据@DeepSeek_AI透露，DeepSeek团队公布了其前沿混合专家模型DeepSeek-R1和DeepSeek-V3的高效训练方法，通过2,048块Nvidia H800 GPU和FP8等内存优化技术，大幅降低了AI训练成本（来源：DeepSeek_AI Twitter，2024年6月）。这一AI训练效率的提升，将为区块链AI项目降低开发门槛，有望推动去中心化AI协议和AI加密代币的创新，利好相关加密基础设施和公链生态发展。来源

时间

详情

2026-02-03
21:49

据@karpathy称：在NVIDIA H100上采用FP8将GPT-2训练时间降至2.91小时成本接近20美元

据@karpathy称，在其 nanochat 的GPT-2复现中启用FP8训练，使“time to GPT-2”再降4.3%，单台8卡H100节点用时2.91小时。据@karpathy称，按8卡H100的临时价位一次运行约20美元，而此前3.04小时的运行约73美元，较OpenAI最初的GPT-2训练已实现约600倍成本下降。据@karpathy称，H100上的FP8理论FLOPs为两倍，但实际收益受缩放转换开销、训练并非完全受算力瓶颈以及GPT-2规模下GEMM较小等限制，单步加速约7.3%，综合调整训练步数后净收益约5%。据@karpathy称，torchao报告在Llama3 8B上FP8可达25%加速，提示更大模型或受益更多，他并表示可通过对特定层选择性使用FP8与改进数值稳定性继续提升。据@karpathy称，额外性能提升来自FlashAttention 3、Muon优化器、带可学习门控的残差与跳连以及value embeddings，并已在GitHub提供可复现实验与“time to GPT-2”榜单。

来源

2025-06-05
00:00

DeepSeek利用Nvidia H800 GPU高效训练AI模型，推动加密市场AI应用变革

据@DeepSeek_AI透露，DeepSeek团队公布了其前沿混合专家模型DeepSeek-R1和DeepSeek-V3的高效训练方法，通过2,048块Nvidia H800 GPU和FP8等内存优化技术，大幅降低了AI训练成本（来源：DeepSeek_AI Twitter，2024年6月）。这一AI训练效率的提升，将为区块链AI项目降低开发门槛，有望推动去中心化AI协议和AI加密代币的创新，利好相关加密基础设施和公链生态发展。

来源