AI 快讯列表关于 大语言模型训练
| 时间 | 详情 | 
|---|---|
| 
                                        2025-10-13 15:16  | 
                            
                                 
                                    
                                        nanochat发布:Andrej Karpathy推出极简全栈ChatGPT克隆与端到端大语言模型训练管道
                                    
                                     
                            根据Andrej Karpathy(@karpathy)在推特上的信息,nanochat是一个全新开源项目,提供极简、从零开始的全栈训练和推理管道,用于构建类似ChatGPT的大语言模型(LLM)。与只支持预训练的nanoGPT不同,nanochat实现了从预训练、监督微调(SFT)到强化学习(RL)的完整流程,并且代码依赖极少。该管道包括基于Rust的分词器、FineWeb数据预训练、SmolTalk对话中期训练,并覆盖ARC-Easy、MMLU、GSM8K、HumanEval等基准测试。用户只需4小时云GPU训练,即可通过Web UI或命令行界面部署和交互自己的LLM,大幅降低了定制LLM开发门槛。这为AI行业中的快速原型开发、教育和研究工具创造了新的商业机会(来源:@karpathy)。  | 
                        
| 
                                        2025-05-31 16:00  | 
                            
                                 
                                    
                                        LLM使用4位FP4精度高效训练:AI模型训练节能新突破
                                    
                                     
                            据DeepLearning.AI报道,研究人员证实大语言模型(LLM)可采用4位FP4浮点精度进行训练,且不会损失准确率。通过将FP4应用于占训练计算95%的矩阵乘法,模型性能与主流的BF16格式相当。这一AI训练新方法极大降低了计算资源和能耗,为企业级AI部署带来显著成本节约和可扩展性。FP4精度的成功应用为硬件与云服务商优化AI工作负载、推动可持续大规模训练带来了新商机(来源:DeepLearning.AI,2025年5月31日)。  |