AI 快讯列表关于 Transformer模型
| 时间 | 详情 | 
|---|---|
| 
                                        2025-10-29 17:22  | 
                            
                                 
                                    
                                        PyTorch深度学习专业证书:AI开发者必备的现代神经网络培训课程
                                    
                                     
                            根据Andrew Ng(@AndrewYNg)发布的消息,DeepLearning.AI推出了由Laurence Moroney(@lmoroney)主讲的PyTorch深度学习专业证书课程。该项目包含三门课程,从PyTorch基础知识、张量操作、神经网络训练,到高级模型架构如Transformer和扩散模型的实现,以及ONNX和MLflow等部署技术,全面覆盖了AI开发的关键技能。证书课程强调实用性,涵盖模型优化、超参数调优、迁移学习、视觉与自然语言处理等热门应用,帮助学员掌握将AI模型高效部署到实际业务场景的能力,满足企业对PyTorch人才的迫切需求(来源:@AndrewYNg,DeepLearning.AI,2025-10-29)。  | 
                        
| 
                                        2025-10-13 15:16  | 
                            
                                 
                                    
                                        nanochat发布:Andrej Karpathy推出极简全栈ChatGPT克隆与端到端大语言模型训练管道
                                    
                                     
                            根据Andrej Karpathy(@karpathy)在推特上的信息,nanochat是一个全新开源项目,提供极简、从零开始的全栈训练和推理管道,用于构建类似ChatGPT的大语言模型(LLM)。与只支持预训练的nanoGPT不同,nanochat实现了从预训练、监督微调(SFT)到强化学习(RL)的完整流程,并且代码依赖极少。该管道包括基于Rust的分词器、FineWeb数据预训练、SmolTalk对话中期训练,并覆盖ARC-Easy、MMLU、GSM8K、HumanEval等基准测试。用户只需4小时云GPU训练,即可通过Web UI或命令行界面部署和交互自己的LLM,大幅降低了定制LLM开发门槛。这为AI行业中的快速原型开发、教育和研究工具创造了新的商业机会(来源:@karpathy)。  |