AI 快讯列表关于 nanochat
| 时间 | 详情 |
|---|---|
|
2025-10-21 15:59 |
通过合成数据增强LLM身份:nanochat案例与AI定制化趋势
根据Andrej Karpathy(@karpathy)的分享,nanochat现已具备基本身份,并能自我介绍如型号、价格及语言能力限制,这一切都是通过合成数据生成实现。Karpathy指出,大型语言模型本身并无自我意识或个性,所有特定能力都需通过数据和训练显式注入。他利用更大的LLM生成多样化的合成对话,并将其用于中期训练或微调,赋予模型自定义身份。Karpathy强调生成数据多样性的重要性以防输出重复,并通过脚本展示了如何实现主题和开场白的随机采样。这一方法为企业打造具有独特个性和专业知识的AI助手,带来客户互动和产品差异化的新商机。(来源:x.com/karpathy/status/1980508380860150038) |
|
2025-10-13 15:16 |
nanochat发布:Andrej Karpathy推出极简全栈ChatGPT克隆与端到端大语言模型训练管道
根据Andrej Karpathy(@karpathy)在推特上的信息,nanochat是一个全新开源项目,提供极简、从零开始的全栈训练和推理管道,用于构建类似ChatGPT的大语言模型(LLM)。与只支持预训练的nanoGPT不同,nanochat实现了从预训练、监督微调(SFT)到强化学习(RL)的完整流程,并且代码依赖极少。该管道包括基于Rust的分词器、FineWeb数据预训练、SmolTalk对话中期训练,并覆盖ARC-Easy、MMLU、GSM8K、HumanEval等基准测试。用户只需4小时云GPU训练,即可通过Web UI或命令行界面部署和交互自己的LLM,大幅降低了定制LLM开发门槛。这为AI行业中的快速原型开发、教育和研究工具创造了新的商业机会(来源:@karpathy)。 |