AI 快讯列表关于 分词器
| 时间 | 详情 |
|---|---|
|
2026-03-27 22:02 |
Apple AToken多模态模型:统一分词器与编码器的最新分析,覆盖图像、视频与3D生成
据DeepLearning.AI在X平台报道,Apple发布AToken多模态模型,采用共享分词器与编码器统一处理并生成图像、视频与3D对象,性能可超越或匹敌专用模型,并实现跨媒介知识迁移。据DeepLearning.AI称,该共享分词机制将视觉、时序与三维几何表征映射到单一token空间,减少模态孤岛并提升样本效率。根据DeepLearning.AI的报道,这一架构通过复用同一编码器可降低多模态推理成本,简化内容生成、视觉语言应用与3D资产流程的训练管线。DeepLearning.AI还指出,Apple给出的早期基准显示其在视频生成与3D重建方面具备竞争力,为开发者在创作工具、AR原型与产品可视化等场景中整合模型栈带来机会。 |
|
2026-02-12 01:19 |
Karpathy 发布 MicroGPT:一页版最小可用 GPT 教程与代码(2026 深度解析)
根据 Andrej Karpathy 在 X 上的说明,他将 MicroGPT 的最小 GPT 教程与代码整理为单页镜像,地址为 karpathy.ai/microgpt.html,便于阅读与分享。依据该页面内容,MicroGPT 提供紧凑的 Transformer 实现、训练循环与分词器要点,帮助工程团队以最少依赖从零构建与调试 GPT 类模型。根据 Karpathy 的发布,此资源可用于教育与快速原型,支持初创公司在小规模环境下验证自定义 LLM、优化推理与训练路径并进行基准测试,然后再扩展到更大模型与数据。 |
|
2026-02-12 01:19 |
Karpathy 推出 MicroGPT:100 行极简 GPT 实现的最新分析与应用指南
根据 Andrej Karpathy 在 Twitter 的说明,他将 MicroGPT 的单页镜像发布在 karpathy.ai/microgpt.html,以便集中展示约 100 行的极简 GPT 实现,便于学习与实验。根据该页面内容,项目涵盖分词、Transformer 模块与训练循环的端到端演示,突出可读性而非极致性能,适合作为教学示例与快速原型基线。依据页面介绍,这为团队提供轻量路径:培训工程师理解最小可行 LLM、快速尝试自定义分词器与小型 Transformer 变体、在 CPU 上做推理基准,并在投入大型模型前进行方案验证。 |