OpenMythos最新进展:循环Transformer与MoE重构Claude Mythos,验证步数较nanoGPT快2.67倍
据Kye Gomez(@KyeGomezB)在X平台透露,OpenMythos是对Claude Mythos的开源理论重构,采用循环式Transformer与Mixture-of-Experts路由,通过权重共享与稀疏专家激活实现迭代深度,旨在提升效率与多步推理能力(来源:X/Twitter)。据Kye Gomez称,社区小规模训练显示,OpenMythos达到最佳验证所需步数比nanoGPT少2.67倍,早期迹象表明其收敛更快(来源:X/Twitter)。据Kye Gomez介绍,团队正在Hugging Face上使用FineWeb-Edu预训练3B(并探索5B)模型,后续将以GRPO与高质量强化学习数据集进行微调,代码与训练脚本已在GitHub开源(来源:X/Twitter)。据Kye Gomez表示,该项目仍处早期研究阶段,欢迎社区协作以评估循环Transformer与MoE在推理性能和效率权衡上的业务潜力(来源:X/Twitter)。
原文链接详细分析
在人工智能研究社区的一个突破性发展中,Swarms创始人Kye Gomez于2026年4月21日在Twitter上宣布推出OpenMythos,这是一个开源的理论重建,假设这是Anthropic的Claude模型背后的架构,具体称为Mythos。该项目在PyTorch中实现了循环变压器架构,并集成了专家混合(MoE)路由机制,旨在通过权重共享和条件计算实现迭代深度。根据Gomez的帖子,该倡议处于早期阶段,计划在Hugging Face托管的FineWeb-Edu数据集上训练一个30亿参数模型,并可能有一个50亿版本。团队打算记录发现并公开发布模型,随后使用GRPO技术和高质量强化学习数据集进行微调。一位社区成员的初步训练运行显示,OpenMythos在比nanoGPT少2.67倍的步骤中达到了最佳验证,这突显了潜在的效率提升。这种社区驱动的努力通过GitHub邀请贡献,强调对循环变压器在推理任务中性能的实验观察。随着AI模型的演变,此类开源重建可能使先进架构民主化,促进多步推理和高效计算的创新。
OpenMythos的商业影响深远,特别是对于寻求成本效益AI解决方案的初创企业和企业。通过开源循环变压器与MoE,该项目解决了扩展AI模型的关键挑战,如计算开销。根据麦肯锡2023年报告,到2030年,AI在企业的采用可能为全球GDP增加高达13万亿美元,而高效架构如MoE在降低训练成本中发挥关键作用。OpenMythos的方法假设递归块应用用于 emergent 推理,与2021年谷歌Switch Transformer中的趋势一致,后者展示了MoE在保持效率的同时扩展参数的能力。对于金融和医疗保健等行业,这可能意味着更快部署AI用于复杂任务,如预测分析或诊断工具,而无需专有依赖。市场机会包括通过咨询服务或集成到Hugging Face模型中心来货币化微调版本,后者截至2024年共享了超过50万个模型。然而,实现挑战持续存在,包括像FineWeb-Edu数据集的数据质量保证,该数据集根据Hugging Face 2024年发布包含15万亿个用于教育内容的令牌。解决方案涉及社区验证和迭代微调以减轻偏差。
从竞争格局来看,OpenMythos将自己定位于Anthropic和OpenAI等巨头,后者的封闭模型截至2026年主导市场。主要参与者如Meta的Llama系列和Mistral AI已经推进了开源MoE模型,Mistral的Mixtral 8x7B从2023年12月实现了MMLU基准上的最先进性能。Gomez的项目在此基础上融入循环机制,可能增强推理,如DeepMind 2022年论文中对链式思维提示的探索。监管考虑至关重要;欧盟AI法案从2024年生效,要求高风险AI的透明度,此类开源努力自然支持。伦理上,促进可访问AI减少了看门人,但引发了滥用担忧,倡导在微调期间的稳健安全对齐最佳实践。预测表明,到2028年,循环架构可能将推理时间减少30%,基于类似模型的效率趋势。
展望未来,OpenMythos可能通过加速高效、推理能力模型的研究来重塑AI的未来。其开源性质邀请全球合作,可能导致自主代理或个性化教育工具的突破。对于企业,这转化为在利基市场定制模型的机会,通过高级数据集或企业支持进行货币化。行业影响跨越领域;在运输中,增强推理可能优化物流,而在电子商务中,它启用复杂的推荐系统。实际应用包括通过Hugging Face等平台的API集成到现有工作流程中,后者的采用率在2025年同比增长40%。训练50亿模型的硬件要求等挑战强调了云伙伴关系的需求,但解决方案通过分布式计算出现。总体而言,该项目体现了向协作AI发展的转变,承诺一个更具包容性的生态系统,并带有伦理保障。正如Gomez所指出的,持续改进和社区输入将完善架构,为可扩展、高效的AI铺平道路,推动经济价值。
OpenMythos的商业影响深远,特别是对于寻求成本效益AI解决方案的初创企业和企业。通过开源循环变压器与MoE,该项目解决了扩展AI模型的关键挑战,如计算开销。根据麦肯锡2023年报告,到2030年,AI在企业的采用可能为全球GDP增加高达13万亿美元,而高效架构如MoE在降低训练成本中发挥关键作用。OpenMythos的方法假设递归块应用用于 emergent 推理,与2021年谷歌Switch Transformer中的趋势一致,后者展示了MoE在保持效率的同时扩展参数的能力。对于金融和医疗保健等行业,这可能意味着更快部署AI用于复杂任务,如预测分析或诊断工具,而无需专有依赖。市场机会包括通过咨询服务或集成到Hugging Face模型中心来货币化微调版本,后者截至2024年共享了超过50万个模型。然而,实现挑战持续存在,包括像FineWeb-Edu数据集的数据质量保证,该数据集根据Hugging Face 2024年发布包含15万亿个用于教育内容的令牌。解决方案涉及社区验证和迭代微调以减轻偏差。
从竞争格局来看,OpenMythos将自己定位于Anthropic和OpenAI等巨头,后者的封闭模型截至2026年主导市场。主要参与者如Meta的Llama系列和Mistral AI已经推进了开源MoE模型,Mistral的Mixtral 8x7B从2023年12月实现了MMLU基准上的最先进性能。Gomez的项目在此基础上融入循环机制,可能增强推理,如DeepMind 2022年论文中对链式思维提示的探索。监管考虑至关重要;欧盟AI法案从2024年生效,要求高风险AI的透明度,此类开源努力自然支持。伦理上,促进可访问AI减少了看门人,但引发了滥用担忧,倡导在微调期间的稳健安全对齐最佳实践。预测表明,到2028年,循环架构可能将推理时间减少30%,基于类似模型的效率趋势。
展望未来,OpenMythos可能通过加速高效、推理能力模型的研究来重塑AI的未来。其开源性质邀请全球合作,可能导致自主代理或个性化教育工具的突破。对于企业,这转化为在利基市场定制模型的机会,通过高级数据集或企业支持进行货币化。行业影响跨越领域;在运输中,增强推理可能优化物流,而在电子商务中,它启用复杂的推荐系统。实际应用包括通过Hugging Face等平台的API集成到现有工作流程中,后者的采用率在2025年同比增长40%。训练50亿模型的硬件要求等挑战强调了云伙伴关系的需求,但解决方案通过分布式计算出现。总体而言,该项目体现了向协作AI发展的转变,承诺一个更具包容性的生态系统,并带有伦理保障。正如Gomez所指出的,持续改进和社区输入将完善架构,为可扩展、高效的AI铺平道路,推动经济价值。
Kye Gomez (swarms)
@KyeGomezBResearching Multi-Agent Collaboration, Multi-Modal Models, Mamba/SSM models, reasoning, and more