专家混合 AI快讯列表

时间	详情
2026-05-21 12:45	Claude Mythos剖析揭示JAX与MoE细节据KyeGomezB称，线索指向JAX、精度设置、MoE变体与基础设施痕迹。原文链接
2026-04-24 03:24	DeepSeek-V4 预览开源：1M长上下文与49B激活参数Pro版—2026深度分析据 DeepSeek 在 X（Twitter）发布的信息，DeepSeek-V4 预览版已开源上线，提供具成本优势的 100 万上下文窗口，并包含两款 MoE 变体：DeepSeek-V4-Pro（总参数 1.6T、激活 49B）与 DeepSeek-V4-Flash（总参数 284B、激活 13B）。据 DeepSeek 报道，Pro 版号称性能可媲美头部闭源模型，为企业级长上下文 RAG、全量代码库检索与多模态工作流带来可落地机会。根据 DeepSeek 信息，Flash 版面向低时延与成本敏感场景，同时保持长上下文能力，可用于高并发客服、对话与代理流水线以降低推理成本。DeepSeek 指出，预览开源将缓解厂商锁定，支持本地与主权部署，为合规与数据敏感行业提供实用价值。原文链接
2026-04-21 00:35	OpenMythos最新进展：循环Transformer与MoE重构Claude Mythos，验证步数较nanoGPT快2.67倍据Kye Gomez（@KyeGomezB）在X平台透露，OpenMythos是对Claude Mythos的开源理论重构，采用循环式Transformer与Mixture-of-Experts路由，通过权重共享与稀疏专家激活实现迭代深度，旨在提升效率与多步推理能力（来源：X/Twitter）。据Kye Gomez称，社区小规模训练显示，OpenMythos达到最佳验证所需步数比nanoGPT少2.67倍，早期迹象表明其收敛更快（来源：X/Twitter）。据Kye Gomez介绍，团队正在Hugging Face上使用FineWeb-Edu预训练3B（并探索5B）模型，后续将以GRPO与高质量强化学习数据集进行微调，代码与训练脚本已在GitHub开源（来源：X/Twitter）。据Kye Gomez表示，该项目仍处早期研究阶段，欢迎社区协作以评估循环Transformer与MoE在推理性能和效率权衡上的业务潜力（来源：X/Twitter）。原文链接
2026-04-02 16:13	Gemma 4 重磅发布：2B–31B 开源模型全系解析，单位参数智力突出据 Sundar Pichai 在 X 表示，Gemma 4 作为开源模型家族发布，覆盖 2B、4B、26B MoE 与 31B 稠密四种规模，强调单位参数智力与推理效率。据 Demis Hassabis 在 X 称，这些模型可按任务进行微调，其中 31B 追求原始性能，26B MoE 降低延迟，2B/4B 面向边缘与本地设备部署。根据上述来源，企业可据此构建行业定制助手、以 26B MoE 优化服务成本与延迟、用 31B 稠密提升检索增强与批处理质量，并在移动与嵌入式场景用 2B/4B 实现私有本地推理，扩大 MLOps 集成与商业化落地空间。原文链接

2026-05-21
12:45

据KyeGomezB称，线索指向JAX、精度设置、MoE变体与基础设施痕迹。

2026-04-24
03:24

DeepSeek-V4 预览开源：1M长上下文与49B激活参数Pro版—2026深度分析

据 DeepSeek 在 X（Twitter）发布的信息，DeepSeek-V4 预览版已开源上线，提供具成本优势的 100 万上下文窗口，并包含两款 MoE 变体：DeepSeek-V4-Pro（总参数 1.6T、激活 49B）与 DeepSeek-V4-Flash（总参数 284B、激活 13B）。据 DeepSeek 报道，Pro 版号称性能可媲美头部闭源模型，为企业级长上下文 RAG、全量代码库检索与多模态工作流带来可落地机会。根据 DeepSeek 信息，Flash 版面向低时延与成本敏感场景，同时保持长上下文能力，可用于高并发客服、对话与代理流水线以降低推理成本。DeepSeek 指出，预览开源将缓解厂商锁定，支持本地与主权部署，为合规与数据敏感行业提供实用价值。

原文链接

2026-04-21
00:35

据Kye Gomez（@KyeGomezB）在X平台透露，OpenMythos是对Claude Mythos的开源理论重构，采用循环式Transformer与Mixture-of-Experts路由，通过权重共享与稀疏专家激活实现迭代深度，旨在提升效率与多步推理能力（来源：X/Twitter）。据Kye Gomez称，社区小规模训练显示，OpenMythos达到最佳验证所需步数比nanoGPT少2.67倍，早期迹象表明其收敛更快（来源：X/Twitter）。据Kye Gomez介绍，团队正在Hugging Face上使用FineWeb-Edu预训练3B（并探索5B）模型，后续将以GRPO与高质量强化学习数据集进行微调，代码与训练脚本已在GitHub开源（来源：X/Twitter）。据Kye Gomez表示，该项目仍处早期研究阶段，欢迎社区协作以评估循环Transformer与MoE在推理性能和效率权衡上的业务潜力（来源：X/Twitter）。

原文链接

2026-04-02
16:13

Gemma 4 重磅发布：2B–31B 开源模型全系解析，单位参数智力突出

据 Sundar Pichai 在 X 表示，Gemma 4 作为开源模型家族发布，覆盖 2B、4B、26B MoE 与 31B 稠密四种规模，强调单位参数智力与推理效率。据 Demis Hassabis 在 X 称，这些模型可按任务进行微调，其中 31B 追求原始性能，26B MoE 降低延迟，2B/4B 面向边缘与本地设备部署。根据上述来源，企业可据此构建行业定制助手、以 26B MoE 优化服务成本与延迟、用 31B 稠密提升检索增强与批处理质量，并在移动与嵌入式场景用 2B/4B 实现私有本地推理，扩大 MLOps 集成与商业化落地空间。

原文链接

AI 快讯列表关于 专家混合

AI 快讯列表关于专家混合