专家混合 AI快讯列表 | Blockchain.News
AI 快讯列表

AI 快讯列表关于 专家混合

时间 详情
2026-04-24
03:24
DeepSeek-V4 预览开源:1M长上下文与49B激活参数Pro版—2026深度分析

据 DeepSeek 在 X(Twitter)发布的信息,DeepSeek-V4 预览版已开源上线,提供具成本优势的 100 万上下文窗口,并包含两款 MoE 变体:DeepSeek-V4-Pro(总参数 1.6T、激活 49B)与 DeepSeek-V4-Flash(总参数 284B、激活 13B)。据 DeepSeek 报道,Pro 版号称性能可媲美头部闭源模型,为企业级长上下文 RAG、全量代码库检索与多模态工作流带来可落地机会。根据 DeepSeek 信息,Flash 版面向低时延与成本敏感场景,同时保持长上下文能力,可用于高并发客服、对话与代理流水线以降低推理成本。DeepSeek 指出,预览开源将缓解厂商锁定,支持本地与主权部署,为合规与数据敏感行业提供实用价值。

2026-04-21
00:35
OpenMythos最新进展:循环Transformer与MoE重构Claude Mythos,验证步数较nanoGPT快2.67倍

据Kye Gomez(@KyeGomezB)在X平台透露,OpenMythos是对Claude Mythos的开源理论重构,采用循环式Transformer与Mixture-of-Experts路由,通过权重共享与稀疏专家激活实现迭代深度,旨在提升效率与多步推理能力(来源:X/Twitter)。据Kye Gomez称,社区小规模训练显示,OpenMythos达到最佳验证所需步数比nanoGPT少2.67倍,早期迹象表明其收敛更快(来源:X/Twitter)。据Kye Gomez介绍,团队正在Hugging Face上使用FineWeb-Edu预训练3B(并探索5B)模型,后续将以GRPO与高质量强化学习数据集进行微调,代码与训练脚本已在GitHub开源(来源:X/Twitter)。据Kye Gomez表示,该项目仍处早期研究阶段,欢迎社区协作以评估循环Transformer与MoE在推理性能和效率权衡上的业务潜力(来源:X/Twitter)。

2026-04-02
16:13
Gemma 4 重磅发布:2B–31B 开源模型全系解析,单位参数智力突出

据 Sundar Pichai 在 X 表示,Gemma 4 作为开源模型家族发布,覆盖 2B、4B、26B MoE 与 31B 稠密四种规模,强调单位参数智力与推理效率。据 Demis Hassabis 在 X 称,这些模型可按任务进行微调,其中 31B 追求原始性能,26B MoE 降低延迟,2B/4B 面向边缘与本地设备部署。根据上述来源,企业可据此构建行业定制助手、以 26B MoE 优化服务成本与延迟、用 31B 稠密提升检索增强与批处理质量,并在移动与嵌入式场景用 2B/4B 实现私有本地推理,扩大 MLOps 集成与商业化落地空间。