AI 快讯列表关于 MoE
| 时间 | 详情 |
|---|---|
|
2026-04-22 20:49 |
LLM推理与传统ML完全不同:9大支柱与72项优化技术深度解析
据Avi Chawla(@_avichawla)在X上的文章与贴文所述,LLM推理采用逐Token自回归生成,单次请求变为数百次顺序前向计算,前置填充阶段受算力瓶颈、解码阶段受显存带宽瓶颈,二者同卡并行会相互干扰。根据Chawla,KV缓存随对话增长并跨请求共享,路由需基于前缀缓存命中而非最空闲副本;MoE模型还引入专家并行,这些都不同于传统模型服务。依据Chawla总结,这推动了面向LLM推理的全新优化栈,覆盖九大支柱与72项技术,包括模型压缩、注意力与KV缓存管理、批处理与并行化、推理解码与路由,以及生产级调度与显存管理。对业务而言,据Chawla,这些方法(如前置/解码分离部署、前缀感知路由、KV分页与淘汰、推测解码、MoE感知负载均衡)可显著降低每Token成本、提升吞吐并满足低延迟SLA,适用于2026年LLM在线服务与企业应用场景。 |
|
2026-04-12 16:53 |
DeepSeek V4 重磅分析:万亿参数MoE、百万Token上下文、昇腾950PR全链路支持与35倍推理提速
根据 God of Prompt 在X上的转述(来源引用@向向103),DeepSeek V4 预计于2026年4月下旬发布,采用万亿参数MoE架构,推理激活约370亿参数,声称推理速度提升35倍、能耗降低40%,并提供100万Token无损上下文与原生多模态(文本、图像、视频、音频)(来源:God of Prompt 在X的贴文引用@向向103)。据该来源称,V4 在华为昇腾950PR上实现训练与推理全链路适配,算力利用率约85%,部署成本为英伟达方案的三分之一,且推理成本约为GPT4的七十分之一,这对高吞吐企业应用的总体拥有成本优化具有显著意义(来源:God of Prompt 在X的贴文)。同一贴文还称其基准成绩包括 AIME 2026 达99.4%、MMLU 92.8%、SWE Bench 83.7%、HumanEval 90%,并支持338种编程语言,同时引入自研 mHC 架构与 Engram 记忆模块以进一步降低推理成本(来源:God of Prompt 在X的贴文引用@向向103)。按照该发布计划,官方已上线网页端快速与专家模式、API兼容OpenAI格式并向新用户赠送500万免费Token,且计划开源权重与支持本地部署;若上述信息得到官方证实,企业可在多语言编程助手、百万Token级RAG知识库、以及低成本视频音频多模态代理等场景抓住商机(来源:God of Prompt 在X的贴文引用@向向103)。 |
|
2026-01-03 12:47 |
专家混合模型(MoE)推动模块化AI训练策略,实现可扩展组合式智能
据@godofprompt报道,专家混合模型(MoE)不仅降低算力消耗,还为AI行业带来了全新的训练策略。MoE架构支持在训练过程中动态添加新专家,提升模型新能力,能够在不需整体重训的前提下替换表现不佳的专家模块,并可针对特定数据微调单一专家。这种模块化设计推动了组合式智能的发展,为企业构建可扩展、可定制的AI系统提供了新的商业机会。企业可通过MoE实现高效资源分配、快速迭代与针对性优化,满足各行业对灵活AI解决方案的需求(来源:@godofprompt,2026年1月3日)。 |
|
2026-01-03 12:46 |
Mixture of Experts(MoE)技术推动万亿参数AI模型,颠覆传统大型语言模型
根据God of Prompt(@godofprompt)在Twitter上的消息,Mixture of Experts(MoE)是一项1991年提出的技术,目前已成为训练万亿参数AI模型的核心架构。MoE通过仅激活部分专家网络,极大降低了推理时的计算成本,加速了开源大型语言模型的训练与部署。该技术不仅提升了模型性能,还为企业提供了可扩展、经济高效的AI解决方案,正在推动传统大型语言模型(LLM)架构的变革,对开源和商业AI市场产生深远影响。(来源:God of Prompt,Twitter) |