AI 快讯列表关于 KV缓存
| 时间 | 详情 |
|---|---|
|
2026-04-23 20:09 |
Google 推出 TPU v8i:与 Gemini 联合设计,凭借片上SRAM与KV缓存优化实现超低延迟推理
据 Jeff Dean 在 X 表示,TPU v8i 与 Google 的 Gemini 团队联合设计,通过大量片上SRAM将更多计算留在芯片内,显著减少对HBM的权重与KV缓存访问,从而实现低延迟推理。根据 Jeff Dean 报道,这一内存局部性优化直指Transformer推理瓶颈(注意力KV缓存带宽与时延),可加速逐token生成并降低长尾时延。依照 Jeff Dean 信息,该设计为企业级 Gemini 部署带来更高吞吐与能效比,并改善对实时对话、代码助手与多模态智能体等业务场景的响应性能。 |
|
2026-04-22 20:49 |
LLM推理与传统ML完全不同:9大支柱与72项优化技术深度解析
据Avi Chawla(@_avichawla)在X上的文章与贴文所述,LLM推理采用逐Token自回归生成,单次请求变为数百次顺序前向计算,前置填充阶段受算力瓶颈、解码阶段受显存带宽瓶颈,二者同卡并行会相互干扰。根据Chawla,KV缓存随对话增长并跨请求共享,路由需基于前缀缓存命中而非最空闲副本;MoE模型还引入专家并行,这些都不同于传统模型服务。依据Chawla总结,这推动了面向LLM推理的全新优化栈,覆盖九大支柱与72项技术,包括模型压缩、注意力与KV缓存管理、批处理与并行化、推理解码与路由,以及生产级调度与显存管理。对业务而言,据Chawla,这些方法(如前置/解码分离部署、前缀感知路由、KV分页与淘汰、推测解码、MoE感知负载均衡)可显著降低每Token成本、提升吞吐并满足低延迟SLA,适用于2026年LLM在线服务与企业应用场景。 |
|
2026-04-09 17:11 |
SGLang高效推理课程:文本与图像生成最新实战指南(携手LMSys与RadixArk)
据AndrewYNg在X平台表示,DeepLearning.AI上线“使用SGLang实现高效推理:文本与图像生成”新课程,由LMSys与RadixArk联合打造,并由RadixArk成员Richard Chen授课。根据AndrewYNg披露,课程聚焦生产环境中LLM推理的成本与延迟痛点,涵盖SGLang的内核融合、分页注意力、连续批处理及KV缓存优化等技术,面向文本与图像生成。依AndrewYNg所述,课程强调大规模部署的工程实践与商业价值,包括降低GPU耗时、提升单位成本吞吐量、改善长尾时延,这些都是衡量推理经济性的关键指标。 |
|
2026-04-08 15:31 |
SGLang高效推理课程上线:KV缓存与RadixAttention实战解析
据DeepLearning.AI在Twitter发布的信息,该机构上线“使用SGLang实现高效推理:文本与图像生成”新课程,重点讲解利用KV缓存与RadixAttention削减冗余计算、降低LLM推理成本(来源:DeepLearning.AI 2026年4月8日推文)。据DeepLearning.AI报道,课程展示如何在文本与图像生成中复用Key Value状态以减少重复计算,并通过RadixAttention优化注意力路径,从而降低延迟与显存占用,提升单GPU吞吐。根据DeepLearning.AI,该课程还将方法迁移到视觉与扩散类工作负载,帮助企业在不线性增加硬件的情况下扩容推理服务并压缩单位请求成本。 |
|
2026-01-17 09:51 |
Cache-to-Cache(C2C)突破:LLM无文本直接通信,提升10%准确率,实现2倍速度 | 2024人工智能趋势
根据@godofprompt报道,研究人员开发了Cache-to-Cache(C2C)方法,使大型语言模型(LLM)通过内部KV缓存直接通信,无需生成文本。这项技术在准确率上提升了8.5-10.5%,速度提升至2倍,同时完全避免了令牌浪费(来源:@godofprompt,https://x.com/godofprompt/status/2012462714657132595)。该突破对AI行业应用极具影响力,有助于构建更高效的多智能体系统,降低算力成本,并为实时AI通信、协作智能体与自主决策平台等新型商业模式创造机会。C2C为AI模型互操作性和工作流效率树立了新标准。 |