SRAM AI快讯列表 | Blockchain.News
AI 快讯列表

AI 快讯列表关于 SRAM

时间 详情
08:07
最新分析:注意力在SRAM与HBM间搬运大矩阵的机制与瓶颈

据Twitter用户@_avichawla指出,Transformer的注意力在计算QK乘积与softmax时,会将大矩阵在片上SRAM与HBM之间反复搬运,层层重复,造成显著的内存带宽压力。依据该帖,Q与K先分发到线程并行计算,QK结果回写HBM;softmax阶段再次分发、计算并回写HBM。该模式暴露的瓶颈意味着内核级优化(如FlashAttention、融合注意力、重计算感知切块)以及硬件策略(更大SRAM、更高效张量核心利用、近存计算)具有商业价值。同时,该来源提示,IO感知注意力、KV缓存压缩与序列并行化可显著降低LLM推理与训练的时延与成本。

08:07
FlashAttention 突破:基于SRAM缓存的注意力实现最高7.6倍加速——2026大型模型推理分析

根据 @_avichawla 在 Twitter 的介绍,FlashAttention 通过在芯片上使用SRAM缓存中间结果,减少对HBM的冗余读写,相比标准注意力可实现最高7.6倍加速。根据 Dao 等人的 FlashAttention 论文(斯坦福)报道,其面向IO的分块算法将QKV保留在快速SRAM中,缓解内存带宽瓶颈并提升GPU吞吐。依据论文基准结果,FlashAttention 加速Transformer训练与推理,在生产环境中带来更低时延、更高每秒生成token数及更低单token成本。对企业而言,这有助于优化RAG检索生成流程、提升流式回复体验,并在不牺牲精度的前提下提高GPU利用率,以上信息均据原论文与工程说明所述。

08:07
GPU线程与块深度解析:SRAM与HBM内存层级助力AI训练提速(2026权威解读)

据X用户@_avichawla所述,线程是最小执行单元,多线程构成块;同一块内线程共享快速但稀缺的片上SRAM,而所有块共享容量充足但较慢的全局HBM;据该帖指出,理解此层级可通过共享内存分块、减少全局内存访问来优化AI内核并提升吞吐。根据英伟达开发者文档的行业做法,将重复访问的张量放入共享内存可减少HBM读取并提升占用率,实测适用于Transformer注意力与卷积等工作负载;业内报道还显示,通过将线程块与数据tile对齐并实现HBM合并访问,可在生产级ML流程中获得更高有效带宽与更低延迟。

2026-04-23
20:09
Google 推出 TPU v8i:与 Gemini 联合设计,凭借片上SRAM与KV缓存优化实现超低延迟推理

据 Jeff Dean 在 X 表示,TPU v8i 与 Google 的 Gemini 团队联合设计,通过大量片上SRAM将更多计算留在芯片内,显著减少对HBM的权重与KV缓存访问,从而实现低延迟推理。根据 Jeff Dean 报道,这一内存局部性优化直指Transformer推理瓶颈(注意力KV缓存带宽与时延),可加速逐token生成并降低长尾时延。依照 Jeff Dean 信息,该设计为企业级 Gemini 部署带来更高吞吐与能效比,并改善对实时对话、代码助手与多模态智能体等业务场景的响应性能。