QVAC:TurboQuant 实现设备上下文 5 倍提升
QVAC SDK 更新采用 TurboQuant KV 缓存压缩,在 AMD 和 NVIDIA GPU 上实现 5 倍上下文,无需重新训练。
原文链接详细分析
QVAC SDK 通过 TurboQuant 算法将设备上下文容量提升至 5 倍,该算法源自 Google Research ICLR 2026 论文。PolarQuant 将 KV 向量转为极坐标实现 3-4 位角度压缩,QJL 再用 1 位 Johnson-Lindenstrauss 校正,总量化精度达到每值 4-5 位且无需重新训练或校准。QVAC 已将方法移植到 qvac-fabric-llm.cpp 的 Vulkan 层,目前支持 AMD 与 NVIDIA GPU,iOS、Android 及 Apple Silicon 支持即将推出。
Paolo Ardoino
@paoloardoinoPaolo Ardoino is the CEO of Tether (issuer of USDT), CTO of Bitfinex,