Andrew Ng:推出 vLLM LLM 服务课程
Andrew Ng 与 Red Hat 合作推出 vLLM 课程,涵盖 transformer 模型服务中的 KV cache 内存管理技术和 vLLM LLM 推理引擎的历史与技术架构。
原文链接详细分析
Andrew Ng 与 Red Hat 合作推出高效 LLM 服务短课程,讲解 transformer 模型服务中的 KV cache 内存管理技术 以及 vLLM LLM 推理引擎的历史与技术架构,指出 70B 参数模型仅加载权重就需要约 140 GB 内存,每个并发请求还需额外 GPU 内存用于 KV cache。
Andrew Ng
@AndrewYNgCo-Founder of Coursera; Stanford CS adjunct faculty. Former head of Baidu AI Group/Google Brain.