Place your ads here email us at info@blockchain.news
ElevenLabs 优化 RAG 系统,实现响应速度提高 50% - Blockchain.News

ElevenLabs 优化 RAG 系统,实现响应速度提高 50%

realtime news Aug 23, 2025 20:09

ElevenLabs 已提升其检索增强生成(RAG)系统的性能,将响应时间缩短了 50%,显著改善了 AI 对话代理的性能。

ElevenLabs 优化 RAG 系统,实现响应速度提高 50%

ElevenLabs 公布了其检索增强生成(RAG)系统性能的重要改进,实现了查询生成延迟减少 50%。根据 ElevenLabs,此进展旨在提高对话代理的效率。

挑战:上下文感知查询生成

在对话 AI 领域,RAG 系统对于将对话历史转换为准确反映用户意图的搜索查询至关重要。一个典型的挑战是跨多次交互保持上下文。例如,在客户支持场景中,系统必须理解对先前查询的引用,以生成准确的响应。以前,此过程依赖于单个大型语言模型(LLM),这引发了延迟和可用性问题。

解决方案:并行 LLM 竞速

为了解决这些挑战,ElevenLabs 设计了一个利用多个 LLM 并行运行的系统,实际上是竞速使用第一个成功的响应。此方法结合了具有不同特性的模型,如 Google 的 Gemini 模型和自托管的 Qwen 模型,每个模型在速度和可靠性上各有优势。通过将工作负载分配到不同模型上,ElevenLabs 即使在单个模型经历波动时也能稳定响应时间。

智能超时处理

在没有模型在指定的一秒超时时间内响应的情况下,采用了后备策略,默认使用最近的用户消息进行查询生成。此方法确保了对话顺利进行,优先考虑流程而非完美的查询制定。

结果

优化努力显著改进了各个百分位的响应时间。中位数延迟从 326ms 减少到 155ms,而第 75 和 95 百分位数也有类似的改善。这个新架构不仅提高了速度,也增强了系统的可靠性,如最近的 Gemini 中断期间所示,仍由自托管模型维持无缝运行。

未来展望

ElevenLabs 的创新架构为实时、上下文感知的 AI 应用铺平了道路,特别是在语音 AI 领域。通过实现低于 200ms 的 RAG,ElevenLabs 正为开发响应迅速、高效的对话代理设定新标准。

Image source: Shutterstock