ElevenLabs 优化 RAG 系统，实现响应速度提高 50%

ElevenLabs 优化 RAG 系统，实现响应速度提高 50% - Blockchain.News

ElevenLabs 公布了其检索增强生成（RAG）系统性能的重要改进，实现了查询生成延迟减少 50%。根据 ElevenLabs，此进展旨在提高对话代理的效率。

挑战：上下文感知查询生成

在对话 AI 领域，RAG 系统对于将对话历史转换为准确反映用户意图的搜索查询至关重要。一个典型的挑战是跨多次交互保持上下文。例如，在客户支持场景中，系统必须理解对先前查询的引用，以生成准确的响应。以前，此过程依赖于单个大型语言模型（LLM），这引发了延迟和可用性问题。

解决方案：并行 LLM 竞速

为了解决这些挑战，ElevenLabs 设计了一个利用多个 LLM 并行运行的系统，实际上是竞速使用第一个成功的响应。此方法结合了具有不同特性的模型，如 Google 的 Gemini 模型和自托管的 Qwen 模型，每个模型在速度和可靠性上各有优势。通过将工作负载分配到不同模型上，ElevenLabs 即使在单个模型经历波动时也能稳定响应时间。

智能超时处理

在没有模型在指定的一秒超时时间内响应的情况下，采用了后备策略，默认使用最近的用户消息进行查询生成。此方法确保了对话顺利进行，优先考虑流程而非完美的查询制定。

结果

优化努力显著改进了各个百分位的响应时间。中位数延迟从 326ms 减少到 155ms，而第 75 和 95 百分位数也有类似的改善。这个新架构不仅提高了速度，也增强了系统的可靠性，如最近的 Gemini 中断期间所示，仍由自托管模型维持无缝运行。

未来展望

ElevenLabs 的创新架构为实时、上下文感知的 AI 应用铺平了道路，特别是在语音 AI 领域。通过实现低于 200ms 的 RAG，ElevenLabs 正为开发响应迅速、高效的对话代理设定新标准。

Image source: Shutterstock

ElevenLabs 优化 RAG 系统，实现响应速度提高 50%

挑战：上下文感知查询生成

解决方案：并行 LLM 竞速

智能超时处理

结果

未来展望

Premium Sponsors

Flash News