ElevenLabs推出用于实时人机交互的AI模型 - Blockchain.News

ElevenLabs推出用于实时人机交互的AI模型

realtime news May 12, 2026 18:53

ElevenLabs推出先进的AI交互模型,包括低于100毫秒的响应时间、轮流对话和富有表现力的交付,以实现自然交流。

ElevenLabs推出用于实时人机交互的AI模型

ElevenLabs宣布了一套先进的交互模型,旨在实现人与AI之间的实时自然交流。该公司的旗舰产品ElevenAgents与v3 Conversational专注于提供亚秒级响应时间、动态轮流对话和富有表现力的语音,为对话式AI系统设立了新标杆。ElevenAgents的一位语音代理Amanda展示了这些功能,在不到两分钟内解决了一位陷入困境的客户关于紧急贷款的咨询。

不同于传统的聊天机器人,这些通常依赖于回合制交互,ElevenLabs的模型无缝支持音频、视频和文本之间的操作。一项重要的创新是其低于100毫秒的响应时间,这得益于Flash v2.5文本到语音(TTS)模型,在内部基准测试中实现了75毫秒的推理时间。对于电话应用程序,端到端的延迟目标是低于200毫秒,尽管这取决于诸如网络位置和终端类型等因素。

成功的三大支柱

创建一个高效的交互系统需要三个关键组件:快速响应时间、复杂的轮流对话和富有表现力的交付。ElevenLabs已设计出能够自然处理打断的解决方案。其轮流对话模型不仅考虑停顿,还分析对话上下文以避免突然的打断。富有表现力的交付是另一个基石,确保AI以适当的语气和情感响应,实时适应用户需求。

关键模型与功能

ElevenLabs推出了几款支持这些功能的重要产品:

  • Eleven v3文本到语音:一款高度富有表现力的TTS模型,能够实现细腻的交付,包括笑声、叹息和语调变化。
  • Eleven v3 Conversational:为实时交互设计的模型,集成了内置的轮流对话和预测性响应生成功能,以减少延迟。
  • Flash v2.5:ElevenLabs产品阵容中最快的TTS模型,专为低延迟应用优化。
  • Scribe v2:一款语音转文本模型,以行业领先的准确性著称。
  • 表现力模式:允许代理使用诸如[laughs]、[whispers]和[sighs]等表现性标签,以使交付与对话上下文相符。

预测性轮流对话是v3 Conversational的一项特别创新。通过在用户保持沉默时预触发大型语言模型(LLM)的响应,它最大限度地减少了感知延迟并增强了对话流畅性。

展望未来

通过这些进步,ElevenLabs将自己定位为实时AI通信的领导者。低于100毫秒的响应时间和自然的交互机制可能会重新定义企业在客户服务、医疗保健等领域部署对话式AI的方式。随着ElevenLabs持续优化其模型,推动人机交互的可能性边界,更多更新值得期待。

Image source: Shutterstock