ElevenLabs推出用于实时人机交互的AI模型

ElevenLabs宣布了一套先进的交互模型，旨在实现人与AI之间的实时自然交流。该公司的旗舰产品ElevenAgents与v3 Conversational专注于提供亚秒级响应时间、动态轮流对话和富有表现力的语音，为对话式AI系统设立了新标杆。ElevenAgents的一位语音代理Amanda展示了这些功能，在不到两分钟内解决了一位陷入困境的客户关于紧急贷款的咨询。

不同于传统的聊天机器人，这些通常依赖于回合制交互，ElevenLabs的模型无缝支持音频、视频和文本之间的操作。一项重要的创新是其低于100毫秒的响应时间，这得益于Flash v2.5文本到语音（TTS）模型，在内部基准测试中实现了75毫秒的推理时间。对于电话应用程序，端到端的延迟目标是低于200毫秒，尽管这取决于诸如网络位置和终端类型等因素。

成功的三大支柱

创建一个高效的交互系统需要三个关键组件：快速响应时间、复杂的轮流对话和富有表现力的交付。ElevenLabs已设计出能够自然处理打断的解决方案。其轮流对话模型不仅考虑停顿，还分析对话上下文以避免突然的打断。富有表现力的交付是另一个基石，确保AI以适当的语气和情感响应，实时适应用户需求。

关键模型与功能

ElevenLabs推出了几款支持这些功能的重要产品：

Eleven v3文本到语音：一款高度富有表现力的TTS模型，能够实现细腻的交付，包括笑声、叹息和语调变化。
Eleven v3 Conversational：为实时交互设计的模型，集成了内置的轮流对话和预测性响应生成功能，以减少延迟。
Flash v2.5：ElevenLabs产品阵容中最快的TTS模型，专为低延迟应用优化。
Scribe v2：一款语音转文本模型，以行业领先的准确性著称。
表现力模式：允许代理使用诸如[laughs]、[whispers]和[sighs]等表现性标签，以使交付与对话上下文相符。

预测性轮流对话是v3 Conversational的一项特别创新。通过在用户保持沉默时预触发大型语言模型（LLM）的响应，它最大限度地减少了感知延迟并增强了对话流畅性。

展望未来

通过这些进步，ElevenLabs将自己定位为实时AI通信的领导者。低于100毫秒的响应时间和自然的交互机制可能会重新定义企业在客户服务、医疗保健等领域部署对话式AI的方式。随着ElevenLabs持续优化其模型，推动人机交互的可能性边界，更多更新值得期待。

Image source: Shutterstock

Bookmark

ElevenLabs推出用于实时人机交互的AI模型

成功的三大支柱

关键模型与功能

展望未来

Premium Sponsors

Flash News