ElevenLabs 发布多模态对话式 AI,增强用户互动
realtime news May 31, 2025 14:07
ElevenLabs 推出了一种多模态 AI 解决方案,能同时处理文本和语音输入,承诺提升互动准确性和用户体验。

根据 ElevenLabs 所述,ElevenLabs 宣布在对话式 AI 技术方面取得了重大进展,推出了一种新的多模态系统。这一尖端发展使 AI 代理能够同时处理语音和文本输入,增强了用户互动的流畅性和效率。
语音单一 AI 的挑战
虽然语音界面提供了一种自然的交流方式,但它们常常会遇到限制,特别是在商业环境中。常见问题包括在捕捉复杂的字母数字数据(如电子邮件地址和 ID)时产生的转录不准确性,这可能导致数据处理中的重大错误。另外,用户在口头提供冗长的数字数据(如信用卡信息)时体验可能会显得繁琐,且易出错。
多模态解决方案:结合文本和语音
通过整合文本和语音功能,ElevenLabs 的新技术允许用户选择最适合其需求的输入方法。这种双重方法确保了更顺畅的沟通,使用户可以无缝地在讲话和打字之间切换。当需要精确性或打字更方便时,这种灵活性尤其有利。
多模态互动的优势
引入多模态界面提供了几个好处:
- 提高互动准确性: 用户可以通过文本输入复杂信息,减少转录错误。
- 增强用户体验: 输入方法的灵活性使互动感觉更加自然,不受限制。
- 提高任务完成率: 减少错误和用户沮丧,导致更成功的结果。
- 自然的对话流: 允许输入类型之间的平滑过渡,模仿人类的互动模式。
新系统的核心功能
多模态 AI 系统具有几个关键功能,包括:
- 同步处理: 实时解释和响应文本和语音输入。
- 易于配置: 简单的设置使小部件配置中能输入文本。
- 仅限文本模式: 传统基于文本的聊天机器人操作选项。
集成和部署
多模态功能完全集成到 ElevenLabs 的平台中,支持:
- 小部件部署: 通过一行 HTML 易于部署。
- SDKs: 完全支持寻求深度集成的开发者。
- WebSocket: 启用具有多模态能力的实时双向通信。
增强平台能力
新的多模态能力建立在 ElevenLabs 现有的 AI 平台之上,包括:
- 行业领先的语音: 提供 32 多种语言的高质量语音。
- 先进的语音模型: 使用最先进的语音转文本和文本转语音技术。
- 全球基础设施: 使用 Twilio 和 SIP 中继基础设施进行广泛访问部署。
ElevenLabs 的多模态 AI 代表了对话技术的重大飞跃,有望提升 AI 互动的准确性和用户体验。这一创新有望通过允许用户与 AI 代理之间进行更自然和有效的沟通,从而造福多种行业。
Image source: Shutterstock