AssemblyAI推出每小时4.50美元的语音代理API - Blockchain.News

AssemblyAI推出每小时4.50美元的语音代理API

realtime news May 15, 2026 16:04

AssemblyAI的语音代理API提供低延迟的语音到语音功能,采用统一定价,针对实时AI语音应用。

AssemblyAI推出每小时4.50美元的语音代理API

AssemblyAI推出了全新的语音代理API,这是一种适用于生产环境的解决方案,用于构建实时语音代理,价格为统一每小时4.50美元。该API将语音转文本、大型语言模型(LLM)路由和语音生成整合到一个连接中,旨在简化企业采用会话式AI的部署过程。这一宣布让AssemblyAI在一个快速发展的市场中站稳脚跟,该市场由OpenAI和SoundHound AI等玩家主导。

基于AssemblyAI的Universal-3 Pro自动语音识别(ASR)系统,语音代理API的端到端延迟约为一秒钟,能够实现无缝、近乎即时的交互。其关键功能包括用于轮流交谈的语音感知语音活动检测(VAD)、基于JSON Schema的工具调用用于后台集成,以及30秒的重连窗口以保证会话连续性。这些功能体现了AssemblyAI专注于为语音驱动的应用提供企业级功能。

2026年,语音代理领域取得了显著进展,尤其是在实时语音到语音处理方面。就在上周,OpenAI推出了自己的语音智能功能,包括用于会话推理和多语言支持的GPT-Realtime-2。同样,SoundHound AI今年早些时候在CES上展示了语音商务功能,突显了语音代理在消费者和企业环境中的日益融合。

AssemblyAI决定以每小时4.50美元的统一定价推出其服务,这与行业内通常使用的按使用量计费模式不同。这种定价方式可能会吸引那些寻求成本可预测性的公司,尤其是对于高流量使用场景如客户支持自动化、虚拟助手和交互式语音响应(IVR)系统来说。作为对比,许多竞争解决方案将电话服务、LLM处理和文本到语音费用捆绑在一起,使用量增加时往往会导致成本不可预测。

语音代理API的架构与会话式AI的更广泛趋势一致。它捕获音频输入,通过流式ASR将语音转录,使用能够推理和调用API工具的LLM进行处理,并合成响应的语音——这一切都在一个统一的实时会话中完成。像JSON Schema工具调用这样的功能使其能够与外部系统(如CRM或库存管理工具)集成,将潜在的使用场景扩展到基础对话之外。

展望未来,随着企业优先考虑全渠道客户互动和运营效率,实时语音AI市场预计将继续增长。通过提供低延迟的交互和捆绑式定价,AssemblyAI可能在寻求可扩展、成本效益高的解决方案的企业中开辟一片市场。然而,随着OpenAI等领先玩家不断发布先进的语音模型,竞争仍将十分激烈。

Image source: Shutterstock