xAI 推出 Grok 语音 API,价格比竞争对手低 60%
realtime news Apr 18, 2026 01:02
埃隆·马斯克的 xAI 推出了 Grok 语音转文本和文本转语音 API,价格为每小时 0.10 美元,声称在企业转录基准测试中拥有最低错误率。
埃隆·马斯克的 xAI 于 4 月 17 日发布了两个独立的音频 API,将 Grok 的语音技术定位为 ElevenLabs、Deepgram 和 AssemblyAI 的直接竞争对手,并以极具竞争力的价格抢占市场。
Grok 语音转文本 API 的批量处理费用为每小时 0.10 美元,实时流式传输收费为每小时 0.20 美元。文本转语音按 100 万字符收费 4.20 美元。两者均使用为特斯拉车辆和 Starlink 客户支持提供动力的相同基础设施。
基准测试声称值得仔细审视
xAI 发布的单词错误率显示了一个有趣的情况。在电话通话实体识别(如姓名、账户号码、日期)方面,Grok STT 声称错误率为 5.0%,而 ElevenLabs 为 12.0%,Deepgram 为 13.5%,AssemblyAI 为 21.3%。如果在实际生产中成立,这将是一个显著的差距。
公司用一个棘手的测试案例展示了这一点:转录威尔士名字,如“Anghared Llewelyn Bowen”和“Oisin MacGiolla Phadraig”,以及抵押细节。Grok 完美完成,没有任何错误。而竞争模型在发音和日期格式化上表现不佳。
在视频和播客转录中,竞争更为激烈——Grok 和 ElevenLabs 的错误率并列为 2.4%,Deepgram 和 AssemblyAI 略微落后,为 3.0% 和 3.2%。
面向开发者的技术功能
除了基础的转录功能外,xAI 还内置了企业客户实际需要的功能:单词级别的时间戳、跨多个音频通道的说话人分离,以及支持 25 多种语言的无缝切换。
反向文本规范化功能会自动将口语中的数字、日期和货币转换为正确的格式。“四一四五五五一二三四”会变成一个电话号码。“六块九毛九”会变成 $6.99。这些小细节省去了后期处理的麻烦。
文本转语音包含用于韵律控制的内联标签——低语、笑声、叹气、强调、节奏调整。开发者可以在不需要复杂音频标记的情况下注入情感细节。
战略背景
此次发布是在 xAI 于 2025 年 3 月收购 X Corp 之后的最新动作,公司目前正扩大其基础设施合作伙伴关系。就在 API 发布的前两天,有报道称 xAI 计划为 AI 驱动的编码初创公司 Cursor 提供计算能力。
自 2024 年 12 月投入运营以来,Colossus 超级计算机提供了强大的后端支持。xAI 似乎正在通过多个垂直领域(企业 AI、开发者工具以及现在的语音 API)将其计算能力货币化。
对于构建语音代理或转录工具的开发者来说,这一价格远低于现有的竞争对手。Grok 的准确性声明是否能在大规模实际部署中经得起考验仍是悬而未决的问题。准备测试的用户可以通过 xAI 的 API 控制台获取文档和速率限制。
Image source: Shutterstock