ElevenLabs推出音频标签以增强AI语音表现

ElevenLabs推出音频标签以增强AI语音表现 - Blockchain.News

ElevenLabs在其v3更新中推出了一项高级功能，称为音频标签，旨在通过增加情境感知来增强AI生成的语音。根据ElevenLabs的说法，这一发展使用户不仅可以控制AI语音的内容，还可以控制其传递方式。这些标签的整合可以通过调整语气、情感和节奏显著提高AI驱动对话的自然性。

将讲述转变为表演

音频标签的引入使AI能够表演而不仅仅是阅读。例如，在足球比赛的精彩片段视频中，AI可以随着动作提高其强度：“他越过一名防守队员——[激动]传中来了——[大喊]进球！ ”同样，在有声书中，可以通过[低语]或[停顿]等标签来增强悬念。

音频标签提供各种情感和物理提示，例如：

将这些标签进行叠加增加了AI表演的深度，允许细致的传递，能显著改变内容的感知情感和影响。

Eleven v3对这些标签的支持由更深层次的上下文模型提供支持，可以在一行中动态改变语气并在保持自然流畅的情况下管理中断。这一改进为声优设计师、游戏开发者和故事讲述者提供了新的创作控制水平，使他们从单纯的编写者转变为AI表演的导演。

目前，专业语音克隆（PVC）未完全为Eleven v3优化，可能导致与以前的模型相比质量较低。在这一研究预览阶段，建议使用即时语音克隆（IVC）或设计的声音来充分利用第三版的新功能。预计在不久的将来可进行PVC的优化。

有关此开发的更多见解，请访问ElevenLabs官方博客。

Image source: Shutterstock