Place your ads here email us at info@blockchain.news
NEW
ElevenLabs推出音频标签以增强AI语音表现 - Blockchain.News

ElevenLabs推出音频标签以增强AI语音表现

realtime news Jun 10, 2025 05:32

ElevenLabs在其v3更新中引入音频标签,使AI能通过情境感知来调整语音。通过增强语气、情感和节奏,使对话更加自然和动态。

ElevenLabs推出音频标签以增强AI语音表现

ElevenLabs在其v3更新中推出了一项高级功能,称为音频标签,旨在通过增加情境感知来增强AI生成的语音。根据ElevenLabs的说法,这一发展使用户不仅可以控制AI语音的内容,还可以控制其传递方式。这些标签的整合可以通过调整语气、情感和节奏显著提高AI驱动对话的自然性。

将讲述转变为表演

音频标签的引入使AI能够表演而不仅仅是阅读。例如,在足球比赛的精彩片段视频中,AI可以随着动作提高其强度:“他越过一名防守队员——[激动]传中来了——[大喊]进球! ”同样,在有声书中,可以通过[低语][停顿]等标签来增强悬念。

多场景通用标签

音频标签提供各种情感和物理提示,例如:

  • 情感语气: [激动], [紧张], [沮丧], [疲倦]
  • 反应: [喘气], [叹气], [笑], [吞咽]
  • 音量与能量: [低语], [大喊], [安静], [大声]
  • 节奏与韵律: [停顿], [结巴], [快速]

将这些标签进行叠加增加了AI表演的深度,允许细致的传递,能显著改变内容的感知情感和影响。

为开发者和故事讲述者提供创作控制

Eleven v3对这些标签的支持由更深层次的上下文模型提供支持,可以在一行中动态改变语气并在保持自然流畅的情况下管理中断。这一改进为声优设计师、游戏开发者和故事讲述者提供了新的创作控制水平,使他们从单纯的编写者转变为AI表演的导演。

选择合适的声音

目前,专业语音克隆(PVC)未完全为Eleven v3优化,可能导致与以前的模型相比质量较低。在这一研究预览阶段,建议使用即时语音克隆(IVC)或设计的声音来充分利用第三版的新功能。预计在不久的将来可进行PVC的优化。

有关此开发的更多见解,请访问ElevenLabs官方博客

Image source: Shutterstock
Place your ads here email us at info@blockchain.news