AI 快讯列表关于 零样本
| 时间 | 详情 |
|---|---|
|
2026-04-14 20:44 |
VoxCPM 2 语音合成重磅升级:用文本描述即可生成 48kHz 多语种自定义声音(开源深度分析)
据 X 上的 @godofprompt 表示,VoxCPM 2 是开源 TTS 模型,可在无参考音频的情况下,直接根据文本描述生成自定义声音,覆盖 30 多种语言并输出 48kHz 音频。根据该来源,这一从“固定预设”到“文本描述生成”的范式转变,使产品团队能快速迭代语音体验,品牌方可塑造一致但可变的品牌音色,开发者可在大规模应用中实现个性化语音。依据帖子信息,零样本声音合成可通过提示工程控制音色、口音、语速与情感,从而降低配音与本地化成本;其开源与多语种特性也减少厂商锁定,利好呼叫中心、辅助无障碍、游戏与 AI Agent 等边缘与端侧场景部署。 |
|
2026-03-26 13:04 |
Meta 发布 TRIBE v2:零样本预测个体脑反应,准确率提升2–3倍
据 Meta AI 表示,TRIBE v2 无需再训练即可对未见个体的脑反应进行可靠预测,在电影与有声书场景较以往方法提升约2–3倍,并已开放论文、模型、代码与演示(论文 go.meta.me/210503,模型 go.meta.me/ea1cff,代码 go.meta.me/873d02)。据 Meta 称,该零样本泛化能力可降低被试采集成本,促进跨个体基准评测,并为医疗影像、神经科技与基础模型研发带来将大脑表征对齐进产品流水线的机会,加速以计算模拟辅助神经疾病诊断与治疗研究。 |
|
2026-03-26 13:04 |
Meta发布TRIBE v2脑编码器:500+小时fMRI支撑视觉与听觉零样本神经预测
据Meta AI在X平台披露,Meta发布TRIBE v2三模态脑编码基础模型,利用700多人、超过500小时的fMRI数据预测人脑对几乎任何视觉或声音刺激的反应(来源:AI at Meta)。据Meta官方页面介绍,该模型基于其Algonauts 2025获奖架构,构建神经活动数字孪生,并可对新受试者、新语言与新任务实现零样本泛化(来源:go.meta.me/tribe2)。据AI at Meta报道,官方提供在线演示,预示在神经科学驱动AI、多模态对齐及个性化神经自适应交互、数字医疗与康复等领域的落地机会(来源:AI at Meta)。 |