AI 快讯列表关于 语音模型
| 时间 | 详情 | 
|---|---|
| 
                                        2025-10-20 17:12  | 
                            
                                 
                                    
                                        阿里巴巴发布Qwen3-Max等系列AI模型,推动大规模多模态人工智能发展
                                    
                                     
                            据DeepLearning.AI报道,阿里巴巴全面升级了Qwen3系列AI模型,包括Qwen3-Max(1万亿参数MoE封闭权重模型,支持26.2万Token输入,API定价每百万Token 约1.2至6美元)、Qwen3-VL-235B-A22B(开放权重视觉-语言大模型,支持文本/图像/视频输入,支持最高100万Token上下文,在多项视觉、视频和智能体基准测试中取得领先)、以及Qwen3-Omni-30B-A3B(开放权重多模态语音模型,在36项音频/视听测试中22项达到业界领先)。这些新模型展示了阿里巴巴在超大规模、强性能AI领域的创新,为企业级自然语言处理、计算机视觉和语音场景提供多样化的落地应用与商业机会。(来源:DeepLearning.AI, https://www.deeplearning.ai/the-batch/alibaba-expands-qwen3-family-with-1-trillion-parameter-max-open-weights-qwen3-vl-and-qwen3-omni-voice-model/)  | 
                        
| 
                                        2025-06-07 19:12  | 
                            
                                 
                                    
                                        音频标签提升AI语音交互:实际应用与商业机会深度分析
                                    
                                     
                            据OpenAI官方开发者文档(2024年5月)介绍,音频标签如[sarcastic]、[whispers]、[excited]和[strong French accent],能够精准控制生成式AI语音的表达方式,提升用户交互体验。企业可利用这些标签打造个性化客户服务、智能语音助手及品牌音频差异化,从而增强用户黏性和市场竞争力。但需注意,不同AI语音模型对标签的支持程度不同,无法实现所有风格的完美切换,因此推动了更高兼容性语音模型的开发和创新。这为AI厂商与企业打开了新的业务增长空间。  |