AI 快讯列表关于 视觉语言模型
| 时间 | 详情 |
|---|---|
|
2025-10-20 17:12 |
阿里巴巴发布Qwen3-Max等系列AI模型,推动大规模多模态人工智能发展
据DeepLearning.AI报道,阿里巴巴全面升级了Qwen3系列AI模型,包括Qwen3-Max(1万亿参数MoE封闭权重模型,支持26.2万Token输入,API定价每百万Token 约1.2至6美元)、Qwen3-VL-235B-A22B(开放权重视觉-语言大模型,支持文本/图像/视频输入,支持最高100万Token上下文,在多项视觉、视频和智能体基准测试中取得领先)、以及Qwen3-Omni-30B-A3B(开放权重多模态语音模型,在36项音频/视听测试中22项达到业界领先)。这些新模型展示了阿里巴巴在超大规模、强性能AI领域的创新,为企业级自然语言处理、计算机视觉和语音场景提供多样化的落地应用与商业机会。(来源:DeepLearning.AI, https://www.deeplearning.ai/the-batch/alibaba-expands-qwen3-family-with-1-trillion-parameter-max-open-weights-qwen3-vl-and-qwen3-omni-voice-model/) |
|
2025-10-10 10:55 |
BAIR团队视觉语言模型研究荣获COLM2025杰出论文奖,揭示AI视觉理解新机遇
据@berkeley_ai报道,加州大学伯克利人工智能研究院(BAIR)@trevordarrell团队在#COLM2025大会上凭借论文《Hidden in plain sight: VLMs overlook their visual representations》获得杰出论文奖。该研究发现,当前主流视觉语言模型(VLM)在处理多模态任务时未能充分利用其视觉表征能力,导致AI在图像理解等实际应用中的表现受限(来源:@berkeley_ai,2025-10-10)。这一发现为AI行业带来模型优化和商业化落地的新方向,尤其在电商、医疗、自动驾驶等领域具有广阔市场前景。 |
|
2025-06-25 02:00 |
OpenAI发布o3-pro视觉语言模型,在数学、科学和编程复杂推理领域刷新AI新标准
据DeepLearning.AI报道,OpenAI推出了新一代视觉语言模型o3-pro,专为提升数学、科学和编程等复杂推理任务设计。o3-pro在AIME、GPQA和Codeforces等权威基准测试中表现优于前代o3和o1-pro,显著提升了AI在技术难题解决和实际应用中的能力。该突破为AI赋能教育、自动化科学分析和智能代码生成等商业场景带来全新市场机遇。(来源:DeepLearning.AI,2025年6月25日) |
|
2025-06-13 16:00 |
CVPR 2025亮点:最新AI研究论文与深度学习技术创新
根据@AIatMeta发布的信息,CVPR 2025展示了来自AI领域顶尖专家的最新研究论文,重点突出计算机视觉与深度学习技术的突破(来源:AI at Meta,Twitter,2025年6月13日)。大会涵盖大规模视觉-语言模型、生成式AI图像合成以及新型目标检测算法等前沿进展。这些创新为自动驾驶、零售分析和医疗影像等行业带来实际商业机遇,推动AI解决方案的商业化应用(来源:AI at Meta,Twitter,2025年6月13日)。 |