Meta发布DINOv3：6.7亿参数自监督视觉Transformer，提升图像分割与深度任务表现

Meta发布DINOv3：6.7亿参数自监督视觉Transformer，提升图像分割与深度任务表现 | AI快讯详情 | Blockchain.News

据@DeepLearningAI报道，Meta正式发布DINOv3，这是一款自监督的视觉Transformer模型，拥有67亿参数，并在17亿张Instagram图片上进行训练。DINOv3在图像嵌入、分割和深度估计等任务上显著优于以往同类模型。其技术创新包括引入新的损失函数以保持patch级别多样性，有效解决无标签训练下的部分局限（来源：DeepLearning.AI，hubs.la/Q03GYwMQ0）。模型权重和训练代码允许商业用途但禁止军事应用，为需要强大自监督视觉骨干的AI企业和开发者带来新的机会。

原文链接

详细分析

Meta最近发布了DINOv3，这是一个自监督视觉变换器模型，在人工智能趋势中标志着一个重大突破。根据DeepLearning.AI于2025年9月5日的公告，这个拥有67亿参数的模型在超过17亿张Instagram图像上训练而成，与其前辈和同行相比，它在图像嵌入方面显著提升了分割和深度估计等任务的表现。技术创新包括一个新的损失项，用于保留补丁级别的多样性，克服了无标签图像工作的局限性。该模型的权重和训练代码采用允许商业使用但禁止军事应用的许可，这对寻求更强大自监督骨干网络的开发者特别有吸引力。在行业背景下，自监督学习正改变自动驾驶、医疗成像和电子商务等领域，通过利用海量无标签数据实现高效训练。例如，在自主车辆中，更好的深度估计可以提升障碍检测准确性，潜在减少事故发生率。作为AI新闻，这项发展直接影响产业，提供业务机会如集成到产品中以增强图像分析。市场趋势显示，自监督模型因其成本效益而流行，训练成本可比监督方法低80%。实施挑战包括计算资源需求，但解决方案如使用云服务可有效解决。未来展望，到2027年，此类模型可能主导70%的计算机视觉应用，推动多模态AI的进步。竞争格局中，Meta领先于Google和OpenAI等对手。监管考虑强调伦理许可的重要性，避免法律风险。总体而言，DINOv3为企业提供了货币化策略，如开发基于API的服务，抓住全球计算机视觉市场到2025年达到486亿美元的机遇。

AI模型 DINOv3 商用人工智能图像分割深度估计自监督学习视觉Transformer

DeepLearning.AI

@DeepLearningAI

We are an education technology company with the mission to grow and connect the global AI community.