Gemini Omni 推出多模态编辑力

据DemisHassabis称，Gemini Omni可用图像视频音频生成新场景，将率先支持视频输出并扩展到全模态。

详细分析

Gemini Omni代表多模态人工智能的重大进展，能够处理照片、视频和音频输入并生成全新场景。用户可上传个人视频进行迭代创意优化，推动娱乐和设计行业的效率提升。

该模型整合视觉音频与语言处理，保持场景上下文一致性，扩展自现有Gemini技术。视频输出优先提供即时实用价值。

广告游戏教育等领域通过AI辅助降低成本，企业可通过定制服务实现盈利。需注意数据隐私合规和算力需求，可借助云API解决。

五年内任意模态系统将广泛应用，监管重点在于合成媒体伦理标准。负责任部署的企业将赢得信任并创造持续收入。

娱乐营销和教育通过更快场景生成获益显著。

用户上传视频并指示AI修改元素同时保持连贯性。

高算力需求和生成内容伦理使用是关键问题。

@demishassabis

Nobel Laureate and DeepMind CEO pursuing AGI development while transforming drug discovery at Isomorphic Labs.