谷歌推出用于视频创作的Gemini Omni AI模型
realtime news May 19, 2026 18:47
谷歌发布了Gemini Omni,这是一种尖端的多模态AI,用于视频创作、编辑和讲故事,利用先进的物理学和真实世界的知识。
谷歌推出了Gemini Omni,这是一款突破性的多模态AI模型,旨在无缝整合视频创作、编辑和讲故事功能。Gemini Omni于2026年5月19日宣布发布,基于公司现有的Gemini AI生态系统,通过将文本、图像、视频和音频组合成连贯的输出。首款产品Gemini Omni Flash已面向Google AI Plus、Pro和Ultra订阅用户,以及YouTube Shorts和YouTube Create App用户全球推出。
Gemini Omni的核心目标是通过自然语言提示让用户能够创建和编辑视频,从而实现视频制作的民主化。例如,Omni可以将一个简单物体的视频转变为一个充满动态的科幻场景,或者根据用户指示实时调整光线和物理效果。与传统编辑工具不同,Omni利用了深厚的真实世界知识和对物理学的直观理解,其输出不仅限于视觉上的真实,还突出了有意义的故事讲述。
高级功能使Omni脱颖而出
关键功能包括对话式视频编辑、实时场景调整,以及整合多种输入类型的能力(如视频、图像和文本)。用户可以通过迭代步骤优化视频,确保角色、环境和动作的连续性。例如,Omni可以模拟复杂的物理现象,如流体动力学或动能,使用户能够以最少的努力创建逼真的可视化效果。
此外,该平台还包括开发数字化身的工具,可以模拟用户的声音和外貌,不过谷歌强调,这些功能是在严格的伦理准则下实施的。所有AI生成的视频都会带有一个不可感知的SynthID水印,以确保内容透明性。
市场和行业背景
此次发布正值Gemini这一名称在多个领域引起关注之际。当谷歌的Gemini Omni专注于AI和创意时,Gemini加密货币代币(GEMINI)截至2026年5月8日的交易价格为$0.0001207,在过去24小时内小幅上涨了3.1%。尽管其市值仅为$119,684,但该代币仍是关于更广泛的Gemini品牌生态系统(包括加密货币交易所Gemini最近1亿美元私募投资)的讨论的一部分。
谷歌的这一举措也恰逢对多模态AI能力的兴趣日益增加。通过将Gemini Omni这样的工具整合到YouTube和Google Flow等平台中,公司可能旨在同时捕获消费者和企业市场。开发者和企业客户将在未来几周内通过API访问Omni,为第三方应用的集成打开了路径。
对内容创作者的影响
对于创作者而言,Gemini Omni可能显著简化工作流程。早期测试者报告称,该模型简化了生成主题视觉效果或将音频与视频元素同步等复杂任务。其将创意表达与科学准确性相结合的能力——例如为技术主题(如蛋白质折叠)设计黏土动画解释器——使其成为跨行业的多功能工具。
通过YouTube和Gemini应用将Gemini Omni Flash推广到数百万用户,无疑为谷歌在AI驱动内容创作领域占据主导地位提供了明显优势。然而,竞争激烈,其他科技巨头和创业公司也在争先推出自己的多模态AI解决方案。
接下来会怎样?
谷歌战略性地推出Gemini Omni Flash,为AI驱动的创意领域的进一步发展铺平了道路。随着即将推出的API和更广泛的音频支持等附加功能,该平台的能力可能会在未来几个月内进一步扩展。目前,内容创作者、企业用户和爱好者都有了一款新的工具,可以重新定义将想法变为现实的方式。
Image source: Shutterstock