将一段文字输入,瞬间打造“大片”级别的视频片段?近日,OpenAI震撼发布了首款视频生成模型Sora,迅速引起业界热议与广泛关注。
这家以研发先进人工智能技术著称的公司,在继其对话式语言模型ChatGPT引发全球热议之后,于2024年2月16日凌晨推出了全新的文生视频模型——Sora。
Sora的核心能力在于能够将文本输入转化为真实且连贯的视频内容,这一壮举颠覆了传统的视频制作流程。它能根据用户提供的文本描述或指令生成长达一分钟的高质量视频片段,并确保视频不仅在视觉效果上逼真,而且遵循物理世界的规律,实现动态场景的精确模拟。这意味着,无论是教育、娱乐、广告还是影视制作等领域,都有望通过Sora极大地提高内容生产的效率与创新性。
OpenAI称,Sora不仅能理解用户在提示中提出的要求,还能理解这些事物在物理世界中是如何存在的。
根据Sora模型在AI视频生成领域的创新,我们提炼出它的5大亮点:
显著的时长突破:相较于其他文本到视频转换模型,Sora能够生成长达一分钟连续且高质量的视频内容。
三维空间连贯性:具备动态镜头控制能力,即使摄像机视角发生变化(移动或旋转),模型依然能确保场景中的人物和物体在三维空间中保持一致、流畅的动作和位置关系。
长期连续性和物体一致性:在单个视频的不同镜头间,Sora可以保持同一物体或主题的持久不变性,即使它们在某些时刻未出现在画面中,当再次出现时仍能保持之前的状态。
视频扩展与连接功能:Sora不仅能生成独立的视频片段,还能够根据需要前后延伸已有的视频内容,并能够无缝地将两个不同的视频片段拼接起来,形成逻辑连贯的整体。
模拟与互动:Sora具有模拟复杂数字环境的能力,例如能够模拟人工操作,在虚拟环境中如Minecraft游戏中控制玩家的行为,展示了其在游戏内容生成和交互式视频制作方面的潜力。
Sora的突出表现引来了网友们的热烈反响,纷纷喊话“太炸裂了”“现实不存在了”。
Open AI自称Sora是“世界模拟器”。
360董事长周鸿祎公开表示:Sora 的出现,或意味着 AGI(通用人工智能)实现将从 10 年缩短到 1 年。Sora可能给广告业、电影预告片、短视频行业带来巨大的颠覆。
前阿里VP、正在AI infra赛道创业的贾扬清在朋友圈发表观点认为,首先“对标OpenAI的公司有一波被其他大厂fomo(害怕错过)收购的机会”;其次“长线闭源寡头,开源还需要一段时间才能catch up”;最后,算法小厂“要不就算法上媲美OpenAI,要不就垂直领域深耕应用,要不就开源”,并预言“infra的需求继续会猛增”。
国盛证券认为,Sora相比此前其他文生视频模型,已经跨越到实用生产力工具,1分钟长度有望大规模应用在短视频领域,扩展视频的能力也有望制作长视频。
对于日常生活而言,Sora的应用前景无比广阔。在个人层面上,人们可以快速创建个性化的故事、家庭录像,甚至是基于想象的概念可视化。而在专业工作环境中,Sora可为新闻编辑室提供即时的可视化新闻报道,为设计师提供创意原型,甚至在建筑设计、游戏开发等行业中辅助构思和预览设计成果。
更深层次地看,Sora的出现可能对就业市场产生深远影响。一方面,它将释放创造力,使更多人能够在不具备传统视频制作技能的情况下进行高质量的内容创作;另一方面,也可能促使相关行业从业者提升自身技术层次,转向更具策略性和创造性的工作角色。
此外,OpenAI在发布Sora的同时还宣布了其扩张AI算力基础建设的计划,拟筹集数万亿美金用于构建更强大的计算平台。这进一步凸显了AI作为新工业革命核心技术的地位,以及在未来社会发展中所扮演的关键角色。
当然,随着Sora模型的发布,也引发了关于AI创造内容版权、伦理等问题的讨论。如何在保证创意自由的同时,保护原创作者的权益,是摆在全社会面前的一个重要课题。
Sora文生视频模型不仅是一个技术创新的里程碑,也是人类探索智能工具如何重塑生产力和信息传播方式的重要一步。随着Sora及其后续迭代版本的广泛应用,我们可以期待一个更加智能化、高效化的内容生产和消费新时代的到来。