2月16日凌晨,OpenAI再次引爆一枚科技炸弹-发布了首个文生视频模型Sora,由此带来的冲击波引发全球震荡。Sora 是一种通用的视觉数据模型,它可以生成不同持续时间、纵横比和分辨率的视频和图像,包含高度细致的背景、复杂的多角度镜头,以及富有情感的多个角色,最多可生成一整分钟的高清视频。此次,OpenAI展示的由Sora模型生成的1分钟文生视频效果惊艳。目前OPENAI官网上已经更新了48个视频demo。在这些demo中,Sora不仅能准确呈现细节,还能理解物体在物理世界中的存在,并生成具有丰富情感的角色。该模型甚至还可以根据提示、静止图像填补现有视频中的缺失帧来生成视频。OpenAI正在教AI理解和模拟现实中的运动,以帮助人类解决与现实交互的问题。目前Sora暂未对外开放使用。
SORA展示出诸多亮点
1. 准确性和多样性:Sora可将简短的文本描述转化成长达1分钟的高清视频。它可以准确地解释用户提供的文本输入,并生成具有各种场景和人物的高质量视频剪辑。它涵盖了广泛的主题,从人物和动物到郁郁葱葱的风景、城市场景、花园,甚至是水下的纽约市,可根据用户的要求提供多样化的内容。另据Medium,Sora能够准确解释长达135个单词的长提示。
OPENAI官网提供的Sora生成的短片
2. 强大的语言理解:OpenAI利用Dall·E模型的recaptioning(重述要点)技术,生成视觉训练数据的描述性字幕,不仅能提高文本的准确性,还能提升视频的整体质量。此外,与DALL·E 3类似,OpenAI还利用GPT技术将简短的用户提示转换为更长的详细转译,并将其发送到视频模型。这使Sora能够精确地按照用户提示生成高质量的视频。
3. 以图/视频生成视频:Sora除了可以将文本转化为视频,还能接受其他类型的输入提示,如已经存在的图像或视频。这使Sora能够执行广泛的图像和视频编辑任务,如创建完美的循环视频、将静态图像转化为动画、向前或向后扩展视频等。OpenAI在报告中展示了基于DALL·E 2和DALL·E 3的图像生成的demo视频。这不仅证明了Sora的强大功能,还展示了它在图像和视频编辑领域的无限潜力。
OPENAI官网提供的Sora生成的短片
4. 视频扩展功能:由于可接受多样化的输入提示,用户可以根据图像创建视频或补充现有视频。作为基于Transformer的扩散模型,Sora还能沿时间线向前或向后扩展视频。
5. 优异的设备适配性:Sora具备出色的采样能力,从宽屏的 1920x1080p 到 竖 屏 的1080×1920,两者之间的任何视频尺寸都能轻松应对。这意味着Sora能够为各种设备生成与其原始纵横比完美匹配的内容。而在生成高分辨率内容之前,Sora还能以小尺寸迅速创建内容原型。
OPENAI官网提供的Sora生成的短片
6. 场景和物体的一致性和连续性:Sora可以生成带有动态视角变化的视频,人物和场景元素在三维空间中的移动会显得更加自然。Sora 能够很好地处理遮挡问题。现有模型的一个问题是,当物体离开视野时,它们可能无法对其进行追踪。而通过一次性提供多帧预测,Sora可确保画面主体即使暂时离开视野也能保持不变。
SORA可能将引发的产业革命
Sora在带来无限可能的同时,也将对部分行业产生巨大的影响,包括影视、广告制作、教育、游戏、新闻和动画等领域。
对于Sora的最大优势,360集团创始人、董事长周鸿祎说,“这次OpenAI利用它的大语言模型优势,让Sora实现了对现实世界的理解和对世界的模拟两层能力,这样产生的视频才是真实的,才能跳出2D的范围模拟真实的物理世界。”他同时称:“一旦人工智能接上摄像头,把所有的电影都看一遍,把YouTube和TikTok的视频都看一遍,对世界的理解将远远超过文字学习,一幅图胜过千言万语,这就离AGI真的就不远了,不是10年、20年的问题,可能一两年很快就可以实现。”
周鸿祎还指出,AI不一定那么快颠覆所有行业,但它能激发更多人的创作力。他表示,“Sora只是小试牛刀,它展现的不仅仅是一个视频制作的能力,而是大模型对真实世界有了理解和模拟之后,会带来新的成果和突破。”
由此引发的问题
1. 深度造假 伦理和安全问题
具体而言,随着文生视频技术的发展,生成的视频越来越难以与真实视频区分。这可能引发一系列的伦理和社会问题,如虚假信息的传播、隐私侵犯等。
普林斯顿大学计算机科学教授Arvind Narayanan对此也有担忧,认为Sora这类技术可能会导致“深度伪造”视频,让人们难以识别。虽然AI制作的视频仍会有一些不一致的地方,但普通人可能不会注意到这些细节。“迟早,我们需要适应现实主义不再是真实性的标志这一事实。”
随着近期美国流行天后泰勒(Taylor Swift)等名人的深度造假视频在网上变得越来越普遍传播,相应的伦理和安全问题更让人心惊。
Gartner分析师 Arun Chandrasekaran表示,“鉴于这项技术确实非常新,他们必须对其进行充分控制,以防止其被滥用和误用,甚至客户在没有认识到这项新兴技术所有局限性的情况下使用它。”他补充道,OpenAI为该模型设置的防护措施以及确定谁可以获得访问权限至关重要。
2. 版权问题
AI生成的视频是否应该受到版权保护?如果AI使用了人类艺术家的作品作为训练数据,那么生成的视频是否侵犯了原作的版权?这些问题目前还没有明确的答案。
3. AI模型的透明度
AI技术的发展可能意味着不久的将来,不仅是某一领域遭到颠覆性变革,而是人类社会、世界的变革。Sora的来临或许可以理解为,AGI真正来临前的号角。回顾历史,我们总会发现,危与机总是并存的。未来的世界是什么样的?未来的商业是什么样的?面对浪潮,恐惧只会让我们伫立在原地,被巨浪吞噬。我们要去主动适应它,才不会被恐惧束缚,积极学习应用,才不会被淘汰。
2024已至,让我们拥抱变化,从此人生开挂!