SORA冲击波震荡全球 AI带来的第二次产业革命

2月16日凌晨，OpenAI再次引爆一枚科技炸弹-发布了首个文生视频模型Sora，由此带来的冲击波引发全球震荡。Sora 是一种通用的视觉数据模型，它可以生成不同持续时间、纵横比和分辨率的视频和图像，包含高度细致的背景、复杂的多角度镜头，以及富有情感的多个角色，最多可生成一整分钟的高清视频。此次，OpenAI展示的由Sora模型生成的1分钟文生视频效果惊艳。目前OPENAI官网上已经更新了48个视频demo。在这些demo中，Sora不仅能准确呈现细节，还能理解物体在物理世界中的存在，并生成具有丰富情感的角色。该模型甚至还可以根据提示、静止图像填补现有视频中的缺失帧来生成视频。OpenAI正在教AI理解和模拟现实中的运动，以帮助人类解决与现实交互的问题。目前Sora暂未对外开放使用。

SORA展示出诸多亮点

1. 准确性和多样性：Sora可将简短的文本描述转化成长达1分钟的高清视频。它可以准确地解释用户提供的文本输入，并生成具有各种场景和人物的高质量视频剪辑。它涵盖了广泛的主题，从人物和动物到郁郁葱葱的风景、城市场景、花园，甚至是水下的纽约市，可根据用户的要求提供多样化的内容。另据Medium，Sora能够准确解释长达135个单词的长提示。

OPENAI官网提供的Sora生成的短片

2. 强大的语言理解：OpenAI利用Dall·E模型的recaptioning（重述要点）技术，生成视觉训练数据的描述性字幕，不仅能提高文本的准确性，还能提升视频的整体质量。此外，与DALL·E 3类似，OpenAI还利用GPT技术将简短的用户提示转换为更长的详细转译，并将其发送到视频模型。这使Sora能够精确地按照用户提示生成高质量的视频。

3. 以图/视频生成视频：Sora除了可以将文本转化为视频，还能接受其他类型的输入提示，如已经存在的图像或视频。这使Sora能够执行广泛的图像和视频编辑任务，如创建完美的循环视频、将静态图像转化为动画、向前或向后扩展视频等。OpenAI在报告中展示了基于DALL·E 2和DALL·E 3的图像生成的demo视频。这不仅证明了Sora的强大功能，还展示了它在图像和视频编辑领域的无限潜力。

OPENAI官网提供的Sora生成的短片

4. 视频扩展功能：由于可接受多样化的输入提示，用户可以根据图像创建视频或补充现有视频。作为基于Transformer的扩散模型，Sora还能沿时间线向前或向后扩展视频。

5. 优异的设备适配性：Sora具备出色的采样能力，从宽屏的 1920x1080p 到竖屏的1080×1920，两者之间的任何视频尺寸都能轻松应对。这意味着Sora能够为各种设备生成与其原始纵横比完美匹配的内容。而在生成高分辨率内容之前，Sora还能以小尺寸迅速创建内容原型。

OPENAI官网提供的Sora生成的短片

6. 场景和物体的一致性和连续性：Sora可以生成带有动态视角变化的视频，人物和场景元素在三维空间中的移动会显得更加自然。Sora 能够很好地处理遮挡问题。现有模型的一个问题是，当物体离开视野时，它们可能无法对其进行追踪。而通过一次性提供多帧预测，Sora可确保画面主体即使暂时离开视野也能保持不变。

SORA可能将引发的产业革命

Sora在带来无限可能的同时，也将对部分行业产生巨大的影响，包括影视、广告制作、教育、游戏、新闻和动画等领域。

对于Sora的最大优势，360集团创始人、董事长周鸿祎说，“这次OpenAI利用它的大语言模型优势，让Sora实现了对现实世界的理解和对世界的模拟两层能力，这样产生的视频才是真实的，才能跳出2D的范围模拟真实的物理世界。”他同时称：“一旦人工智能接上摄像头，把所有的电影都看一遍，把YouTube和TikTok的视频都看一遍，对世界的理解将远远超过文字学习，一幅图胜过千言万语，这就离AGI真的就不远了，不是10年、20年的问题，可能一两年很快就可以实现。”

周鸿祎还指出，AI不一定那么快颠覆所有行业，但它能激发更多人的创作力。他表示，“Sora只是小试牛刀，它展现的不仅仅是一个视频制作的能力，而是大模型对真实世界有了理解和模拟之后，会带来新的成果和突破。”

由此引发的问题

1. 深度造假伦理和安全问题

具体而言，随着文生视频技术的发展，生成的视频越来越难以与真实视频区分。这可能引发一系列的伦理和社会问题，如虚假信息的传播、隐私侵犯等。

普林斯顿大学计算机科学教授Arvind Narayanan对此也有担忧，认为Sora这类技术可能会导致“深度伪造”视频，让人们难以识别。虽然AI制作的视频仍会有一些不一致的地方，但普通人可能不会注意到这些细节。“迟早，我们需要适应现实主义不再是真实性的标志这一事实。”

随着近期美国流行天后泰勒（Taylor Swift）等名人的深度造假视频在网上变得越来越普遍传播，相应的伦理和安全问题更让人心惊。

Gartner分析师 Arun Chandrasekaran表示，“鉴于这项技术确实非常新，他们必须对其进行充分控制，以防止其被滥用和误用，甚至客户在没有认识到这项新兴技术所有局限性的情况下使用它。”他补充道，OpenAI为该模型设置的防护措施以及确定谁可以获得访问权限至关重要。

2. 版权问题

AI生成的视频是否应该受到版权保护？如果AI使用了人类艺术家的作品作为训练数据，那么生成的视频是否侵犯了原作的版权？这些问题目前还没有明确的答案。

3. AI模型的透明度

AI文生视频模型，往往缺乏可解释性和透明度。这意味着当模型出现错误或偏见时，很难找出原因并进行纠正。这增加了模型在实际应用中的风险。

AI技术的发展可能意味着不久的将来，不仅是某一领域遭到颠覆性变革，而是人类社会、世界的变革。Sora的来临或许可以理解为，AGI真正来临前的号角。回顾历史，我们总会发现，危与机总是并存的。未来的世界是什么样的？未来的商业是什么样的？面对浪潮，恐惧只会让我们伫立在原地，被巨浪吞噬。我们要去主动适应它，才不会被恐惧束缚，积极学习应用，才不会被淘汰。

2024已至，让我们拥抱变化，从此人生开挂！

更多文章

发表评论 取消回复

发表评论取消回复