OpenAI视频模型Sora的剖析与思考

223次阅读

共计 2115 个字符，预计需要花费 6 分钟才能阅读完成。

前言

在之前的视频生成技术领域，Runway 一直被视为一个标杆，尽管它支持的视频长度最多只有 18 秒，而且镜头相对固定，其生成的内容更类似于动态图像，效果并不理想。至于 Pika，它的营销宣传似乎大于实际效果，因此并未引起太多关注。

尽管 Runway 在最近的更新中宣称视频生成技术已经迎来了类似 GPT 的革命性时刻，但实际上它仍然处于一个相对初级的阶段，更像是一个有趣的玩具，而非实用工具。相比之下，Sora 则真正实现了视频生成技术的飞跃，它的出现可以被认为是视频生成领域的一个重要里程碑。

观察 Sora 生成的视频效果，我们会发现其质量之高，以至于很难区分这些视频是由 Sora 生成的，还是来自于电影、纪录片、游戏、动画等经过高成本制作的精美内容。Sora 生成的视频在视觉效果上与这些高质量内容相媲美，这无疑是一个令人印象深刻的成就。

对于那些对 Sora 不太了解的朋友，可以在视频平台上搜索一下相关内容，你会发现许多展示 Sora 生成效果的视频，这些视频会给你一个直观的感受，让你领略 Sora 在视频生成技术上的强大能力。

在今天的讨论中，主要探讨一下 Sora 的算法原理，分析它是如何实现如此高质量视频生成的，以及它在 AI 领域的意义和产品化能力

未来开放 Sora 也需要 ChatGPT4 才能使用，还没体验 GPT4 的小伙伴可以先体验一下，为后续内测和使用打个基础先，想升级的小伙伴可以查看这篇文章：2024 最新 ChatGPT-4.0（ChatGPT Plus）升级超详细教程

算法原理

自 GPT- 3 以来 OpenAI 就没有公开模型的详细原理，包括 ChatGPT 的具体参数量，训练过程等，这次发布的 Sora 同样对其算法原理保持了一定的神秘性。

简而言之，Sora 采用了结合 Transformer 和 Diffusion 模型的架构，对视频结构进行了全面的创新。首先，它对视频进行处理，将其转换为具有时序的向量序列。Transformer 模型擅长于预测一个向量序列中的下一个向量，因此无论是处理语言还是视频，都需要将原始信息转换为一个由高维向量组成的序列。对于 GPT 来说，这个最小单位是 Token；而对于 Sora 来说，这个最小单位是 Patch。

不同之处在于，语言中的词或词组是天然的 Token，并且是一维线性排列的。而视频除了具有时序性外，还具有长度和宽度，因此在 Patch 化之后，它们构成了一个由高维向量组成的三维空间。Sora 通过一个压缩模型将这些三维空间处理成单维向量序列。

具体的实现细节尚未公开，我个人对视觉算法的原理研究较少，因此暂时没有进行深入的推测。

从视频到高维向量序列的转换可以被视为一种压缩过程，而目前的 Transformer 模型能够实现语言的高维向量序列与视频高维向量序列之间的相互转换，这在本质上与语言翻译并无太大差异。

同样，也可以从视频的高维向量序列还原出时空分布的三维 Patch 阵列，然后基于这个阵列使用扩散模型来生成视频。

目前公布的 Sora 内容大致如此，尚有大量的工程化方案未被披露，而且可能也不会公开。

Sora 产品化能力

Sora 能够基于静态图片生成动态图像，这一点虽然看似简单，但在内容创作中却极为实用。更令人兴奋的是，Sora 能够基于单一图片创建向前或向后延展的视频内容，比如从一个终结画面出发，衍生出三种不同的视频故事线

Sora 的视频到视频过渡技术同样令人印象深刻，其转场效果流畅自然，能够在不同视频场景之间实现无缝链接，除此之外，Sora 还提供了基于语言控制的视频风格转换能力，允许用户将视频转换成卡通风格、未来风格或其他各种风格，这一点通过多种语言指令实现，每一种尝试都能带来令人满意的效果。

结合 SD+controlNet 的图像生成技术和一些 lora 方案，Sora 的技术堆栈能够创造出无限的可能性。文章中提到，他们利用 GPT4 生成更高级的用户提示，如分镜和转场要求，以此与模型进行更有效的交互。

在 Sora 的帮助下，视频内容的制作成本可以大幅降低，即使是没有摄影基础的个人也能制作出高质量的作品，前提是需要有良好的讲故事技巧。这不仅推动了创作工具的发展，让每个人都有机会成为特定场景下的主角，而且还极大提高了广告领域的工作效率，使得高质量视频广告的生产变得更加快速和便捷。

尽管这些技术为文字和图片的创业生态带来了巨大的机遇，但其竞争优势的持久性还有待观察。在文字领域，知识库构成了一定的门槛；而在视频创作领域，如果依赖于 OpenAI 等外部接口，那么持久优势可能更多地依赖于对场景的深入理解和工程化能力。

总的来说，虽然 Sora 的技术无疑为视频制作领域带来了革命性的变化，但它并不意味着会彻底颠覆现有的短视频生态。Sora 提供的是一种先进的视频制作工具，而内容的分发和制作工具本身是两个截然不同的领域。

总结

目前 Sora 还没有公测，其原因可能是计算成本非常高，想当初 GPT 开放时 OpenAI 的服务器也一度过载，更不用说视频计算。不过 OpenAI 拟融资 7000 亿美金进军芯片领域的新闻相信大家都有所耳闻了，如果在算力能用巨大突破，想来 Sora 的普及化也是指日可待的。对了，Sora 之前开发了内测资格，感兴趣的小伙伴可以查看这篇文章：Sora 内测申请

正文完