
AI视频生成技术解析:从扩散模型到Transformer架构 Will Douglas Heaven / Tyde
[解读]
文章系统性介绍了AI视频生成技术正通过“扩散模型(生成能力)、潜在空间(效率优化)、Transformer(时空一致性)”三层架构的融合,从单纯的“像素拼凑”进化为“时空叙事构建”,从而解决了生成内容连贯性与可控性这一核心难题。
最后特别提到Google DeepMinde 的 Veo 3,它标志着AI生成开始从“单一感官”走向“整合体验”。背后反映的是模型正在构建一个包含视觉、听觉等多重因果关系的内部世界表征。这是从生成“素材”到创造“场景”乃至“世界”的关键一步。
对于视频生成而言,今年是意义非凡的一年。在过去的九个月里(应该是19个月,译注),OpenAI发布了 Sora,Google DeepMind 推出了Veo 3,视频初创公司Runway也发布了Gen-4。这些模型都能够生成几乎无法与真实拍摄影像或 CGI 动画相媲美的视频片段。
今年,Netflix在其剧集《永恒族》(The Eternaut)中首次应用了AI视觉效果,这标志着视频生成技术首次被用于大众市场的电视节目制作,极具里程碑意义。
诚然,我们在演示中所看到的片段,往往是各家公司为展示其模型巅峰性能而精心挑选的成果。但随着Sora 和 Veo 3 等工具向付费订阅用户开放,这项技术已触及前所未有的广泛用户群体。如今,即便是最业余的电影制作人,也能创作出令人瞩目的作品。
然而,挑战也随之而来。创作者们正面临着与AI生成的低质量内容(AI slop)竞争的局面,社交媒体上充斥着大量虚假的“新闻”影像。此外,视频生成消耗的能源极为庞大,数倍于文本或图像生成,其环境成本不容忽视。
在AI生成视频无处不在的今天,我们有必要深入剖析其背后的核心技术。
视频生成的基本原理是什么?
假设我们是普通用户。目前,市面上已有一系列高端工具,允许专业视频制作者将视频生成模型整合到其工作流中。但对大多数人而言,这项技术的入口是应用程序或其网站。我们都熟悉这样的操作:“嘿,Gemini,给我生成一个独角兽吃意大利面的视频。现在,让它的角像火箭一样发射出去。” 其返回的结果往往好坏参半,通常需要你反复要求模型进行十次八次的迭代,才能得到大致符合预期的内容。
那么,其底层原理究竟是什么?为何结果时好时坏?又为何需要消耗如此巨大的能源?最新一代的视频生成模型,被称为潜在扩散Transformer模型(latent diffusion transformers)。这个术语听起来相当拗口,让我们从“扩散(diffusion)”开始,逐一解析。
什么是扩散模型?
想象一下,我们先对一张图像随机添加一些像素噪点,然后对这张布满噪点的图像再次进行同样的操作,如此反复。经过足够多的迭代,原始图像最终会变成一团随机的像素噪点,就像老式电视机上的雪花。
扩散模型(diffusion model)就是一种经过训练以逆转此过程的神经网络,它能将随机的噪点逐步还原成清晰的图像。在训练阶段,模型会接触数百万张处于不同“像素化”阶段的图像。通过观察每次添加噪点后图像的变化,模型学会了如何撤销这些变化。
其关键在于,当你指令扩散模型生成一张图像时,它会从一团随机的像素噪点开始,一步步将其转化为一张与其训练数据中的图像风格或内容相似的图片。
然而,我们要的不是任意图像,而是文本提示指定的特定图像。因此,扩散模型需要与第二个模型(例如一个经过训练、能将图像与文本描述相匹配的大型语言模型)协同工作。这个 LLM 在去噪的每一步都扮演着“向导”角色,引导扩散模型朝着 LLM 认为与文本提示高度匹配的方向生成图像。
值得一提的是,LLM 建立文本与图像之间关联的能力并非凭空而来。当今大多数文本到图像和文本到视频的模型,都是在包含数十亿文本-图像或文本-视频配对的大型数据集上训练的,而这些数据大多是从互联网上抓取的。这意味着,这些模型生成的内容,本质上是在线世界的一种提炼和再现,但这种再现却被固有的偏见(及色情内容)所扭曲。
将扩散模型应用于图像生成,是最容易理解的场景。但这项技术同样适用于多种数据类型,包括音频和视频。当用于生成电影片段时,扩散模型必须对一系列连续的图像(即视频的连续帧)进行去噪处理,而不仅仅是处理单张图像。
什么是潜在扩散模型?
上述所有过程都需要巨大的计算量(也即是巨大的能源消耗)。因此,目前用于视频生成的大多数扩散模型都采用了一种名为“潜在扩散(latent diffusion)”的技术。该技术不再直接处理原始数据(即视频每一帧中的数百万像素),而是在一个所谓的“潜在空间(latent space)”中进行操作。在这个空间里,视频帧(和文本提示)被压缩成一种数学编码,这种编码只捕捉数据的核心特征,而舍弃其余的冗余信息。
这与我们在互联网上观看流媒体视频的原理有异曲同工之妙:视频从服务器以压缩格式发送到你的屏幕,以加快传输速度;当数据到达时,你的电脑或电视再将其解码还原为可观看的视频。
因此,最后一步就是将潜在扩散过程生成的结果进行解压。一旦随机噪点的压缩帧被转化为LLM“向导”认为与用户提示高度匹配的视频压缩帧,这个压缩后的视频就会被转换成我们最终可以观看的内容。
通过潜在扩散,扩散过程的原理与处理图像时基本一致。其核心区别在于,被像素化的视频帧不再是原始帧本身,而是这些帧的数学编码。这使得潜在扩散模型的效率远高于典型的扩散模型。即便如此,视频生成所消耗的能源依然远超图像或文本生成,这背后涉及的计算量是惊人的。
什么是潜在扩散Transformer模型?
还能跟上吗?这个技术拼图还有最后一块,那就是如何确保扩散过程生成的帧序列具有连贯性,能够在连续的帧之间保持物体、光照等元素的一致性。OpenAI的 Sora 通过将其扩散模型与另一种名为Transformer 的模型结合,成功解决了这一难题。如今,这种架构已成为生成式视频领域的标准配置。
Transformer模型极擅长处理长序列数据,例如文本。这使其成为OpenAI的GPT-5和Google DeepMind的Gemini等大型语言模型的核心秘诀,这些模型能够生成逻辑连贯、在数十个句子中保持一致的长篇文本。
但视频并非由文字构成。为了让Transformer能够处理视频,需要将视频切割成可以被视作“类词汇”的区块。OpenAI提出的方法是同时在空间和时间维度上对视频进行切块。“这就像你将所有视频帧堆叠在一起,然后从中切出许多小方块。”Sora的首席研究员Tim Brooks解释道。
将Transformer模型与扩散模型相结合带来了多重优势。由于Transformer专为处理序列数据而设计,它能帮助扩散模型在生成视频时保持跨帧的一致性。这使得生成的视频中,物体不会凭空出现或消失,极大地提升了视频的真实感和流畅度。
此外,由于视频被切割成块,其原始尺寸和方向变得不再重要。这意味着最新一代的视频生成模型可以在更多样化的视频样本上进行训练,从手机拍摄的竖屏短片到宽屏电影级别的影片。训练数据的多样性大幅提升,使得当今的视频生成技术相较于两年前已不可同日而语。这也意味着,视频生成模型现在可以根据指令生成各种格式的视频。
音频问题如何解决?
Veo 3 的一大突破在于,它能在生成视频的同时生成配套音频,从口型同步的对话到音效,再到背景噪音。这在视频生成模型中尚属首次。正如 Google DeepMind 首席执行官 Demis Hassabis 在今年的Google I/O大会上所言:“我们正在走出视频生成的‘哑剧时代’。”
此处的挑战在于,如何找到一种方法来对齐视频和音频数据,使扩散过程能够同时作用于两者。Google DeepMind的突破在于,他们创造了一种新方法,在扩散模型内部将音频和视频压缩成一个单一的数据单元。当Veo 3生成视频时,其扩散模型以一种同步锁定的方式同时产出音频和视频,从而确保了声画的完美同步。
既然扩散模型能生成不同类型的数据,那么LLM也是这样工作的吗?
并非如此——至少目前还不是。扩散模型最常用于生成图像、视频和音频。而用于生成文本(包括计算机代码)的大型语言模型,则是基于Transformer架构构建的。
然而,两者之间的界限正变得日益模糊。我们已经看到,Transformer正与扩散模型结合,用于视频生成。今年夏天,Google DeepMind更是披露,他们正在构建一个实验性的、使用扩散模型而非Transformer来生成文本的大型语言模型。
这里的情况开始变得有些微妙:尽管视频生成(使用扩散模型)消耗大量能源,但扩散模型本身实际上比Transformer更高效。因此,通过使用扩散模型来生成文本,Google DeepMind 的新型 LLM 可能比现有的 LLM 效率高得多。可以预见,在不久的将来,扩散模型将展现出更广阔的应用前景!
喜欢这篇内容?
如果文章对你有帮助,可以请作者喝杯咖啡。感谢支持
由Stripe提供安全支付 • 支持支付宝和信用卡
相关推荐




