介绍 你想看到蒙娜丽莎像女巫一样微笑吗？或者你希望戴珍珠耳环的女孩眨眼微笑？谷歌刚刚推出了一个名为 Lumiere [1] 的视频生成模型，它能够为您完成所有这一切。 尽管它主要是文本到视频的模型，但它的功能远不止于此。给定带有提示的参考图像，它可以通过将参考图像的风格复制到您的视频来风格化您的视频。 您甚至只需一个提示即可编辑视频。型号为卢米艾尔。它甚至能够为图像中用户指定区域内的对象制作动画，这种技术称为 Cinemagraphs。 当谈到修复时，卢米埃尔甚至能够推理出完全缺失的物体，例如本例中的蛋糕。 这一切都归结为具有新颖时空 U-Net 架构的扩散模型 [3]。它是 U-Net 架构的定制，旨在解决视频生成模型中相当普遍的时间一致性问题。 视觉解释 Lumiere 论文、模型架构和结果的直观解释现已发布。   https://youtu.be/QcYa6xxsMTU?si=IBpUqjPtj8lJDHo0&embedable=true 那么，什么是时间一致性？  我们都知道视频是图像序列。因此，让我们获取上图中顶行所示的一系列图像。如果我们只缩小图像中的一行（由从左到右的绿线表示），我们需要看到序列中图像之间像素值的平滑过渡。 如果过渡平滑，那么我们在观看视频时就不会看到跳跃效果。  例如，如果我们采用稳定视频扩散 [2]，并观看宇航员在月球上行走的视频（上图），我们可以看到他的手在帧之间消失了。换句话说，帧之间缺乏时间一致性。 这种时间和 x 方向强度之间的时间不一致可以绘制为 XT 切片，如上图突出显示的那样。如果存在时间不一致，则会在 XT 切片图中突出显示。  Lumiere 通过引入时空扩散模型和扩散模型中的改进 U-Net 架构来解决这个问题。 文本到视频的管道 在研究细节之前，我们先从文本到视频生成模型的典型流程开始。 这些管道每 5 帧采样一次，作为输入视频序列中的关键帧，并训练一个基本模型，该模型可以以低至 128 x 128 的分辨率、每秒 3 帧的速度生成这些关键帧。 然后使用时间超分辨率通过预测中间帧来提高帧速率。所以帧速率现在变为每秒 16 帧。 然后，通过空间超分辨率网络 (SSR) 将这些帧的空间分辨率提高到 1024 乘 1024，最终生成我们生成的视频。 该框架中使用的基本模型通常是扩散模型，其中又包含 U-Net。  Lumiere 的拟议管道 另一方面，Lumiere 提议的管道会同时处理所有帧，而不会丢失帧。为了应对处理所有帧的计算成本，基础扩散模型的架构被修改为时空 UNet 架构或 STUNet。 由于 STUNet 处理所有输入帧，因此消除了对时间超分辨率或 TSR 的需求。因此，该管道仍然具有空间超分辨率或SSR。但新颖的是 MultiDiffusion 的引入。 从 U-Net 到 STUNet 在研究时空 U-Net 之前，让我们快速回顾一下 U-Net。 U-Net 的输入是一个 3 个 3 维图像，宽度为 W，高度为 H，通道为 RGB。在 U-Net 的每个双卷积阶段之后，我们应用最大池化来下采样或减少特征的空间维度。该空间降维步骤由红色箭头表示。 类似地，在解码器阶段，存在上卷积来将分辨率增加或上采样回输入的大小。 当谈到视频时，我们在输入中还有一个额外的维度，那就是时间。所以时空U-Net提出不仅在空间维度上而且在时间T维度上对视频进行下采样和上采样。这是时间调整大小的主要思想，也是这篇Lumiere论文的主要贡献。 为了调整大小，他们使用 3D 池化而不是 2D 池化，因为输入现在具有附加维度。 和我一样，您可能会对这个想法的简单性感到惊讶。作者自己在论文中提到： 令人惊讶的是，这种设计选择被以前的 T2V 模型忽视了，它遵循惯例，在架构中仅包含空间下采样和上采样操作，并在整个网络中保持固定的时间分辨率。 执行 让我们来了解一下实现的一些细微差别。他们使用本文中介绍的分解卷积，称为视频扩散模型。这个想法是将每个 2D 卷积更改为仅空间 3D 卷积，例如，将每个 3x3 卷积更改为 1x3x3 卷积。 对于注意力，在每个空间注意力块之后，我们插入一个时间注意力块，它对第一个轴执行注意力并将空间轴视为批处理轴。 通过这两个更改，分解的卷积块被添加到预训练的模型中，并且仅使用固定的预训练层权重来训练附加层。 论文的第二个新颖之处是在空间超分辨率过程中引入的多重扩散。如果您在 lumiere 之前采用视频生成模型，则空间超分辨率模型采用一系列帧。 然而，序列并不重叠。例如，SSR模块输入的前8帧和后8帧是分开的，没有任何重叠。 但对于Lumiere来说，前8帧和后8帧有两帧重叠。通过这样做，空间超分辨率模型似乎实现了时间段之间的平滑过渡。这就是本文中所说的多重扩散。 应用领域 将两种提出的技术结合起来，加上缺乏在图像视频等现有架构中普遍存在的级联扩散模型架构，导致了相当多不同的应用。 例如： 该模型可以将文本转换为视频，并带有提示，例如“一名宇航员在火星上行走，绕道绕行他的基地”或“一只戴着滑稽太阳镜驾驶汽车的狗”。 它可以将图像转换为视频以及文本提示，例如“一个女孩眨眼微笑”。 它可以使用参考图像和文本提示（例如“跳舞的熊”）来风格化生成。说到 Cinemagraph，它可以为用户选择的区域（例如火或蒸汽）制作动画。 它甚至可以通过一个提示来编辑人们所穿的衣服。 评估 为了定量评估该模型，该模型通过用户研究运行，用户将所提出的模型的结果与一些最先进的模型（例如 Pika、ZeroScope 或稳定视频扩散）进行比较。结果表明，无论是在文本到视频还是图像到视频的情况下，用户都更喜欢 Lumiere 模型。 结论 因此，总而言之，除了所有宣传视频特技，例如微笑的蒙娜丽莎，本文的贡献相当简单。简而言之，本文介绍了时间通道的下采样。 这与 MultiDiffusion（只不过是将重叠帧输入超分辨率模型）相结合，生成时间上一致的高保真视频。 我希望看到的是论文中的一些消融研究，显示有和没有多重扩散过程的结果。 这篇文章到此结束。下次有人跟你谈论卢米埃尔时，你知道该用一句话说什么。我希望这能让您对卢米埃尔模型有一些了解。 我们下期再见，在那之前，保重…… 参考 [1] Omer Bar-Tal、Hila Chefer、Omer Tov、Charles Herrmann、Roni Paiss、Shiran Zada、Ariel Ephrat、Junhwa Hur、Yuanzhen Li、Tomer Michaeli、Oliver Wang、Deqing Sun、Tali Dekel、Inbar Mosseri、 (2024)，arXiv 预印本。 视频生成的时空扩散模型  [2] 安德烈亚斯·布拉特曼、蒂姆·多克霍恩、苏米斯·库拉尔、丹尼尔·门德莱维奇、马切伊·基利安、多米尼克·洛伦茨、亚姆·莱维、锡安·英格利希、维克拉姆·沃莱蒂、亚当·莱茨、瓦伦·詹帕尼、罗宾·隆巴赫、 (2023)，arXiv 预印本。 稳定的视频扩散：将潜在视频扩散模型扩展到大型数据集  [3] 奥拉夫·罗纳伯格、菲利普·费舍尔和托马斯·布洛克斯， (2015)，医学图像计算和计算机辅助干预国际会议。   U-Net：用于生物医学图像分割的卷积网络 也发布 在这里

Why not checkout more about AI Bites!

Read My Stories

該音頻是用故事的原始語言製作的！

谷歌推出迄今为止最有前途的文本转视频模型：Lumiere

About Author

註釋

標籤

这篇文章刊登在

Related Stories

成功云迁移的完整指南：策略和最佳实践

HackerNoon Decoded: The Top 10 Countries Where HackerNoon Is the Most Active

Claude Sonnet 3.5 系统提示泄漏：法医分析

加密货币增长：创建有效的用户角色

成功云迁移的完整指南：策略和最佳实践

HackerNoon Decoded: The Top 10 Countries Where HackerNoon Is the Most Active

Claude Sonnet 3.5 系统提示泄漏：法医分析

加密货币增长：创建有效的用户角色

Light-Mode

Classic

Newspaper

Minty

Dark-Mode

Neon Noir

Minty

HN StartUps