paint-brush
谷歌推出迄今为止最有前途的文本转视频模型:Lumiere经过@aibites
1,348 讀數
1,348 讀數

谷歌推出迄今为止最有前途的文本转视频模型:Lumiere

经过 Shrinivasan Sankar7m2024/02/10
Read on Terminal Reader

太長; 讀書

你想看到蒙娜丽莎像女巫一样微笑吗?或者你希望戴珍珠耳环的女孩眨眼微笑?谷歌刚刚推出了一个名为 Lumiere [1] 的视频生成模型,它能够为您完成所有这一切。 尽管它主要是文本到视频的模型,但它的功能远不止于此。给定带有提示的参考图像,它可以通过将参考图像的风格复制到您的视频来风格化您的视频。
featured image - 谷歌推出迄今为止最有前途的文本转视频模型:Lumiere
Shrinivasan Sankar HackerNoon profile picture

介绍

你想看到蒙娜丽莎像女巫一样微笑吗?或者你希望戴珍珠耳环的女孩眨眼微笑?谷歌刚刚推出了一个名为 Lumiere [1] 的视频生成模型,它能够为您完成所有这一切。


尽管它主要是文本到视频的模型,但它的功能远不止于此。给定带有提示的参考图像,它可以通过将参考图像的风格复制到您的视频来风格化您的视频。


您甚至只需一个提示即可编辑视频。型号为卢米艾尔。它甚至能够为图像中用户指定区域内的对象制作动画,这种技术称为 Cinemagraphs。


当谈到修复时,卢米埃尔甚至能够推理出完全缺失的物体,例如本例中的蛋糕。


这一切都归结为具有新颖时空 U-Net 架构的扩散模型 [3]。它是 U-Net 架构的定制,旨在解决视频生成模型中相当普遍的时间一致性问题。

视觉解释

Lumiere 论文、模型架构和结果的直观解释现已发布。

那么,什么是时间一致性?

我们都知道视频是图像序列。因此,让我们获取上图中顶行所示的一系列图像。如果我们只缩小图像中的一行(由从左到右的绿线表示),我们需要看到序列中图像之间像素值的平滑过渡。


如果过渡平滑,那么我们在观看视频时就不会看到跳跃效果。


例如,如果我们采用稳定视频扩散 [2],并观看宇航员在月球上行走的视频(上图),我们可以看到他的手在帧之间消失了。换句话说,帧之间缺乏时间一致性。


这种时间和 x 方向强度之间的时间不一致可以绘制为 XT 切片,如上图突出显示的那样。如果存在时间不一致,则会在 XT 切片图中突出显示。


Lumiere 通过引入时空扩散模型和扩散模型中的改进 U-Net 架构来解决这个问题。

文本到视频的管道

在研究细节之前,我们先从文本到视频生成模型的典型流程开始。

这些管道每 5 帧采样一次,作为输入视频序列中的关键帧,并训练一个基本模型,该模型可以以低至 128 x 128 的分辨率、每秒 3 帧的速度生成这些关键帧。


然后使用时间超分辨率通过预测中间帧来提高帧速率。所以帧速率现在变为每秒 16 帧。


然后,通过空间超分辨率网络 (SSR) 将这些帧的空间分辨率提高到 1024 乘 1024,最终生成我们生成的视频。


该框架中使用的基本模型通常是扩散模型,其中又包含 U-Net。

Lumiere 的拟议管道

另一方面,Lumiere 提议的管道会同时处理所有帧,而不会丢失帧。为了应对处理所有帧的计算成本,基础扩散模型的架构被修改为时空 UNet 架构或 STUNet。


由于 STUNet 处理所有输入帧,因此消除了对时间超分辨率或 TSR 的需求。因此,该管道仍然具有空间超分辨率或SSR。但新颖的是 MultiDiffusion 的引入。

从 U-Net 到 STUNet

在研究时空 U-Net 之前,让我们快速回顾一下 U-Net。 U-Net 的输入是一个 3 个 3 维图像,宽度为 W,高度为 H,通道为 RGB。在 U-Net 的每个双卷积阶段之后,我们应用最大池化来下采样或减少特征的空间维度。该空间降维步骤由红色箭头表示。


类似地,在解码器阶段,存在上卷积来将分辨率增加或上采样回输入的大小。

当谈到视频时,我们在输入中还有一个额外的维度,那就是时间。所以时空U-Net提出不仅在空间维度上而且在时间T维度上对视频进行下采样和上采样。这是时间调整大小的主要思想,也是这篇Lumiere论文的主要贡献。


为了调整大小,他们使用 3D 池化而不是 2D 池化,因为输入现在具有附加维度。


和我一样,您可能会对这个想法的简单性感到惊讶。作者自己在论文中提到:

令人惊讶的是,这种设计选择被以前的 T2V 模型忽视了,它遵循惯例,在架构中仅包含空间下采样和上采样操作,并在整个网络中保持固定的时间分辨率。

执行

让我们来了解一下实现的一些细微差别。他们使用本文中介绍的分解卷积,称为视频扩散模型。这个想法是将每个 2D 卷积更改为仅空间 3D 卷积,例如,将每个 3x3 卷积更改为 1x3x3 卷积。


对于注意力,在每个空间注意力块之后,我们插入一个时间注意力块,它对第一个轴执行注意力并将空间轴视为批处理轴。

通过这两个更改,分解的卷积块被添加到预训练的模型中,并且仅使用固定的预训练层权重来训练附加层。


论文的第二个新颖之处是在空间超分辨率过程中引入的多重扩散。如果您在 lumiere 之前采用视频生成模型,则空间超分辨率模型采用一系列帧。


然而,序列并不重叠。例如,SSR模块输入的前8帧和后8帧是分开的,没有任何重叠。


但对于Lumiere来说,前8帧和后8帧有两帧重叠。通过这样做,空间超分辨率模型似乎实现了时间段之间的平滑过渡。这就是本文中所说的多重扩散。

应用领域

将两种提出的技术结合起来,加上缺乏在图像视频等现有架构中普遍存在的级联扩散模型架构,导致了相当多不同的应用。


例如:

  • 该模型可以将文本转换为视频,并带有提示,例如“一名宇航员在火星上行走,绕道绕行他的基地”或“一只戴着滑稽太阳镜驾驶汽车的狗”。


  • 它可以将图像转换为视频以及文本提示,例如“一个女孩眨眼微笑”。


  • 它可以使用参考图像和文本提示(例如“跳舞的熊”)来风格化生成。说到 Cinemagraph,它可以为用户选择的区域(例如火或蒸汽)制作动画。


  • 它甚至可以通过一个提示来编辑人们所穿的衣服。

评估

为了定量评估该模型,该模型通过用户研究运行,用户将所提出的模型的结果与一些最先进的模型(例如 Pika、ZeroScope 或稳定视频扩散)进行比较。结果表明,无论是在文本到视频还是图像到视频的情况下,用户都更喜欢 Lumiere 模型。

结论

因此,总而言之,除了所有宣传视频特技,例如微笑的蒙娜丽莎,本文的贡献相当简单。简而言之,本文介绍了时间通道的下采样。


这与 MultiDiffusion(只不过是将重叠帧输入超分辨率模型)相结合,生成时间上一致的高保真视频。


我希望看到的是论文中的一些消融研究,显示有和没有多重扩散过程的结果。


这篇文章到此结束。下次有人跟你谈论卢米埃尔时,你知道该用一句话说什么。我希望这能让您对卢米埃尔模型有一些了解。


我们下期再见,在那之前,保重……

参考

[1] Omer Bar-Tal、Hila Chefer、Omer Tov、Charles Herrmann、Roni Paiss、Shiran Zada、Ariel Ephrat、Junhwa Hur、Yuanzhen Li、Tomer Michaeli、Oliver Wang、Deqing Sun、Tali Dekel、Inbar Mosseri、视频生成的时空扩散模型(2024),arXiv 预印本。


[2] 安德烈亚斯·布拉特曼、蒂姆·多克霍恩、苏米斯·库拉尔、丹尼尔·门德莱维奇、马切伊·基利安、多米尼克·洛伦茨、亚姆·莱维、锡安·英格利希、维克拉姆·沃莱蒂、亚当·莱茨、瓦伦·詹帕尼、罗宾·隆巴赫、稳定的视频扩散:将潜在视频扩散模型扩展到大型数据集(2023),arXiv 预印本。


[3] 奥拉夫·罗纳伯格、菲利普·费舍尔和托马斯·布洛克斯, U-Net:用于生物医学图像分割的卷积网络(2015),医学图像计算和计算机辅助干预国际会议。


也发布在这里