Хотели бы вы увидеть, как Мона Лиза улыбается, как ведьма? Или вы бы хотели, чтобы девушка с жемчужной сережкой подмигивала и улыбалась? Google только что выпустил модель генерации видео под названием Lumiere [1], которая способна сделать все это за вас.
Хотя это в первую очередь модель преобразования текста в видео, она способна на гораздо большее. Учитывая эталонное изображение с подсказкой, он может стилизовать ваши видео, копируя стиль эталонного изображения в ваши видео.
Вы даже можете редактировать свои видео с помощью всего лишь одной подсказки. Модель Люмиэр. Он даже способен анимировать объекты в заданной пользователем области изображения — метод под названием Cinemagraphs.
Когда дело доходит до рисования, Люмьер способен рассуждать даже о совершенно отсутствующем объекте, таком как торт в этом примере.
Все сводится к диффузионной модели с новой пространственно-временной архитектурой U-Net [3]. Это модификация архитектуры U-Net для решения проблемы временной согласованности, которая довольно распространена в моделях генерации видео.
Доступно визуальное объяснение статьи Люмьера, архитектуры модели и результатов.
Все мы знаем, что видео — это последовательность изображений. Итак, давайте возьмем последовательность изображений, показанную в верхнем ряду на рисунке выше. Если мы сузим только одну строку изображения, на что указывает зеленая линия, идущая слева направо, нам нужно увидеть плавный переход значений пикселей между изображениями в последовательности.
Если переход плавный, то эффекта прыжков во время просмотра видео мы не увидим.
Например, если мы возьмем Stable Video Diffusion [2] и посмотрим видео идущего по Луне астронавта (вверху), мы увидим, что его руки просто исчезают между кадрами. Другими словами, отсутствует временная согласованность между кадрами.
Этот вид временного несоответствия между временем и интенсивностью в направлении x можно отобразить как срез XT, как показано на рисунке выше. А если есть временное несоответствие, оно выделяется на графике среза XT.
Люмьер решает эту проблему, представляя модель пространственно-временной диффузии и модифицированную архитектуру U-Net, присутствующую в модели диффузии.
Прежде чем углубляться в детали, давайте начнем с типичного конвейера модели преобразования текста в видео.
Эти конвейеры выбирают каждый пятый кадр в качестве ключевых кадров из входной видеопоследовательности и обучают базовую модель, которая может генерировать эти ключевые кадры с разрешением всего 128 на 128 со скоростью всего 3 кадра в секунду.
Затем используется временное суперразрешение для увеличения частоты кадров путем прогнозирования промежуточных кадров. Таким образом, частота кадров теперь становится 16 кадров в секунду.
Пространственное разрешение этих кадров затем увеличивается, скажем, до 1024 на 1024 с помощью сети пространственного сверхразрешения (SSR), что в конечном итоге приводит к нашему сгенерированному видео.
Базовая модель, используемая в этой структуре, обычно представляет собой диффузионную модель, внутри которой, в свою очередь, находится U-Net.
С другой стороны, предлагаемый конвейер Люмьера обрабатывает все кадры одновременно, не пропуская кадры. Чтобы справиться с вычислительными затратами на обработку всех кадров, архитектура базовой модели диффузии модифицируется и превращается в пространственно-временную архитектуру UNet или STUNet.
Поскольку STUNet обрабатывает все входные кадры, необходимость во временном суперразрешении или TSR устраняется. Таким образом, конвейер все еще имеет пространственное сверхразрешение или SSR. Но новинка — это внедрение MultiDiffusion.
Давайте быстро рассмотрим U-Net, прежде чем рассматривать U-Net пространства-времени. Входными данными в U-Net является 3-х мерное изображение шириной W, высотой H и каналами RGB. После каждого этапа двойной свертки U-Net мы применяем максимальное объединение для понижения дискретизации или уменьшения пространственного измерения объектов. Этот этап уменьшения пространственного измерения обозначен красными стрелками.
Аналогичным образом, на этапе декодера выполняются повышающие свертки для увеличения или повышения разрешения до размера входного сигнала.
Когда дело доходит до видео, у нас есть дополнительное измерение во входных данных — время. поэтому пространство-время U-Net предлагает понижать и повышать дискретизацию видео не только в пространственном измерении, но и во временном измерении T. Это основная идея временного изменения размера, и это основной вклад этой статьи Люмьера.
Для изменения размера они используют 3D-пулинг вместо 2D-пулинга, поскольку входные данные теперь имеют дополнительное измерение.
Как и я, вы можете быть удивлены простотой идеи. Сами авторы отметили в статье:
Удивительно, но этот выбор дизайна был упущен из виду предыдущими моделями T2V, которые следуют соглашению, включающему в архитектуру только операции пространственного понижения и повышения дискретизации и поддерживающему фиксированное временное разрешение по всей сети.
Давайте перейдем к некоторым нюансам реализации. Они используют факторизованную свертку, представленную в этой статье под названием «Модели видеодиффузии». Идея состоит в том, чтобы превратить каждую 2D-свертку в трехмерную свертку, состоящую только из пространства, например, изменив каждую свертку 3x3 на свертку 1x3x3.
Что касается внимания, после каждого блока пространственного внимания мы вставляем блок временного внимания, который обрабатывает внимание по первой оси и обрабатывает пространственные оси как пакетные оси.
Благодаря этим двум изменениям к предварительно обученной модели добавляются факторизованные блоки свертки, и только дополнительные слои обучаются с фиксированными весами предварительно обученных слоев.
Вторая новинка статьи — MultiDiffusion, введенная при пространственном сверхразрешении. Если вы возьмете модели генерации видео до Люмьера, модель пространственного сверхразрешения принимает последовательность кадров.
Однако последовательности не пересекались. Например, первые 8 кадров и следующие 8 кадров, принимаемые в качестве входных данных модуля SSR, разделены без какого-либо перекрытия.
Но когда дело касается Люмьера, первые 8 кадров и вторые 8 кадров перекрываются на два кадра. Поступая таким образом, модель пространственного сверхразрешения, по-видимому, обеспечивает плавные переходы между временными сегментами. В статье это называется мультидиффузией.
Сочетание двух предложенных методов вместе с отсутствием архитектуры модели каскадной диффузии, которая преобладала в предшествующих архитектурах, таких как видеоизображение, приводит к целому ряду разнообразных приложений.
Например:
Для количественной оценки модели было проведено пользовательское исследование, в ходе которого пользователи сравнивали результаты предложенной модели с некоторыми современными моделями, такими как Pika, ZeroScope или стабильное распространение видео. Результаты показывают, что пользователи предпочли модель Люмьера как в случае преобразования текста в видео, так и в случае преобразования изображения в видео.
Итак, в заключение, за исключением всех рекламных видео-трюков, таких как улыбающаяся Моналиса, вклад этой статьи довольно прост. В одной строке статья представляет собой понижающую дискретизацию временного канала.
В сочетании с MultiDiffusion, который представляет собой не что иное, как перекрывающиеся кадры, подаваемые в модель сверхразрешения, генерирует высококачественные видео, согласованные во времени.
Мне бы хотелось увидеть в статье некоторые исследования абляции, показывающие результаты с использованием процесса мультидиффузии и без него.
Это подводит нас к концу этой статьи. В следующий раз, когда кто-нибудь заговорит с вами о Люмьере, вы знаете, что сказать в одной строке. Надеюсь, это дало некоторое представление о модели Люмьера.
Увидимся в следующий раз, а до тех пор, берегите себя…
[1] Омер Бар-Тал, Хила Чефер, Омер Тов, Чарльз Херрманн, Рони Пайс, Ширан Зада, Ариэль Эфрат, Джунхва Хур, Юаньчжэнь Ли, Томер Михаэли, Оливер Ван, Децин Сун, Тали Декель, Инбар Моссери,
[2] Андреас Блаттманн, Тим Докхорн, Сумит Кулал, Даниэль Менделевич, Мацей Килиан, Доминик Лоренц, Ям Леви, Сион Инглиш, Викрам Волети, Адам Леттс, Варун Джампани, Робин Ромбах,
[3] Олаф Роннебергер, Филипп Фишер и Томас Брокс,
Также опубликовано здесь