魔女のように微笑むモナ・リザを見たいですか?それとも真珠の耳飾りの女の子にウインクして微笑んでもらいたいですか? Google は、すべてを自動的に実行できる Lumiere [1] という名前のビデオ生成モデルをリリースしました。
これは主にテキストからビデオへのモデルですが、それ以上のことができます。プロンプト付きの参照画像を指定すると、参照画像のスタイルをビデオにコピーして、ビデオをスタイル化できます。
プロンプトを 1 つだけ入力するだけでビデオを編集することもできます。モデルはルミエールです。画像内のユーザーが指定した領域内のオブジェクトをアニメーション化することもできます。これはシネマグラフと呼ばれる技術です。
修復に関して言えば、ルミエールは、この例ではケーキなど、完全に欠けているオブジェクトについても推論することができます。
それはすべて、新しい時空 U-Net アーキテクチャを備えた拡散モデルに帰着します [3]。これは、ビデオ生成モデルでよく見られる時間的一貫性の問題を解決するために、U-Net アーキテクチャをカスタマイズしたものです。
Lumiere 論文、モデル アーキテクチャ、結果の視覚的な説明が利用可能です。
ビデオが一連の画像であることは誰もが知っています。そこで、上の図の一番上の行に示されている一連の画像を取得してみましょう。画像内の左から右への緑の線で示される 1 行だけを絞り込む場合、シーケンス内の画像間のピクセル値の滑らかな遷移を確認する必要があります。
トランジションがスムーズであれば、ビデオを見ているときにジャンプ効果は表示されません。
たとえば、Stable Video Diffusion [2] を使用して、月面を歩く宇宙飛行士のビデオ (上) を見ると、フレーム間で彼の手が消えているだけであることがわかります。換言すれば、フレーム間の時間的一貫性が欠如している。
時間と x 方向の強度の間のこの種の時間的不一致は、上の図で強調表示されている XT スライスとしてプロットできます。時間的な不一致がある場合は、XT スライスのプロットで強調表示されます。
Lumiere は、時空拡散モデルと拡散モデルに存在する修正された U-Net アーキテクチャを導入することで、この問題に対処します。
詳細を検討する前に、テキストからビデオへの生成モデルの一般的なパイプラインから始めましょう。
これらのパイプラインは、入力ビデオ シーケンスからキーフレームとして 5 フレームごとにサンプリングし、これらのキーフレームを 128 x 128 という低い解像度で 1 秒あたりわずか 3 フレームで生成できる基本モデルをトレーニングします。
次に、時間的超解像度を使用して中間フレームを予測することでフレーム レートを向上させます。したがって、フレーム レートは 16 フレーム/秒になります。
これらのフレームの空間解像度は、空間超解像度ネットワーク (SSR) によって、たとえば 1024 x 1024 に増加され、最終的にビデオが生成されます。
このフレームワークで使用される基本モデルは通常、内部に U-Net を含む拡散モデルです。
一方、Lumiere の提案されたパイプラインは、フレームをドロップすることなくすべてのフレームを一度に処理します。すべてのフレームを処理する計算コストに対処するために、基本拡散モデルのアーキテクチャが変更されて、時空間 UNet アーキテクチャ (STUNet) が実現されます。
STUNet はすべての入力フレームを処理するため、時間的超解像度 (TSR) の必要がなくなります。したがって、パイプラインには空間超解像度 (SSR) がまだ残っています。しかし、目新しいのは MultiDiffusion の導入です。
時空 U-Net について調べる前に、U-Net について簡単に復習しましょう。 U-Net への入力は、幅 W、高さ H、チャンネル RGB の 3 つの 3 次元画像です。 U-Net のダブル コンボリューション ステージごとに、最大プーリングを適用してダウンサンプリングするか、特徴の空間次元を削減します。この空間次元の縮小ステップは赤い矢印で示されています。
同様に、デコーダ段階では、解像度を増加またはアップサンプリングして入力のサイズに戻すアップ畳み込みが行われます。
ビデオに関しては、入力に時間という追加の側面があります。そのため、時空 U-Net は、空間次元だけでなく時間 T の次元でもビデオをダウンサンプリングおよびアップサンプリングすることを提案しています。これが時間的サイズ変更の主なアイデアであり、この Lumiere 論文の主な貢献です。
サイズ変更には、入力に追加の次元が追加されたため、2D プーリングではなく 3D プーリングが使用されます。
私と同じように、あなたもそのアイデアの単純さに驚かれるかもしれません。著者自身が論文の中で次のように述べています。
驚くべきことに、この設計の選択は、アーキテクチャに空間ダウンおよびアップサンプリング操作のみを含め、ネットワーク全体で固定の時間解像度を維持するという慣例に従っていた、以前の T2V モデルでは見落とされてきました。
実装の微妙な点をいくつか見てみましょう。これらは、ビデオ拡散モデルと呼ばれる、この論文で紹介された因数分解畳み込みを使用します。このアイデアは、たとえば、各 3x3 畳み込みを 1x3x3 畳み込みに変更することによって、各 2D 畳み込みを空間のみの 3D 畳み込みに変更することです。
アテンションについては、各空間アテンション ブロックの後に、最初の軸に対してアテンションを実行し、空間軸をバッチ軸として扱う時間的アテンション ブロックを挿入します。
これら 2 つの変更により、因数分解された畳み込みブロックが事前トレーニングされたモデルに追加され、追加の層のみが事前トレーニングされた層の重みが固定されてトレーニングされます。
この論文の 2 番目の目新しさは、空間超解像の際に導入された MultiDiffusion です。 lumiere より前のビデオ生成モデルを使用する場合、空間超解像度モデルは一連のフレームを使用します。
ただし、配列は重複していませんでした。たとえば、SSR モジュールによって入力として受け取られる最初の 8 フレームと次の 8 フレームは、重複することなく分離されています。
しかし『リュミエール』に関しては、最初の8コマと後半の8コマが2コマ重なっています。これにより、空間超解像モデルは時間セグメント間の滑らかな遷移を実現しているように見えます。これは、論文ではマルチ拡散と呼ばれるものです。
提案された 2 つの技術と、imagen ビデオなどの従来のアーキテクチャで一般的だったカスケード拡散モデル アーキテクチャを組み合わせることで、かなりの数のさまざまなアプリケーションが可能になります。
例えば:
モデルを定量的に評価するために、モデルはユーザー調査を通じて実行され、ユーザーは提案されたモデルの結果を、Pika、ZeroScope、または安定したビデオ拡散などのいくつかの最先端のモデルと比較しました。結果は、ユーザーがテキストからビデオへの場合と画像からビデオへの場合の両方で Lumiere モデルを好んだことを示しています。
結論として、笑顔のモナリザなどのプロモーション ビデオのスタントを除けば、この論文の貢献は非常に単純です。この論文では、時間チャネルのダウンサンプリングを 1 行で紹介しています。
これに、重複したフレームを超解像度モデルに入力するだけの MultiDiffusion と組み合わせることで、時間的に一貫した高忠実度のビデオが生成されます。
私が見たかったのは、多拡散プロセスを使用した場合と使用しない場合の結果を示す、論文内のいくつかのアブレーション研究です。
これでこの記事は終わりになります。次回、誰かがあなたにルミエールについて話したら、一行で何を言えばいいのかわかるはずです。 Lumiere モデルについての洞察が得られたことを願っています。
また今度お会いしましょう、それまで気をつけてください…
[1] オメル・バータル、ヒラ・チェファー、オメル・トフ、チャールズ・ヘルマン、ロニ・パイス、シラン・ザダ、アリエル・エフラット、ジュンファ・ハー、ユアンジェン・リー、トメル・ミカエリ、オリバー・ワン、デチン・サン、タリ・デケル、インバル・モセリ、
[2] アンドレアス・ブラットマン、ティム・ドックホーン、スミット・クラール、ダニエル・メンデレヴィッチ、マチェイ・キリアン、ドミニク・ロレンツ、ヤム・レヴィ、ザイオン・イングリッシュ、ヴィクラム・ヴォレティ、アダム・レッツ、ヴァルン・ジャンパニ、ロビン・ロンバック、
[3] オラフ・ロンネバーガー、フィリップ・フィッシャー、トーマス・ブロックス、
ここでも公開されています