paint-brush
静的なテキストから画像へのモデルを動的なアニメーション ジェネレータに変換する方法@modeltuning
新しい歴史

静的なテキストから画像へのモデルを動的なアニメーション ジェネレータに変換する方法

Model Tuning5m2024/11/18
Read on Terminal Reader

長すぎる; 読むには

AnimateDiff は、微調整なしでテキストから画像へのモデルをアニメーション化するプラグアンドプレイ モーション モジュールを導入します。MotionLoRA はさらに、アニメーションを特定のパターンに効率的に適応させ、パーソナライズされた T2I モデルからスムーズで高品質のアニメーションを実現します。
featured image - 静的なテキストから画像へのモデルを動的なアニメーション ジェネレータに変換する方法
Model Tuning HackerNoon profile picture
0-item

著者:

(1) Yuwei Guo、香港中文大学。

(2)上海人工知能研究所のCeyuan Yang氏(責任著者)

(3)アニ・ラオ、スタンフォード大学

(4)上海人工知能研究所、梁正陽氏

(5) Yaohui Wang、上海人工知能研究所。

(6)上海人工知能研究所のYu Qiao氏

(7) マニーシュ・アグラワラ、スタンフォード大学。

(8)上海人工知能研究所の林大華氏

(9)香港中文大学および香港中文大学のBo Dai氏。

リンク一覧

要約と1 はじめに

2 仕事関連

3 予備

  1. アニメーション差分

4.1 ドメインアダプタによるトレーニングデータからの悪影響を軽減する

4.2 モーションモジュールでモーションの事前分布を学ぶ

4.3 MotionLoraで新しい動作パターンに適応する

4.4 AnimateDiff の実践

5 実験と 5.1 定性的な結果

5.2 定性的な比較

5.3 アブレーション研究

5.4 制御可能な発電

6 結論

7 倫理声明

8 再現性に関する声明、謝辞および参考文献


図 1: AnimateDiff は、既存のパーソナライズされたテキストから画像への変換 (T2I) モデルを、事前トレーニング済みのモーション モジュールを使用して、対応するアニメーション ジェネレーターに直接変換します。最初の行: AnimateDiff と異なるドメインの 3 つのパーソナライズされた T2I を組み合わせた結果。2 番目の行: AnimateDiff と MotionLoRA をさらに組み合わせてショット タイプ コントロールを実現した結果。Acrobat Reader で表示すると最適です。画像をクリックすると、アニメーション クリップが再生されます。

抽象的な

テキストから画像への (T2I) 拡散モデル (Stable Diffusion など) と、DreamBooth や LoRA などの対応するパーソナライゼーション技術の進歩により、誰もが手頃なコストで想像力を高品質の画像に表現できるようになりました。ただし、既存の高品質のパーソナライズされた T2I にモーション ダイナミクスを追加し、アニメーションを生成できるようにすることは、依然として未解決の課題です。このホワイト ペーパーでは、モデル固有の調整を必要とせずにパーソナライズされた T2I モデルをアニメーション化する実用的なフレームワークである AnimateDiff を紹介します。このフレームワークの中核となるのは、プラグ アンド プレイのモーション モジュールです。これは、一度トレーニングすれば、同じベース T2I から生成されたパーソナライズされた T2I にシームレスに統合できます。提案されたトレーニング戦略により、モーション モジュールは、実際のビデオから転送可能なモーション プライアを効果的に学習します。トレーニングが完了すると、モーション モジュールをパーソナライズされた T2I モデルに挿入して、パーソナライズされたアニメーション ジェネレーターを形成できます。さらに、AnimateDiff の軽量な微調整手法である MotionLoRA を提案します。これにより、事前トレーニング済みのモーション モジュールが、低いトレーニングおよびデータ収集コストで、さまざまなショット タイプなどの新しいモーション パターンに適応できるようになります。コミュニティから収集されたいくつかの公開されている代表的なパーソナライズされた T2I モデルで AnimateDiff と MotionLoRA を評価します。結果は、私たちのアプローチが、これらのモデルが視覚的な品質とモーションの多様性を維持しながら、時間的にスムーズなアニメーション クリップを生成するのに役立つことを示しています。コードと事前トレーニング済みの重みは、https://github.com/guoyww/AnimateDiff で入手できます。

1 はじめに

テキストから画像への(T2I)拡散モデル(Nichol et al., 2021; Ramesh et al., 2022; Saharia et al., 2022; Rombach et al., 2022)は、アーティストやアマチュアがテキストプロンプトを使用して視覚コンテンツを作成するのに大きな力を与えました。既存のT2Iモデルの創造性をさらに刺激するために、DreamBooth(Ruiz et al., 2023)やLoRA(Hu et al., 2021)などの軽量パーソナライゼーション手法が提案されています。これらの方法により、RTX3080を搭載したラップトップなどのコンシューマーグレードのハードウェアを使用して、小さなデータセットでカスタマイズされた微調整が可能になり、ユーザーはベースT2Iモデルを新しいドメインに適応させ、比較的低コストで視覚品質を向上させることができます。その結果、AIアーティストやアマチュアの大規模なコミュニティが、Civitai(2022)やHugging Face(2022)などのモデル共有プラットフォームで多数のパーソナライズされたモデルを提供してきました。これらのパーソナライズされたT2Iモデルは驚くべき視覚品質を生成できますが、その出力は静止画像に限定されています。一方、映画や漫画業界などの実際の制作では、アニメーションを生成できる機能がより望まれています。本研究では、アマチュアユーザーにとって計算コストやデータ収集コストの点で非現実的なことが多いモデル固有の微調整を必要とせずに、既存の高品質のパーソナライズされたT2Iモデルをアニメーションジェネレーターに直接変換することを目指しています。


我々は、パーソナライズされた T2I をアニメーション化するという問題に対処しながら、その視覚的品質とドメイン知識を維持する効果的なパイプラインである AnimateDiff を紹介します。AnimateDiff の中核は、WebVid-10M (Bain et al., 2021) などのビデオデータセットから合理的なモーションの事前確率を学習するプラグアンドプレイのモーションモジュールをトレーニングするためのアプローチです。推論時に、トレーニングされたモーションモジュールをパーソナライズされた T2I に直接統合し、特別な調整を必要とせずに、スムーズで視覚的に魅力的なアニメーションを生成できます。AnimateDiff でのモーションモジュールのトレーニングは、3 つの段階で構成されます。まず、ベース T2I のドメインアダプターを微調整して、ターゲットビデオデータセットの視覚分布に合わせます。この予備的なステップにより、モーションモジュールがトレーニングビデオからのピクセルレベルの詳細ではなく、モーションの事前確率の学習に集中することが保証されます。次に、ベース T2I をドメインアダプターとともにインフレートし、モーションモデリング用に新しく初期化されたモーションモジュールを導入します。次に、ドメイン アダプターと基本 T2I の重みを固定したまま、このモジュールをビデオで最適化します。これにより、モーション モジュールは一般化されたモーション プライアを学習し、モジュール挿入によって、他のパーソナライズされた T2I がパーソナライズされたドメインに沿ったスムーズで魅力的なアニメーションを生成できるようになります。AnimateDiff の第 3 段階 (MotionLoRA とも呼ばれる) は、少数の参照ビデオとトレーニング反復で、事前トレーニング済みのモーション モジュールを特定のモーション パターンに適応させることを目的としています。これは、Low-Rank Adaptation (LoRA) (Hu et al., 2021) を利用してモーション モジュールを微調整することで実現します。驚くべきことに、新しいモーション パターンへの適応は、わずか 50 本の参照ビデオで実現できます。さらに、MotionLoRA モデルに必要な追加のストレージ スペースは約 30M のみであるため、モデル共有の効率がさらに高まります。この効率は、事前トレーニングの高額なコストを負担できないが、特定の効果に合わせてモーション モジュールを微調整したいユーザーにとって特に価値があります。


モデル共有プラットフォーム (Civitai、2022 年、Hugging Face、2022 年) から収集されたさまざまなパーソナライズされた T2I モデルのセットで AnimateDiff と MotionLoRA のパフォーマンスを評価します。これらのモデルは、2D 漫画からリアルな写真まで、幅広い領域を網羅しているため、評価のための包括的なベンチマークを形成します。実験の結果は有望な結果を示しています。実際には、時間軸に沿った Transformer (Vaswani ら、2017 年) アーキテクチャが、適切なモーション プライアをキャプチャするのに十分であることもわかりました。また、モーション モジュールは、追加のトレーニングを必要とせずに、ControlNet などの既存のコンテンツ制御アプローチ (Zhang ら、2023 年、Mou ら、2023 年) とシームレスに統合でき、AnimateDiff で制御可能なアニメーション生成が可能になることも実証しています。


要約すると、(1) 特別な微調整なしであらゆるパーソナライズされた T2I のアニメーション生成機能を可能にする実用的なパイプラインである AnimateDiff を紹介します。(2) Transformer アーキテクチャがモーション プライアのモデリングに適していることを確認し、ビデオ生成に貴重な洞察を提供します。(3) 事前トレーニング済みのモーション モジュールを新しいモーション パターンに適応させる軽量の微調整手法である MotionLoRA を提案します。(4) 代表的なコミュニティ モデルを使用してアプローチを包括的に評価し、学術的なベースラインと Gen2 (2023) や Pika Labs (2023) などの商用ツールの両方と比較します。さらに、制御可能な生成に関する既存の研究との互換性を紹介します。


この論文は、CC BY 4.0 DEED ライセンスの下でarxiv で公開されています