静的なテキストから画像へのモデルを動的なアニメーションジェネレータに変換する方法

に Model Tuning5m2024/11/18

長すぎる; 読むには

AnimateDiff は、微調整なしでテキストから画像へのモデルをアニメーション化するプラグアンドプレイモーションモジュールを導入します。MotionLoRA はさらに、アニメーションを特定のパターンに効率的に適応させ、パーソナライズされた T2I モデルからスムーズで高品質のアニメーションを実現します。

featured image - 静的なテキストから画像へのモデルを動的なアニメーションジェネレータに変換する方法

著者:

(1) Yuwei Guo、香港中文大学。

（２）上海人工知能研究所のCeyuan Yang氏（責任著者）

（３）アニ・ラオ、スタンフォード大学

（4）上海人工知能研究所、梁正陽氏

(5) Yaohui Wang、上海人工知能研究所。

（6）上海人工知能研究所のYu Qiao氏

(7) マニーシュ・アグラワラ、スタンフォード大学。

（８）上海人工知能研究所の林大華氏

（9）香港中文大学および香港中文大学のBo Dai氏。

リンク一覧

要約と1 はじめに

2 仕事関連

3 予備

アニメーション差分

4.1 ドメインアダプタによるトレーニングデータからの悪影響を軽減する

4.2 モーションモジュールでモーションの事前分布を学ぶ

4.3 MotionLoraで新しい動作パターンに適応する

8 再現性に関する声明、謝辞および参考文献

抽象的な

テキストから画像への (T2I) 拡散モデル (Stable Diffusion など) と、DreamBooth や LoRA などの対応するパーソナライゼーション技術の進歩により、誰もが手頃なコストで想像力を高品質の画像に表現できるようになりました。ただし、既存の高品質のパーソナライズされた T2I にモーションダイナミクスを追加し、アニメーションを生成できるようにすることは、依然として未解決の課題です。このホワイトペーパーでは、モデル固有の調整を必要とせずにパーソナライズされた T2I モデルをアニメーション化する実用的なフレームワークである AnimateDiff を紹介します。このフレームワークの中核となるのは、プラグアンドプレイのモーションモジュールです。これは、一度トレーニングすれば、同じベース T2I から生成されたパーソナライズされた T2I にシームレスに統合できます。提案されたトレーニング戦略により、モーションモジュールは、実際のビデオから転送可能なモーションプライアを効果的に学習します。トレーニングが完了すると、モーションモジュールをパーソナライズされた T2I モデルに挿入して、パーソナライズされたアニメーションジェネレーターを形成できます。さらに、AnimateDiff の軽量な微調整手法である MotionLoRA を提案します。これにより、事前トレーニング済みのモーションモジュールが、低いトレーニングおよびデータ収集コストで、さまざまなショットタイプなどの新しいモーションパターンに適応できるようになります。コミュニティから収集されたいくつかの公開されている代表的なパーソナライズされた T2I モデルで AnimateDiff と MotionLoRA を評価します。結果は、私たちのアプローチが、これらのモデルが視覚的な品質とモーションの多様性を維持しながら、時間的にスムーズなアニメーションクリップを生成するのに役立つことを示しています。コードと事前トレーニング済みの重みは、https://github.com/guoyww/AnimateDiff で入手できます。

1 はじめに

テキストから画像への（T2I）拡散モデル（Nichol et al., 2021; Ramesh et al., 2022; Saharia et al., 2022; Rombach et al., 2022）は、アーティストやアマチュアがテキストプロンプトを使用して視覚コンテンツを作成するのに大きな力を与えました。既存のT2Iモデルの創造性をさらに刺激するために、DreamBooth（Ruiz et al., 2023）やLoRA（Hu et al., 2021）などの軽量パーソナライゼーション手法が提案されています。これらの方法により、RTX3080を搭載したラップトップなどのコンシューマーグレードのハードウェアを使用して、小さなデータセットでカスタマイズされた微調整が可能になり、ユーザーはベースT2Iモデルを新しいドメインに適応させ、比較的低コストで視覚品質を向上させることができます。その結果、AIアーティストやアマチュアの大規模なコミュニティが、Civitai（2022）やHugging Face（2022）などのモデル共有プラットフォームで多数のパーソナライズされたモデルを提供してきました。これらのパーソナライズされたT2Iモデルは驚くべき視覚品質を生成できますが、その出力は静止画像に限定されています。一方、映画や漫画業界などの実際の制作では、アニメーションを生成できる機能がより望まれています。本研究では、アマチュアユーザーにとって計算コストやデータ収集コストの点で非現実的なことが多いモデル固有の微調整を必要とせずに、既存の高品質のパーソナライズされたT2Iモデルをアニメーションジェネレーターに直接変換することを目指しています。

我々は、パーソナライズされた T2I をアニメーション化するという問題に対処しながら、その視覚的品質とドメイン知識を維持する効果的なパイプラインである AnimateDiff を紹介します。AnimateDiff の中核は、WebVid-10M (Bain et al., 2021) などのビデオデータセットから合理的なモーションの事前確率を学習するプラグアンドプレイのモーションモジュールをトレーニングするためのアプローチです。推論時に、トレーニングされたモーションモジュールをパーソナライズされた T2I に直接統合し、特別な調整を必要とせずに、スムーズで視覚的に魅力的なアニメーションを生成できます。AnimateDiff でのモーションモジュールのトレーニングは、3 つの段階で構成されます。まず、ベース T2I のドメインアダプターを微調整して、ターゲットビデオデータセットの視覚分布に合わせます。この予備的なステップにより、モーションモジュールがトレーニングビデオからのピクセルレベルの詳細ではなく、モーションの事前確率の学習に集中することが保証されます。次に、ベース T2I をドメインアダプターとともにインフレートし、モーションモデリング用に新しく初期化されたモーションモジュールを導入します。次に、ドメインアダプターと基本 T2I の重みを固定したまま、このモジュールをビデオで最適化します。これにより、モーションモジュールは一般化されたモーションプライアを学習し、モジュール挿入によって、他のパーソナライズされた T2I がパーソナライズされたドメインに沿ったスムーズで魅力的なアニメーションを生成できるようになります。AnimateDiff の第 3 段階 (MotionLoRA とも呼ばれる) は、少数の参照ビデオとトレーニング反復で、事前トレーニング済みのモーションモジュールを特定のモーションパターンに適応させることを目的としています。これは、Low-Rank Adaptation (LoRA) (Hu et al., 2021) を利用してモーションモジュールを微調整することで実現します。驚くべきことに、新しいモーションパターンへの適応は、わずか 50 本の参照ビデオで実現できます。さらに、MotionLoRA モデルに必要な追加のストレージスペースは約 30M のみであるため、モデル共有の効率がさらに高まります。この効率は、事前トレーニングの高額なコストを負担できないが、特定の効果に合わせてモーションモジュールを微調整したいユーザーにとって特に価値があります。

モデル共有プラットフォーム (Civitai、2022 年、Hugging Face、2022 年) から収集されたさまざまなパーソナライズされた T2I モデルのセットで AnimateDiff と MotionLoRA のパフォーマンスを評価します。これらのモデルは、2D 漫画からリアルな写真まで、幅広い領域を網羅しているため、評価のための包括的なベンチマークを形成します。実験の結果は有望な結果を示しています。実際には、時間軸に沿った Transformer (Vaswani ら、2017 年) アーキテクチャが、適切なモーションプライアをキャプチャするのに十分であることもわかりました。また、モーションモジュールは、追加のトレーニングを必要とせずに、ControlNet などの既存のコンテンツ制御アプローチ (Zhang ら、2023 年、Mou ら、2023 年) とシームレスに統合でき、AnimateDiff で制御可能なアニメーション生成が可能になることも実証しています。

要約すると、(1) 特別な微調整なしであらゆるパーソナライズされた T2I のアニメーション生成機能を可能にする実用的なパイプラインである AnimateDiff を紹介します。(2) Transformer アーキテクチャがモーションプライアのモデリングに適していることを確認し、ビデオ生成に貴重な洞察を提供します。(3) 事前トレーニング済みのモーションモジュールを新しいモーションパターンに適応させる軽量の微調整手法である MotionLoRA を提案します。(4) 代表的なコミュニティモデルを使用してアプローチを包括的に評価し、学術的なベースラインと Gen2 (2023) や Pika Labs (2023) などの商用ツールの両方と比較します。さらに、制御可能な生成に関する既存の研究との互換性を紹介します。