メタ AI の新しいモデルのビデオ作成機能が登場しました。一言 。ビデオを生成できるだけでなく、新しい最先端の方法でもあり、これまで以上に高品質で一貫性のあるビデオを生成します! で言えば、テキストからビデオを生成します このモデルは、動画の安定した拡散モデルと見なすことができます。確かに、画像を生成できるようになった後の次のステップ。これは、ニュース Web サイトで、または記事のタイトルを読んだだけですでに見たことがあるはずのすべての情報ですが、それが正確に何であり、どのように機能するかはまだわかりません。 方法は次のとおりです... 参考文献 ►記事全文を読む: ► メタのブログ投稿: ►シンガーら。 (メタ AI)、2022 年、「MAKE-A-VIDEO: テキスト ビデオ データを使用しないテキストからビデオへの生成」、 ►Make-a-Video(公式ページ): ://makeavideo.studio/?fbclid=IwAR0tuL9Uc6kjZaMoJHCngAMUNp9bZbyhLmdOUveJ9leyyfL9awRy4seQGW4 ► Pytorch の実装: ►マイ ニュースレター (毎週メールで説明される新しい AI アプリケーション!): https://www.louisbouchard.ai/make-a-video/ https://ai.facebook.com/blog/generative-ai-text-to-video/ https://makeavideo.studio/Make-A-Video.pdf https https://github.com/lucidrains/make-a-video-pytorch https://www.louisbouchard.ai/newsletter/ ビデオトランスクリプト 0:00 メティアスの新モデルメイク動画が公開されました 0:03 そして、それは単一の文で生成します 0:05 できないテキストからのビデオ 0:07 ビデオを生成しますが、それは新しいものでもあります 0:09 最先端の方法により、より高い生産性を実現 0:11 品質と一貫性のあるビデオ 0:14 このモデルを安定したものとして見ることができます 0:16 動画の拡散モデルは確かに 0:19 生成できるようになった後の次のステップ 0:21 画像 これが必要な情報です 0:23 すでにニュースのウェブサイトで見たことがある、または 0:26 動画のタイトルを読むだけで 0:28 しかし、あなたがまだ知らないのは、 0:30 それは正確にどのように機能するか ビデオを作る 0:33 metによる最新の出版物です 0:35 III を生成することができます。 0:37 テキスト入力からの短いビデオ 0:40 このように複雑さを追加しています 0:42 だけでなく、画像生成テストに 0:45 の複数のフレームを生成する必要がある 0:47 同じ被写体とシーンですが、 0:49 時間内に首尾一貫している必要があります。 0:51 ダリーを使用して60枚の画像を生成するだけです 0:53 見た目だけのビデオを生成します 0:56 悪くて現実的なものは何も必要ありません 0:58 世界を理解するモデル 1:00 より良い方法で、このレベルの 1:02 一貫性を生み出すための理解 1:04 よく溶け合う一連の画像 1:06 一緒にあなたは基本的にシミュレートしたい 1:08 ワールドを作成し、録音をシミュレートします 1:11 しかし、通常はどうすればそれを行うことができますか 1:14 大量のテキスト ビデオ ペアが必要になります。 1:16 そのようなビデオを生成するようにモデルをトレーニングします 1:18 テキスト入力からですが、この場合はそうではありません 1:21 この種のデータは実際に 1:23 取得が難しく、トレーニング費用がかかる 1:25 彼らはこれに近づく超高価です 1:27 別の方法で問題を解決することです 1:30 画像モデルに最適なテキストを取得し、 1:32 それをビデオに適応させ、それが私に会ったことです 1:35 彼らはちょうど研究論文でやった 1:38 その場合、テキストから画像へのリリース 1:40 モデルは、メタによって呼び出される別のモデルです 1:43 前に取り上げた雑誌 1:45 詳しく知りたい方は動画で 1:47 しかし、そのようなモデルをどのように適応させますか 1:50 追加することを考慮してください 1:53 モデルの時空間パイプライン 1:55 これは、ビデオを処理できるようにすることを意味します 1:58 モデルが生成するだけでなく、 2:00 画像ですが、この場合は16個が低くなっています 2:03 短いコヒーレントを作成するための解像度 2:06 テキストと同様の方法でビデオを 2:08 画像モデルですが、1次元を追加します 2:11 通常の畳み込み 2:13 二次元の単純な足し算 2:15 事前に訓練された状態を保つことができます 2:17 二次元畳み込みも同じ 2:19 一時的なディメンションを追加します 2:22 ほとんどを再利用してゼロからトレーニングします 2:25 からのコードとモデルのパラメーター 2:27 彼らが私たちから始めたイメージモデルも 2:30 私たちの世代をテキストで導きたい 2:32 と非常によく似た入力 2:34 クリップ埋め込みを使用した画像モデル 2:37 プロセスの詳細については、厩舎で説明します 2:39 慣れていない場合は拡散ビデオ 2:41 彼らの問題を抱えていますが、彼らもそうなるでしょう 2:43 時間次元を追加するとき 2:45 テキスト機能を 2:47 同じことをしている画像の特徴 2:49 私が説明した注意モジュールを維持する 2:52 私のメイクシーンビデオで 2:55 一次元注意モジュールまたは 2:57 一時的な考慮事項 コピー ペースト 3:00 画像生成モデルと複製 3:02 もう1つの生成モジュール 3:04 16のイニシャルをすべて持っている寸法 3:07 16フレームで何ができる? 3:10 フレームは本当に面白いものは何もありません 3:13 高精細ビデオを作成する必要があります 3:16 それらのフレームのうち、モデルが行う 3:19 プレビューにアクセスして 3:21 将来のフレームと反復 3:23 の観点からそれらの両方から補間する 3:27 での時間的および空間的次元 3:30 同時に、基本的に新しいものを生成します 3:33 それらの間の大きなフレーム 3:35 フレームに基づく最初の 16 フレーム 3:38 それらの前後に 3:40 動きを首尾一貫させる 3:43 全体的なビデオが台無しになりました 3:45 フレーム補間ネットワークの使用 3:47 他の動画でも説明しました 3:50 基本的には私たちが撮影した画像を 3:52 発生するギャップを持って埋める 3:54 情報間で同じことを行います 3:57 空間成分拡大のためのもの 3:59 画像とピクセルギャップを埋める 4:02 もっと高画質にして 4:04 テキストの微調整を要約すると 4:07 ビデオ生成用の画像モデル this 4:09 彼らはすでに強力なモデルを採用していることを意味します 4:12 訓練され、適応し、それを少し訓練する 4:14 これでビデオに慣れるためにもう少し 4:16 再トレーニングはラベルなしで行われます 4:19 モデルに教えるだけのビデオ 4:21 動画と動画フレームを理解する 4:23 データセットを作る一貫性 4:25 構築プロセスははるかに簡単です 4:27 画像最適化モデルをもう一度使用する 4:30 私たちの空間解像度を向上させるために 4:32 最後のフレーム補間コンポーネント 4:35 フレームを追加してビデオを滑らかにします 4:38 もちろん、結果はまだ完璧ではありません 4:40 テキストから画像へのモデルと同様ですが、 4:43 これがどれだけ進行が速いかを知っている 4:45 私がどのように会ったかの概要 4:47 テキストからビデオへの変換に成功しました 4:49 この素晴らしい論文のタスク すべてのリンク 4:52 あなたがしたい場合は、以下の説明にあります 4:53 彼らのアプローチについてもっと知りたい 4:55 pytorch実装でも 4:57 すでにコミュニティによって開発されている 4:59 あなたがそうするなら、それをお楽しみに 5:02 自分で実装したい ありがとう 5:04 ビデオ全体を見るために、私はそうします 5:06 次回は別の素晴らしいものでお会いしましょう 5:08 紙