が優れた結果をもたらしたと思われる場合は、Google Brain のこの新しいモデルが何ができるかを確認するまで待ってください。 Dall-e 2 Dalle-e は驚くべきものですが、リアリズムに欠けることがよくあります。これが、チームが Imagen と呼ばれるこの新しいモデルで攻撃したものです。 彼らは、プロジェクト ページで多くの結果を共有しています。ベンチマークは、テキストから画像へのモデルを比較するために導入されたもので、 や以前の画像生成アプローチよりも明らかに優れています。動画で詳しく... Dall-E 2 参考文献 ►記事全文を読む: ►論文: Saharia et al., 2022, Imagen - Google Brain, ►プロジェクトリンク: ►マイ ニュースレター (新しい AI アプリケーションについて毎週メールで説明します!): https://www.louisbouchard.ai/google-brain-imagen/ https://gweb-research-imagen.appspot.com/paper.pdf https://gweb-research-imagen.appspot.com/ https://www.louisbouchard.ai/newsletter/ ビデオ トランスクリプト 0:00 ダリ2が素晴らしい結果をもたらしたと思ったら 0:02 この新しいモデルが表示されるまで待ちます 0:04 グーグルブレインからデリーができる 0:07 素晴らしいが、多くの場合、リアリズムに欠けており、これは 0:10 チームがこの新しいもので攻撃したのは 0:12 彼らは多くを共有する imogen と呼ばれるモデル 0:14 プロジェクトページの結果だけでなく 0:16 彼らが導入したベンチマーク 0:18 テキストと画像モデルの比較 0:20 彼らは明らかに日次2を上回り、 0:23 以前の画像生成アプローチ 0:25 このベンチマークも非常にクールです。 0:27 ますます多くのテキストから画像へのモデルを見る 0:29 そして比較するのはかなり難しい 0:31 結果が 0:34 私たちがよくする本当に悪いことですが、これは 0:36 model と le2 は間違いなくオッズに逆らいました 0:40 tldr 新しいテキストから画像へのモデルです 0:43 あなたはより多くのダリと比較することができます 0:45 人間のテスターによるリアリズム 0:48 私がカバーしなかったダリのように 0:50 1 か月前、このモデルは次のようなテキストを取ります 0:53 青い服を着たゴールデンレトリーバー犬 0:56 市松模様のバレッタと赤いドット 0:58 タートルネックを生成しようとします 1:00 この奇妙な写真のようにリアルな画像 1:02 ここでの主なポイントは、 1:05 imogen はテキストを理解できるだけでなく、 1:08 画像も理解できる 1:10 より現実的であるため、生成されます 1:12 もちろん、以前のすべてのアプローチよりも 1:15 私が理解すると言うとき、私はそれ自身を意味します 1:17 それは本当に 1:20 私たちのものとは異なり、モーダルはしません 1:22 テキストまたは画像を本当に理解する 1:24 それは間違いなく何らかの種類を持っています 1:27 それについての知識の 1:28 この特定の種類の 1:31 これらのオブジェクトを含む文は 1:33 画像上のピクセルを使用して表されますが、 1:36 私はそれが確かにそのように見えることを認めます 1:38 見たときに送信するものを理解します 1:41 それらの結果は明らかにあなたがそれをだますことができます 1:43 いくつかの本当に奇妙な文で 1:45 このようにリアルに見えませんでした 1:48 しかし、それは時々あなた自身を打ち負かします 1:50 想像力とただ何かを創造する 1:53 すごい まだもっとすごい 1:56 それは私が決して何かを使用して動作する方法です 1:58 チャネルで議論された拡散 2:00 モデルですが、この拡散を使用する前に 2:03 まずモデルを理解する必要があります 2:05 テキスト入力、これもメイン 2:07 ダリとの違い 彼らは巨大なものを使った 2:10 gpt3 に似たテキストモデルを理解する 2:13 AIシステムができる限り最高のテキスト 2:16 テキストモデルをトレーニングする代わりに 2:18 画像生成モデルを使用して、彼らは 2:21 単純に事前トレーニング済みの大きなモデルを使用し、 2:23 変わらないように凍らせる 2:25 画像のトレーニング中 2:27 彼らの研究からの生成モデル 2:30 はるかに良い結果につながり、 2:32 モデルがテキストをよりよく理解したように 2:35 このテキストモジュールは、モデルがどのように 2:37 テキストとこの理解を理解する 2:40 エンコーディングと呼ばれるもので表されます 2:42 これは、モデルがトレーニングされたものです 2:44 テキストを転送するために巨大なデータセットで行うこと 2:47 情報の空間に入力する 2:50 それは使用して理解することができます 2:52 次に、この変換テキストを使用する必要があります 2:54 画像を生成するためのデータと、私が言ったように 2:57 彼らは拡散モデルを使用して達成しました 3:00 しかし、拡散モデルとは 3:02 拡散モデルは生成モデルです 3:04 のようなランダムガウスノイズを変換します 3:07 これを画像に変換する方法を学びます 3:10 ガウス ノイズを逆にする 3:13 超解像の強力なモデルです 3:15 または他の画像から画像への翻訳と 3:18 この場合、変更されたユニットを使用します 3:20 私が数多く取り上げたアーキテクチャ 3:22 以前のビデオの回なので、私はしません 3:24 アーキテクチャの詳細に入る 3:26 ここで基本的にモデルは訓練されています 3:29 純粋なノイズから画像のノイズを除去する 3:31 テキストエンコーディングを使用した向きと 3:34 クラシファイアフリーと呼ばれる手法 3:36 彼らが言うガイダンスは不可欠であり、 3:38 彼らの論文で明確に説明されています 3:40 詳細については、それを読んでみましょう 3:42 これでモデルができました 3:45 ランダムなガウス ノイズを取り、 3:47 私たちのテキストエンコーディングとノイズ除去 3:49 テキストエンコーディングからのガイダンス 3:51 画像を生成しますが、ご覧のとおり 3:54 それは聞こえるほど単純ではありません 3:56 生成したばかりの画像は非常に小さいです 3:58 より大きな画像としての画像が必要になります 4:00 はるかに多くの計算とはるかに大きな 4:02 代わりに実行可能ではないモデル 4:05 最初に写実的な画像を生成する 4:07 拡散モデルを使用して 4:09 議論してから、他の拡散を使用する 4:12 の品質を向上させるモデル 4:14 繰り返し画像私はすでにカバーしました 4:16 過去動画の超解像モデル 4:19 なのでここでは詳しくは書きません 4:21 もう一度簡単に概要を説明しましょう 4:24 画像ではなくノイズが必要です 4:26 そのため、最初に生成されたこれを隠します 4:28 再びいくつかの低解像度画像 4:31 ガウス ノイズと 2 番目のトレーニング 4:33 これを変更するための拡散モデル 4:35 イメージして改善し、繰り返します 4:38 この 2 つの手順は別のモデルで行われますが、 4:40 今回は、 4:43 実行する完全な画像の代わりに画像 4:45 同じアップスケーリング率と滞在 4:47 計算上実行可能で、出来上がりです。 4:51 フォトリアリスティックなハイ 4:53 解像度画像 4:55 もちろん、これは単なる概要でした 4:56 本当にクールなこのエキサイティングな新しいモデル 4:59 結果 私は間違いなくあなたに読むように勧めます 5:01 より深いための彼らの素晴らしい論文 5:03 彼らのアプローチの理解と 5:05 詳細な結果分析 5:07 そして、あなたは結果が 5:09 デリーに匹敵するほど良いですか 5:12 またはさらに悪いことに、それはダリーのメインだと思います 5:15 競合他社は今のところ私に何を教えてください 5:17 あなたはこの新しいグーグルの頭脳について考えます 5:19 出版物と私が望む説明 5:21 あなたはこのビデオを楽しんだ 5:24 いいねを残してください。 5:26 購読して最新情報を入手してください 5:27 あなたが購読しているなら、エキサイティングなAIニュース 5:30 来週また会いましょう 素晴らしい紙