Dalle mini は驚くべきものです — そして、あなたはそれを使うことができます!
ここ数日、あなたの Twitter フィードに似たような写真を見たことがあると思います。何だろうと思ったら、DALL・E miniというAIが生成した画像です。それらを見たことがない場合は、見逃しているので、このビデオを見る必要があります。これがどのように可能か疑問に思っているなら、まあ、あなたは完璧なビデオを見ており、5 分以内に答えを知ることができます.
Dalle mini は、テキスト入力から素晴らしい画像を生成する無料のオープンソース AI です。仕組みは次のとおりです。
►記事全文を読む: https://www.louisbouchard.ai/dalle-mini/
►DALL・E mini vs. DALL・E 2:https://youtu.be/0Eu9SDd-95E
►最も奇妙で面白い DALL・E ミニの結果: https://youtu.be/9LHkNt2cH_w
►DALL・E miniで遊ぼう:https://huggingface.co/spaces/dalle-mini/dalle-mini
►DALL・E miniコード:https://github.com/borisdayma/dalle-mini
►ボリス・デイマのツイッター:https://twitter.com/borisdayma
►Boris Dayma らによる優れた完全なテクニカル レポート: https://wandb.ai/dalle-mini/dalle-mini/reports/DALL-E-Mini-Explained-with-Demo--Vmlldzo4NjIxODA#the-clip-ニューラル ネットワーク モデル
►Tanishq Mathew Abraham による Dall-e mini に関する素晴らしいスレッド:
https://twitter.com/iScienceLuvr/status/1536294746041114624/photo/1?ref_src=twsrc%5Etfw%7Ctwcamp%5Etweetembed%7Ctwterm%5E1536294746041114624%7Ctwgr%5E%7Ctwcon%5Es1_&ref_url=%3A%2F%2F. com%2Fmediaembed%2Fvbqh2s%3Fresponsive%3Dtrueis_nightmode%3Dtrue
►VQGAN の説明: https://youtu.be/JfUTd8fjtX8
►マイ ニュースレター (毎週メールで説明される新しい AI アプリケーション!): https://www.louisbouchard.ai/newsletter/
0:00
私はあなたがそれらのような写真を見たことがあると確信しています
0:02
過去数回のあなたのツイッターフィードで
0:04
彼らが何を着ているのか気になるなら
0:06
と呼ばれるAIによって生成された画像です
0:08
あなたがそれらを見たことがないなら、ダリミニ
0:11
このビデオを見る必要があるのは、あなたが
0:12
これはどうだろうと思ったら見逃してください
0:14
あなたは完璧です
0:16
ビデオで答えを知ることができます
0:18
5 分以内にこの名前のダリはする必要があります
0:21
私が2つをカバーしたので、すでにベルを鳴らしてください
0:23
で openai によって作成されたこのモデルのバージョン
0:26
信じられないほどの結果を残した昨年
0:28
しかし、これは違うダリミニです
0:31
オープンソース コミュニティが作成したプロジェクト
0:33
デリーの最初のバージョンに触発されました
0:35
以来、進化を続けてきました
0:38
ボリスのおかげで信じられないほどの結果が得られました
0:41
daima とすべての貢献者 はい、これ
0:43
すぐに遊べるということです
0:46
リンクが入っているハグフェイスのおかげで
0:48
以下の説明ですが、これを与えてください
0:49
ビデオを再生する数秒前に
0:51
それを使えばそれだけの価値があり、あなたは
0:54
この AI については、
0:55
コアダリであなたの周りのみんな
0:58
ミニはデリーにとても似ているので私の
1:00
モデルの最初のビデオは素晴らしいです
1:02
これには2つのメインがあります
1:04
言語と思われるコンポーネント
1:07
最初に必要な画像モジュール
1:10
テキストプロンプトを理解してから
1:12
それに続いて画像を生成する
1:14
非常に2つを必要とするさまざまなこと
1:17
異なるモデルの主な違い
1:18
モデルのデリー嘘で
1:20
アーキテクチャとトレーニング データですが、
1:22
エンドツーエンドのプロセスはほとんど
1:24
同じようにここに言語モデルがあります
1:27
バート バートと呼ばれるモデルは訓練されたモデルです
1:29
テキスト入力を言語に変換する
1:32
間の次のモデルのために理解できる
1:34
画像のペアをフィードするトレーニング
1:36
dalemini bart へのキャプションは、テキストを取ります
1:39
キャプションを取得し、それを個別に変換します
1:42
によって読み取り可能なトークン
1:44
次のモデルに基づいて調整します
1:46
生成された画像の違い
1:48
画像は入力として送信されますが、
1:51
ここで生成するものは何ですか
1:54
これをデコーダーと呼ぶ画像
1:57
新しいキャプション表現を取る
1:59
私たちが呼ぶバートによって生成された
2:01
エンコードし、それをにデコードします
2:04
画像 この場合、画像デコーダは
2:07
vqgan で既に説明したモデル
2:10
チャンネルなので、絶対に招待します
2:11
興味のある方は動画をご覧ください
2:14
short vkugen は優れたアーキテクチャです。
2:16
反対のことをする
2:19
そのようなエンコーディング マッピングを生成し、
2:22
あなたがgpt3を疑うようにそれからイメージし、
2:25
他の言語生成モデルは
2:27
テキストをエンコードする非常によく似たものと
2:29
新しく生成されたマッピングのデコード
2:32
それがあなたを送り返す新しいテキストに
2:35
ここでは同じですが、ピクセルを使用しています
2:37
文字の代わりに画像を形成する
2:40
学習を通して文を形成する
2:42
数百万のエンコード画像ペア
2:45
インターネットなので、基本的にあなたの公開
2:47
キャプション付きの画像となる
2:50
かなり正確に
2:52
最初の画像は、それを新しくフィードすることができます
2:54
のようなエンコーディング
2:56
トレーニングですが、少し異なります。
2:59
完全に新しいものを生成しますが、
3:01
同様の画像同様に、通常は追加します
3:04
これらのエンコーディングへのほんの少しのノイズ
3:06
を表す新しい画像を生成します。
3:08
同じテキストプロンプトとほら、これが方法です
3:12
ダリミニは画像を生成することを学習します
3:14
私が言ったように、あなたのテキストキャプションは
3:17
オープンソースで遊ぶこともできます
3:19
抱きしめ顔のおかげですぐに
3:22
もちろん、これは単純なものでした
3:24
概要といくつかの重要な部分を省略しました
3:26
さらに必要な場合は、明確にするための手順
3:29
私がリンクしたモデルの詳細
3:31
以下の説明のリソース
3:34
また、最近 2 つの短いビデオを公開しました
3:36
いくつかの面白い結果を紹介するだけでなく、
3:38
の毎日2との比較結果
3:40
同じテキストプロンプトがかなりクールです
3:42
このビデオを楽しんでいただけたでしょうか。
3:45
もしそうなら、数秒かけてください
3:47
コメントで私に知らせて、残してください
3:50
来週じゃなくて会えるように
3:52
別の素晴らしい論文で2週間
3:55
[音楽]
4:14
[音楽]