paint-brush
NVIDIA とテルアビブ大学の Text-to-Image モデルの条件付けアプローチ@whatsai
735 測定値
735 測定値

NVIDIA とテルアビブ大学の Text-to-Image モデルの条件付けアプローチ

Louis Bouchard5m2022/09/05
Read on Terminal Reader
Read this story w/o Javascript

長すぎる; 読むには

DALLE や安定した拡散などのテキストから画像へのモデルは非常に優れており、単純なテキスト入力で素晴らしい画像を生成できます。しかし、彼らにあなたの写真を渡して、それを絵に変えてくれるように依頼するのはさらにクールでしょうか?オブジェクト、人、または猫の写真を送信し、モデルに別のスタイルに変換するように依頼できると想像してください。たとえば、自分をサイボーグにしたり、好みの芸術的なスタイルに変えたり、新しいシーンに追加したりします。

Company Mentioned

Mention Thumbnail
featured image - NVIDIA とテルアビブ大学の Text-to-Image モデルの条件付けアプローチ
Louis Bouchard HackerNoon profile picture

DALLE や安定した拡散などのテキストから画像へのモデルは非常に優れており、単純なテキスト入力で素晴らしい画像を生成できます。しかし、彼らにあなたの写真を渡して、それを絵に変えてくれるように依頼するのはさらにクールでしょうか?オブジェクト、人、または猫の写真を送信し、モデルに別のスタイルに変換するように依頼できると想像してください。たとえば、自分をサイボーグにしたり、好みの芸術的なスタイルに変えたり、新しいシーンに追加したりします。

基本的に、ランダムな世代の代わりに、写真をフォトショップするために使用できるバージョンの DALLE があれば、どれほどクールでしょうか?パーソナライズされた DALLE を持ちながら、「イメージは千の言葉に値する」というように、生成をより簡単に制御できます。それは、TikTok アルゴリズムと同じくらいパーソナライズされ、中毒性のある DALLE モデルを持つようなものです。

これは、テルアビブ大学と NVIDIA の研究者が取り組んだものです。彼らは、テキストから画像へのモデルを調整するためのアプローチを開発しました。これは、先週取り上げた安定した拡散のようなもので、画像とともに送信する言葉でオブジェクトや概念を表すいくつかの画像を使用します。入力画像のオブジェクトを好きなものに変換します!動画で詳しく...

参考文献

►記事全文を読む: https://www.louisbouchard.ai/imageworthoneword/
►論文: Gal, R., Alaluf, Y., Atzmon, Y., Patashnik, O., Bermano, AH,
Chechik, G. および Cohen-Or, D.、2022 年。
テキスト反転を使用したテキストから画像への生成のパーソナライズ。 https://arxiv.org/pdf/2208.01618v1.pdf
►コード: https://textual-inversion.github.io/
►マイ ニュースレター (毎週メールで説明される新しい AI アプリケーション!): https://www.louisbouchard.ai/newsletter/

ビデオトランスクリプト

0:00

ダリや安定版などのテキストから画像へのモデル

0:02

拡散は本当にクールで、私たちを可能にします

0:04

で素晴らしい写真を生成するには

0:07

単純なテキスト入力ですが、それは偶数でしょうか

0:09

彼らにあなたの写真を与えるためにクーラーと

0:11

それを絵に変えるように頼む

0:13

どんな写真でも送れると想像してみてください

0:15

対象者またはあなたの猫の

0:18

モデルに変換を依頼する

0:20

自分を変えるような別のスタイル

0:22

あなたの好きな芸術へのサイボーグ

0:24

スタイルを変更したり、新しいシーンに追加したりできます

0:27

基本的に、

0:30

Photoshop で使用できるバージョンのダリ

0:32

ランダムではなく私たちの写真

0:35

世代

0:36

作成中にパーソナライズドリーを持っている

0:39

はるかに簡単に制御できます

0:41

イメージとしての世代は価値がある

0:44

千の言葉

0:46

パーソナライズされたダリモデル

0:49

tic tacアルゴリズムとして中毒性があります

0:52

まあ、これはtelからの研究者です

0:54

aviv 大学と nvidia が取り組んだ

0:57

彼らは次のアプローチを開発しました

0:58

次のようなテキストから画像へのモデルの調整

1:01

先週取り上げた安定拡散

1:03

いくつかの画像で

1:05

あなたの言葉を通してオブジェクトまたは概念

1:08

あなたのイメージを変換して送信します

1:11

入力画像のオブジェクト

1:13

もちろん結果はどうでもいい

1:15

まだ作業が必要ですが、これはまさに

1:17

そのような驚くべきことに取り組む最初の論文

1:19

デザインに革命を起こす可能性のあるタスク

1:22

素晴らしいユーチューバーとしての業界

1:24

同僚は、あと2つ想像してみてくださいと言うでしょう

1:26

紙を下に置くので、どうやって取ることができますか

1:29

オブジェクトのいくつかの写真と

1:31

テキストに続いて新しい画像を生成する

1:33

スタイルを追加する条件入力または

1:35

これに答える変換の詳細

1:38

複雑な質問を見てみましょう

1:40

レイノルド・ギャルと彼のチームが思いついたもの

1:42

入力画像はにエンコードされます

1:44

彼らがあなたができるという不条理な言葉と呼ぶもの

1:47

次に、テキスト生成内で使用します

1:50

したがって、画像の価値がある紙の名前

1:52

一言だけですが、どうやってこのようなものを手に入れますか

1:55

言葉とそれは何ですか

1:57

彼らは3〜5枚の画像から始めます

2:00

彼らも使用する特定のオブジェクト

2:02

このモデルで事前にトレーニングされたテキストから画像へのモデル

2:04

潜在拡散モデルを使用する場合

2:07

1週間も前にカバーしたことはありません

2:09

画像や

2:12

テキストから新しい画像を生成します

2:15

それらはあなたがそれをより涼しく開いているように見ることができます

2:18

あなたが私のものを見たことがないなら、ソースデリ

2:20

ビデオはまだですが、これを一時停止する必要があります

2:23

このモデルについて学び、戻ってきます

2:25

ここであなたはビデオを気に入って学ぶでしょう

2:27

の最もホットなアーキテクチャについて

2:29

その瞬間、入力画像と

2:32

画像を生成するための基本モデル

2:34

テキストや

2:37

他の画像ですが、あなたは何をしますか

2:39

オブジェクトの 3 ~ 5 枚の画像

2:42

モデルをどのように制御しますか

2:43

あなたのオブジェクトが非常に正確に

2:46

代々登場これだけ

2:48

あなたのトレーニングプロセス中に行われます

2:51

2 番目のモデルを使用して、テキスト エンコーダー

2:54

事前トレーニング済みの固定画像ジェネレーター

2:56

この場合、潜在拡散をモデル化します

2:59

すでに写真を撮ることができ、

3:00

教えたいことを再構築する

3:02

不条理に一致するテキストエンコーダモーダル

3:05

エンコードされた画像または他の

3:08

あなたの表現が元にした言葉

3:11

あなたの5つの画像をフィードします

3:13

画像生成ネットワークへの画像

3:16

テキストエンコーダーを逆にトレーニングします

3:19

偽の言葉や特定のものを見つけるために

3:22

言葉はあなたのすべてを最もよく表しているでしょう

3:24

エンコードされた画像は基本的に方法を見つけます

3:27

あなたのコンセプトを

3:29

画像生成と同じ空間

3:32

以前のビデオで説明したプロセス

3:34

起こる

3:36

それから偽の単語を抽出して

3:38

将来の世代をこのように導く

3:41

あなたのコンセプトを未来に注入することができます

3:44

世代にさらにいくつかの単語を追加します

3:46

世代をさらに条件付ける

3:49

同じ事前トレーニング済みのテキストから画像への使用

3:51

モデルなので、単にトレーニングするだけです

3:54

あなたの場所を理解するための小さなモデル

3:56

イメージは潜在空間にあり、

3:58

それらを偽の言葉に変換して使用します

4:00

通常の画像生成モデル

4:03

画像に触れる必要すらない

4:05

世代モデルであり、それは非常に大きなものです

4:07

それらがどれほど高価であるかを考慮して取引する

4:09

トレーニングしてほら、これがあなたができる方法です

4:12

似たようなモデルを教えて画像を生成する

4:14

お好みのオブジェクトのバリエーションまたは

4:17

強力なスタイル転送を実行

4:19

もちろん、これは単なる概要です

4:21

非常に非常に取り組むこの新しい方法

4:24

興味深いタスクと私はあなたを招待します

4:26

以下にリンクされている彼らの論文を読んでください

4:28

アプローチへの理解が深まり、

4:30

非常に複雑な課題です

4:33

そしてまだ多くの制限があります

4:35

理解するのにかかる時間のように

4:37

そのような概念は偽の言葉であり、

4:39

約2時間 それもまだです

4:42

を完全に理解できる

4:44

コンセプトですが、そこにかなり近いです

4:47

また、そのようなものを持つことには多くのリスクがあります

4:49

私たちが必要とするアクセス可能な製品

4:51

を埋め込むことができると想像してみてください

4:54

特定の人物の概念と

4:56

その人に関係するものを生成する

4:58

数秒でこれは非常に恐ろしく、

5:01

この種のテクノロジーはすぐそばにあります

5:03

コーナー

5:04

であなたの考えを聞きたいです

5:06

コメント セクションでこれについて話し合うか、

5:09

不和サーバー

5:10

ビデオを見てくれてありがとう

5:12

来週また会いましょう

5:14

素晴らしい紙

5:22

[音楽]