paint-brush
Meta AI の Make-A-Scene がテキストとスケッチでアートワークを生成@whatsai
3,129 測定値
3,129 測定値

Meta AI の Make-A-Scene がテキストとスケッチでアートワークを生成

Louis Bouchard6m2022/07/20
Read on Terminal Reader
Read this story w/o Javascript

長すぎる; 読むには

この新しいモデルの目的は、dalle のようにユーザーがテキスト プロンプトに従ってランダムな画像を生成できるようにすることではありません。代わりに、Meta は、このテキストから画像へのトレンドを以前のスケッチから画像へのモデルと融合させ、創造的な表現を推し進めたいと考えました。これは、テキストとスケッチによって調整された画像生成の間の素晴らしいブレンドである「シーンを作る」につながります。ビデオで詳細をご覧ください... 「Make-a-Scene は「単なる別の Dalle」ではありませんが、世代に対するユーザー コントロールを制限します。

Companies Mentioned

Mention Thumbnail
Mention Thumbnail
featured image - Meta AI の Make-A-Scene がテキストとスケッチでアートワークを生成
Louis Bouchard HackerNoon profile picture

Make-A-Scene は「ただの Dalle」ではありません。この新しいモデルの目的は、ユーザーが dalle のようにテキスト プロンプトに続いてランダムな画像を生成できるようにすることではありません (これは非常に優れています)。ただし、世代に対するユーザー コントロールを制限します。

代わりに、Meta は創造的な表現を推し進めたいと考え、このテキストから画像へのトレンドを以前のスケッチから画像へのモデルと融合させ、「メイク ア シーン」に導きました。これは、テキストとスケッチによって調整された画像生成の間の素晴らしいブレンドです。動画で詳しく...

参考文献

►記事全文を読む: https://www.louisbouchard.ai/make-a-scene/
►Meta のブログ投稿: https://ai.facebook.com/blog/greater-creative-control-for-ai-image-generation
►論文: Gafni, O., Polyak, A., Ashual, O., Sheynin, S., Parikh, D.
Taigman, Y., 2022. Make-a-scene: シーンベースのテキストから画像への生成
人間のプライオリティーで。
►マイ ニュースレター (新しい AI アプリケーションについて毎週メールで説明します!): https://www.louisbouchard.ai/newsletter/

ビデオトランスクリプト

0:00

[音楽]

0:06

これはシーンを作るだけではありません

0:08

この新しいモデルの別のデリ

0:11

ユーザーがランダムに生成できるようにすることではありません

0:13

ダリとしてのテキストプロンプトに続く画像

0:15

これは本当にクールですが、制限があります

0:17

世代に対するユーザー コントロール

0:20

代わりに、メタはクリエイティブをプッシュしたかった

0:22

このテキストを前方にマージする式

0:25

前回のスケッチでの画像傾向

0:27

シーンを作ることにつながる画像モデル

0:30

テキストとスケッチの素晴らしい融合

0:32

条件付けされた画像の生成

0:35

つまり、この新しいアプローチを使用すると、

0:37

猫をすばやくスケッチして書くことができます

0:40

どんなイメージをしたいのか、

0:42

画像生成プロセスが続きます

0:43

あなたのスケッチとガイダンスの両方

0:45

テキストは、私たちをさらに近づけます

0:48

完璧なものを生み出すことができます

0:49

数秒で欲しいイラスト

0:52

このマルチモーダルジェネレーティブを見ることができます

0:54

日常のモデルとしてのaiメソッド

0:57

それ以来、世代をより細かく制御

0:59

また、クイック スケッチを次のように取り込むこともできます。

1:01

これがマルチモーダルと呼ばれる理由です

1:04

として複数のモダリティを取ることができるので

1:07

テキストや画像などの入力スケッチ

1:10

この場合、デリーと比較して

1:12

テキストのみを取得して画像を生成する

1:14

マルチモーダルモデルは素晴らしいものです

1:17

特に一致する場合は有望です

1:19

オンラインで見る結果の質

1:21

私たちはより多くのことをコントロールできるので、

1:23

結果は非常に近づいています

1:25

を生成するという興味深い最終目標

1:27

私たちが心の中で持っている完璧なイメージ

1:30

もちろん、これはすべてのデザインスキルです

1:32

まだ研究段階にあり、

1:34

探索的 ai 研究コンセプト it

1:37

私たちが見ているものがそうではないという意味ではありません

1:38

達成可能それは単にそれがかかることを意味します

1:41

一般公開まであと少し

1:43

この分野での進歩は非常に速い

1:45

そして、私はそれを見て驚かないでしょう

1:47

非常に短い間または同様のモデルに住んでいます

1:49

他の人から一緒に遊ぶことを信じています

1:52

そのようなスケッチとテキストベースのモデルは

1:54

特に

1:56

私が取材したかった業界

1:58

たとえ結果が

2:00

私たちが見る毎日の2より少し遅れています

2:03

オンラインであり、興味深いだけではありません

2:05

業界だが、アーティストにとってはあまりにも

2:08

スケッチ機能を使用して均等に生成する

2:10

何デリーよりも予想外の結果

2:13

生成するように依頼できますか

2:14

ない形を描く

2:17

のような特定のものを表す

2:18

花の形でクラゲを描く

2:21

一緒に持つことは不可能ではないかもしれません

2:23

ダリがないとはるかに複雑

2:25

モデルとしてのみガイダンスをスケッチします。

2:27

どこから何を学んだかを再現する

2:29

現実世界の画像と

2:32

イラストなので主な質問は

2:34

彼らはどのように世代を導くことができますか

2:36

デリーのようなテキスト入力とスケッチの両方

2:39

同時にモデルを追従させる

2:41

両方のガイドラインは非常に非常に

2:44

デリーの仕組みと似ているので、私はしません

2:47

の詳細に入力しすぎます

2:49

少なくともカバーした生成モデル

2:51

過去の5つの異なるアプローチ

2:53

あなたが間違いなくすべき2ヶ月

2:55

これらのモデルをまだ見ていない場合は見てください

2:57

ダリ2やイモージェンのようなものはかなり

2:59

素晴らしい

3:00

通常、これらのモデルは

3:02

何百万ものトレーニング例を学ぶ

3:04

テキストから画像を生成する方法

3:07

画像形式のデータとその

3:09

ここにインターネットからスクレイピングされたキャプション

3:12

頼るだけではなく、トレーニング中に

3:14

最初のキャプションを生成する

3:17

画像のバージョンと比較

3:19

実際の画像とこれを繰り返す

3:21

私たちのすべてで何度も処理します

3:23

画像もスケッチにフィードします

3:26

クールなのは、スケッチが

3:28

トレーニング用に作成するのは非常に簡単です

3:30

事前にトレーニングされたネットワークを使用するだけです

3:32

オンラインでダウンロードしてインスタンスを実行できます

3:35

を希望する人のためのセグメンテーション

3:37

無料の事前トレーニング済みの vgg を使用する詳細

3:40

imagenet のモデルは非常に小さい

3:42

今日のものと比較してネットワーク

3:44

次のような結果を正確かつ迅速に生成します

3:47

これはセグメンテーション マップと呼ばれ、彼らは

3:49

すべての画像を一度処理するだけで、

3:52

モデルをトレーニングするためにこれらのマップを取得します

3:55

次に、このマップとキャプションを使用します

3:58

モデルを方向付けて生成する

4:00

推論時またはその時の初期画像

4:02

私たちの 1 人がそれを使用し、私たちのスケッチは

4:05

私が言ったように、それらのマップを置き換えます

4:08

偽のスケッチを作成する vgg と呼ばれるモデル

4:11

トレーニングには変圧器を使用します

4:13

画像生成のアーキテクチャ

4:15

ドリーとは異なるプロセス

4:17

そして、私はあなたにビデオを見るように勧めます私

4:19

ビジョン用トランスフォーマーの紹介

4:21

詳細が必要な場合はアプリケーション

4:23

処理および生成方法について

4:25

このスケッチ誘導変圧器の画像

4:28

雑誌との主な違い

4:30

のような画像テキストランカーを使用しないで

4:33

テキストと画像のペアを測定するためのクリップ

4:36

これについては、私の記事でも学ぶことができます

4:37

毎日のビデオ

4:39

代わりに、すべてのエンコードされたテキストと

4:41

セグメンテーション マップは

4:43

変圧器 モデル そのモデル

4:45

関連する画像トークンを生成します

4:48

対応する

4:50

主に画像を生成するためのネットワーク

4:53

エンコーダーはトレーニング中に使用されます

4:55

の差を計算する

4:57

制作当初のイメージですが、

4:59

これを取得するにはデコーダーが必要です

5:01

トランス出力を変換し、

5:04

画像

5:05

ほら、これがメタの新しいモデルです

5:08

スケッチとテキスト入力を取得できます

5:11

高精細画像を生成します

5:13

より詳細な制御を可能にします

5:16

優れた品質の結果

5:18

そして彼らが言うように、それは始まりに過ぎない

5:20

この新しい種類の AI モデルの

5:22

アプローチは両方を改善し続けます

5:24

の品質と入手可能性に関して

5:27

多くの非常にエキサイティングな公開

5:30

アーティストはすでにモデルを

5:32

メタで説明されている自分の作品

5:34

ブログの投稿と私は私たちがいつになるかについて興奮しています

5:37

彼らもそれを使用できるようになります

5:39

アプローチはコーディングを必要としません

5:41

知識だけが優れたスケッチ手であり、

5:43

いくつかの迅速なエンジニアリング、つまり

5:45

テキスト入力で試行錯誤

5:48

使用する表現と言葉を微調整する

5:50

異なる、より良い結果を生み出すために

5:53

もちろん、これは単なる概要でした

5:55

新しいシーンのアプローチと私

5:57

リンクされた完全な論文を読むように招待します

5:59

方法の完全な概要については、以下を参照してください。

6:02

このビデオを楽しんでいただければ幸いです

6:04

来週お会いしましょう

6:06

別の素晴らしい紙

6:09

[音楽]