Imagic: テキスト コマンドからの AI 画像編集 by@whatsai
2,401 測定値

Imagic: テキスト コマンドからの AI 画像編集

2022/10/23
6
@whatsai 2,401 測定値
tldt arrow
JA
Read on Terminal Reader

長すぎる; 読むには

Imagic は、テキストを取得してそこから画像を生成できる拡散ベースのモデルを採用し、モデルを適応させて画像を編集します。画像を生成してから、モデルに好きなように編集するように教えることができます。 Imagic: 拡散モデルを使用したテキストベースの実画像編集。 ArXiv プレプリント arXiv: 2210.09276. Stable Diffusion で使用する: https://www.louisbouchard.ai/imagic/

Company Mentioned

Mention Thumbnail
featured image - Imagic: テキスト コマンドからの AI 画像編集
Louis Bouchard HackerNoon profile picture

@whatsai

Louis Bouchard

I explain Artificial Intelligence terms and news to non-experts.

約 @whatsai
LEARN MORE ABOUT @WHATSAI'S EXPERTISE AND PLACE ON THE INTERNET.
react to story with heart

今週の論文は、これまでで次のお気に入りのモデルになるかもしれません.

DALLEStable Diffusionなどの最近の画像生成モデルがクールだと思うなら、これがどれほど素晴らしいか信じられないでしょう。

「これ」はImagicです。

Imagic は、テキストを取得してそこから画像を生成できる拡散ベースのモデルを採用し、モデルを適応させて画像を編集します。それを見てください... 画像を生成してから、モデルに好きなように編集するように教えることができます。

以下のビデオで詳細をご覧ください...

参考文献:

►記事全文を読む: https://www.louisbouchard.ai/imagic/
►Kawar, B., Zada, S., Lang, O., Tov, O., Chang, H., Dekel, T., Mosseri, I. and Irani, M., 2022. Imagic: Text-Based Real Image拡散モデルによる編集。 arXiv プレプリント arXiv:2210.09276.
► Stable Diffusion で使用: https://github.com/justinpinkney/stable-diffusion/blob/main/notebooks/imagic.ipynb
►マイ ニュースレター (毎週メールで説明される新しい AI アプリケーション!): https://www.louisbouchard.ai/newsletter/

ビデオトランスクリプト

0:24

画像を生成できることを見てください

0:26

モデルに任意の編集を教える

0:29

あなたが望むように、これはかなり大きな一歩です

0:31

自分だけの Photoshop を持つために

0:33

モデルを無料でデザイナーするだけでなく、

0:36

見せたいことはわかるが、

0:38

また、現実的であり続けることもできます

0:41

初期のプロパティを保持するように

0:43

画像は犬がどのようにとどまるかを見るだけです

0:46

ここのすべての画像で同じこのタスクは

0:49

テキスト条件付き画像編集と呼ばれる

0:51

これは、使用するだけで画像を編集することを意味します

0:54

テキストと最初の画像

0:57

1年でも無理だな

0:59

前に今それができることを見てくださいはいこれ

1:03

単一の入力画像からすべてが行われます

1:05

そして、あなたが何を見るかの短い文

1:07

あなたはそれがどれほど素晴らしいか知りたいです

1:09

さらにクールな唯一のことは、それがどのように行われるかです

1:12

動作しますが、最初に

1:15

現在 AI を学んでいる、または学びたい

1:17

あなたはこれを好きになることを学び始めてください

1:19

機会 私はそれがどれほど難しいかを知っています

1:22

AI の学習で真の進歩を遂げる

1:24

時には余分な構造と

1:26

説明責任はあなたに何を提案することができます

1:29

それがあなたのように聞こえる場合は、次のレベル

1:31

このビデオのスポンサーに参加する Delta

1:33

あなたが学ぶDelta Academyのアカデミー

1:36

ビルドゲームによる強化学習

1:38

ライブコホートのAISはゼロから

1:41

alphago によるエクスポート クラフト

1:43

インタラクティブ チュートリアル ライブ ディスカッション

1:46

これらの専門家と毎週の AI で

1:48

建設競争だけではありません

1:51

別のコースのスパム Web サイトです。

1:53

実践的で高品質に焦点を当てています

1:56

deepmind オックスフォードの専門家によって設計された

1:58

ケンブリッジはコーダーが行く場所です

2:01

キャリアからの将来の証明

2:03

AIの進化と遊びプラス

2:06

仲間や専門家のライブコミュニティ

2:08

あなたを前進させて、あなたは象徴的に書くでしょう

2:10

dqn から

2:13

alphago はこれまでで最もクールなプログラムの 1 つです

2:16

以下の私のリンクから今すぐ参加してください

2:18

プロモーション コードを使用して、AI とは何かを取得します

2:21

10%オフ

2:23

私たちが言ったように、iMagicはどのように機能しますか

2:26

画像とキャプションを取得して編集します

2:29

画像を設定すると、生成することもできます

2:31

このモデルの複数のバリエーション

2:33

大多数の論文のように

2:35

最近リリースされているのはに基づいています

2:38

拡散モデル より具体的には

2:41

であった画像生成モデルを取ります

2:43

から画像を生成するようにすでに訓練されています

2:45

での画像編集に適応させます。

2:48

彼らの場合、Imogen を使用します。

2:51

以前のビデオで取り上げた

2:53

できる拡散ベースの生成モデル

2:55

後に高精細画像を作成する

2:57

~の膨大なデータセットで訓練されている

3:00

の場合の画像キャプションのペア

3:02

iMagic 彼らは単にこの事前訓練を受けます

3:05

モデルをベースラインとしてイメージし、作成します

3:08

を編集するための変更

3:10

画像を保持する入力として送信される画像

3:13

犬のような特定の外観

3:16

人種とアイデンティティと編集

3:18

私たちのテキストに従って、まず始めに

3:21

テキストとイニシャルの両方をエンコードする

3:23

image わかりやすいようにエッジ

3:25

これが行われると、私たちのイメージングモデルによって

3:28

テキストエンコーディングを最適化します テキスト

3:31

初期に適合する埋め込み

3:33

画像は基本的に私たちのテキストを取ります

3:35

表現し、私たちのためにそれを最適化します

3:38

eoptimize と呼ばれる初期画像は

3:41

この例では

3:43

同じ種類の

3:45

似たような鳥の画像と

3:48

バックグラウンドで、事前にトレーニングされた

3:51

それを微調整するための画像ジェネレーターの意味

3:53

画像とモデルを再トレーニングします

3:55

最適化されたテキスト埋め込みを維持する

3:58

ちょうど同じものを作ったので、これらの2つ

4:01

ステップは、テキストの埋め込みを取得するために使用されます

4:03

による画像埋め込みに近づく

4:06

2つのうちの1つを凍結して取得する

4:08

私たちを確実にする他のクローザー

4:10

テキストとイニシャルの両方を最適化する

4:12

画像は2つのうちの1つだけではありません

4:15

私たちのモデルは初期画像を理解しています

4:17

私たちのテキストで、彼らが

4:19

私たちはそれを教える必要があります

4:21

このための新しい画像のバリエーションを生成します

4:24

テキスト この火花は非常に単純です 私たちのテキスト

4:27

埋め込みと画像の最適化

4:29

埋め込みは非常に似ていますが、それでも

4:32

まったく同じではない 私たちがする唯一のこと

4:34

ここで、画像の埋め込みを行います

4:36

エンコードされたスペースで少し移動します

4:39

現時点でのテキスト埋め込みに向けて

4:42

iMagic モデルに生成を依頼すると、

4:45

最適化されたテキストを使用した画像

4:47

あなたと同じイメージを与えるはずです

4:49

入力画像なので、埋め込みを移動すると

4:52

あなたのテキストがそれを埋め込む方向に少し

4:55

また、画像を少し編集します

4:58

動かせば動かすほど欲しいもの

5:00

このスペースが大きいほど編集が大きくなります

5:02

遠く離れれば離れるほど

5:05

あなたの最初のイメージだからあなただけのもの

5:07

今把握する必要があるのは

5:10

あなたがあなたに向かって踏みたいこのステップ

5:12

あなたがあなたを見つけたら、テキストと出来上がり

5:15

完璧なバランス あなたは新しいモデルを持っています

5:17

できるだけ多くのバリエーションを生成することができます

5:20

大切な画像を保存したい

5:22

ウェイ編集中のアトリビュート ビュー

5:25

もちろん、結果はそうではありません

5:27

ここでわかるように、まだ完璧です

5:30

モデルが適切に編集されない

5:32

またはランダムな画像変更を行います

5:35

トリミングのような初期画像または

5:37

不適切にズームしてもそのまま

5:40

あなたが私に尋ねると、かなり印象的です

5:42

イメージ生成のペース

5:44

信じられないほど進歩し、それは両方です

5:47

驚くと同時に恐ろしい

5:50

これらの種類についてのあなたの意見を知りたいです

5:52

画像生成と画像編集の

5:54

モデルは良いと思いますか?

5:57

悪いこと、あなたはどのような結果をもたらしますか

5:59

そのようなモデルになることから考えることができます

6:02

ますますパワフルに

6:04

特定のパラメータの詳細

6:06

これらの結果を達成するために使用します。

6:08

私は間違いなくあなたを招待する紙

6:10

読んでください、私のイメージも見てください

6:13

さらに詳しい情報が必要な場合はビデオ

6:14

画像生成部分について

6:17

のおかげで、それがどのように機能するかを理解する

6:20

働くためのデルタアカデミーの私の友人

6:22

AI の学習を楽しくすることについて

6:26

情熱的です 試してみてください

6:28

そして、あなたが私にどう思うか教えてください

6:30

個人的にこの教え方が大好きで、

6:33

ありがとうございます

6:35

彼らをチェックして私の仕事をサポートする

6:37

ウェブサイトとビデオ全体を見ることによって

6:39

楽しんでいただければ幸いです。またお会いしましょう

6:42

来週は別の素晴らしい論文で


関連ストーリー

L O A D I N G
. . . comments & more!
Hackernoon hq - po box 2206, edwards, colorado 81632, usa