paint-brush
DALL・E 2 トレーニング前の軽減策@whatsai
541 測定値
541 測定値

DALL・E 2 トレーニング前の軽減策

Louis Bouchard6m2022/07/18
Read on Terminal Reader
Read this story w/o Javascript

長すぎる; 読むには

ほとんどの人工知能モデルはオープンソースではありません。つまり、私たちのような普通の人はそれらを自由に使用できません。これは、このビデオで詳しく説明する内容です... 最もよく知られている Dall-e 2 を使用して、ランダムなプロンプトから画像を生成できます。このようなモデルのトレーニングに使用されるデータは、インターネット上のランダムな画像から取得されます。彼らがリスクを軽減しようとしていることと、インターネットから暴力的で性的な画像をどのように除外しているかを調べます.

Company Mentioned

Mention Thumbnail
featured image - DALL・E 2 トレーニング前の軽減策
Louis Bouchard HackerNoon profile picture

人工知能モデルによって完全に生成された、これらのような素晴らしい画像を見たことがあるでしょう。私のチャンネルでは、Craiyon、Imagen、そして最も有名な Dall-e 2 など、複数のアプローチについて取り上げました。

ほとんどの人はそれらを試して、ランダムなプロンプトから画像を生成したいと考えていますが、これらのモデルの大部分はオープンソースではありません。なんで?これは、このビデオで掘り下げるものです...

参考文献

►記事全文を読む: https://www.louisbouchard.ai/how-openai-reduces-risks-for-dall-e-2/
►OpenAI の記事: https://openai.com/blog/dall-e-2-pre-training-mitigations/
►ダル 2 ビデオ:
►クレヨンの動画: ://youtu.be/qOxde_JV0vI
►Craiyon を使用する: https://www.craiyon.com/
►私の毎日のニュースレター: https://www.getrevue.co/profile/whats_ai

ビデオトランスクリプト

0:00

あなたはすべて素晴らしい見た目の画像を見てきました

0:02

によって完全に生成されたこれらのように

0:05

私がカバーした人工知能モデル

0:07

私のチャンネルでの複数のアプローチ

0:09

クレヨン・イモーゲンと最もよく知られている

0:12

デリ 2. ほとんどの人が試してみたいと思っている

0:15

ランダムなプロンプトから画像を生成しますが、

0:18

これらのモデルの大部分は開いていません

0:20

普通の人が好きなことを意味するソース

0:23

私たちはそれらを自由に使用することはできません。

0:26

このビデオで説明する内容

0:29

それらのほとんどはオープンソースではないと言いました

0:32

まあクレヨンは人が生み出したもの

0:35

それを使用して驚くべきミームは、どのように見ることができます

0:38

そのようなモデルは危険になる可能性があります

0:40

誰もが生成できないものを生成できるようにする

0:43

誤用の可能性がある場合のみ

0:45

何世代も前のデータ

0:47

そのようなモデルをトレーニングするだけでなく、

0:50

インターネット上のランダムな画像

0:52

疑わしいコンテンツを含むあらゆるもの

0:55

予想外のイメージを生み出し、

0:58

トレーニングデータも取得できます

1:00

モデルの逆エンジニアリングによる

1:02

これはおそらく望ましくないopenaiです

1:05

また、リリースしないことを正当化するためにこれを使用しました

1:08

ここで、daily2 モデルを公開します

1:10

彼らが何であるかを調べます

1:12

潜在的なリスクとして調査し、どのように

1:14

彼らはそれらを緩和しようとしています。

1:16

彼らは非常に興味深い記事を通して

1:18

データの前処理について書いた

1:21

dalit ii をトレーニングする前の手順

1:24

だから私が私自身になるために数秒を許してください

1:26

私の最近のプロジェクトを後援し、共有する

1:28

私は最近あなたに興味があるかもしれません

1:31

aiを共有する毎日のニュースレターを作成しました

1:34

シンプルでシンプルなニュースと研究

1:36

紙かどうかを知るためにワンライナーをクリアする

1:38

コードやニュースは時間をかけるだけの価値があります

1:41

リンクインまたはあなたと一緒に購読してください

1:43

メールのリンクは説明にあります

1:45

1:46

openai は本当に何を考えているのか

1:48

彼らが作っていると言うとき

1:50

リスク低減への取り組み

1:52

最初で最も明白なのは、

1:55

彼らは暴力をふるいにかけ、

1:57

何百もの性的画像から

1:59

これはインターネット上の何百万もの画像

2:02

モーダルが学習するのを防ぐことです

2:04

暴力的で性的なものを生み出す方法

2:06

コンテンツまたはオリジナルを返す

2:08

世代としての画像はそうではないようです

2:11

あなたの子供に戦う方法を教える

2:13

彼に喧嘩をさせたくない

2:15

役立つかもしれませんが、完璧には程遠いです

2:17

まだ修正する必要があると思います

2:20

データセットにそのようなフィルターがあり、

2:22

この場合は間違いなく役立ちますが、どうすればよいですか

2:25

彼らは正確にそれを行い、いくつかを構築します

2:27

データを分類するようにトレーニングされたモデル

2:30

それらにいくつかを与えることによってフィルタリングされるかどうか

2:32

さまざまな肯定的な例と否定的な例

2:34

分類子を繰り返し改善する

2:37

人間のフィードバックにより、各分類子は

2:39

データセット全体を通じてさらに削除

2:42

念のため必要以上の画像

2:44

モデルが悪く見えない方がはるかに良い

2:47

ではなく、そもそもデータ

2:48

後でショットを修正しようとする

2:51

各分類子は一意です

2:53

フィルタリングするコンテンツの理解

2:56

そしてすべてが自分自身を補完します

2:57

良いフィルタリングを確実にする

3:00

偽陰性の画像がないことを意味します

3:02

フィルタリングプロセスを通して

3:04

それでも、最初に欠点があります

3:07

データセットは明らかに小さく、そうでない可能性があります

3:10

現実世界を正確に表現する

3:12

によっては、これが良い場合も悪い場合もあります

3:14

彼らが見つけたユースケース

3:16

このデータの予期しない副作用

3:18

増幅されたフィルタリングプロセス

3:21

特定に対するモデルのバイアス

3:23

2番目を導入する人口統計

3:25

openaiが事前トレーニングとして行っていること

3:28

緩和は、によって引き起こされるバイアスを減らします

3:31

このフィルタリングは、たとえば

3:33

彼らが気づいた偏見の1つをフィルタリングする

3:36

モーダルがより多くの画像を生成したということでした

3:38

に比べて男性の割合が高く、女性の割合が少ない

3:41

元のデータセットでトレーニングされたモーダル

3:44

彼らはその理由の1つを説明した

3:46

女性がより頻繁に登場する可能性があります

3:48

バイアスをかける可能性のある性的コンテンツの男性

3:50

より多くのfalseを削除するための分類子

3:53

からの女性を含む否定的なイメージ

3:55

ギャップを作成するデータセット

3:57

モデルが観察する性比

4:00

それを修正するためのトレーニングと複製

4:02

フィルタリングされたデータセットを一致するように再重み付けします

4:05

初期の分布

4:07

ここに設定されたプレフィルターデータは一例です

4:10

彼らは猫と犬を使ってカバーします。

4:12

フィルターは猫よりも多くの掘り出し物を取り除きます

4:14

したがって、修正は

4:16

犬の画像の訓練損失

4:19

掘り出し物の画像を2枚送信するようなものです

4:21

の代わりに、

4:23

画像の欠如これもまた単なる

4:26

実際のフィルタリングバイアスの代用ですが、

4:29

画像配信のギャップをさらに縮小

4:31

事前にフィルタリングされたものと

4:33

フィルタリングされたデータセット

4:35

最後の号は

4:36

モデルのように見えるものを暗記する

4:39

私よりもはるかに強力であること

4:42

逆流する可能性があると述べた

4:44

そのような画像生成からのトレーニングデータ

4:46

ほとんどの場合、望まれないモデル

4:49

ここで小説も生成したい

4:51

単に画像をコピーして貼り付けるのではなく、

4:54

インターネットからですが、どうすれば防ぐことができますか

4:56

私たちの記憶のように、あなたはできない

4:59

何を覚えているか、何を覚えているかを本当に決める

5:01

何かを見ると消えてしまう

5:03

固執するか、見つからないかのどちらか

5:05

人間が新しいことを学ぶのと同じように

5:07

モデルが同じ画像を見た場合の概念

5:10

データセット内で何度も

5:12

最後にうっかり暗記してしまう

5:15

その訓練のそれを正確に生成する

5:17

類似または同一のテキストプロンプト

5:20

これは簡単で信頼できる修正です

5:23

どの画像があまりにも

5:25

類似し、重複を簡単に削除

5:28

これを行うことは、それぞれを比較することを意味します

5:30

他のすべての画像の意味を持つ画像

5:33

何百兆もの画像ペア

5:36

比較する代わりに、単に

5:38

似たような画像をグループ化し、

5:41

次に、画像を他のすべての画像と比較します

5:43

同じおよび他のいくつかの画像

5:46

その周りのクラスターは大幅に減少します

5:48

97 を見つけながら複雑さ

5:52

すべての重複したペアをもう一度修正する

5:55

トレーニング前にデータセット内で行う

5:57

私たちの毎日のモデルopenaiも言及しています

6:00

彼らが調査している次のステップ

6:02

このビデオを楽しんでいただけたなら、私は

6:04

間違いなくあなたにそれらを読むように勧めます

6:06

すべての詳細を見るための詳細な記事

6:08

このトレーニング前の緩和作業の

6:11

それは非常に興味深く、よく書かれています

6:13

記事 あなたの考えを教えてください

6:15

彼らの緩和努力と彼らの

6:17

モデルのアクセスを制限する選択

6:19

公共

6:20

コメントを残すか、ディスカッションに参加してください

6:22

Discordのコミュニティでよろしくお願いします

6:24

最後まで見てくれてありがとう

6:26

来週、別の素晴らしいものでお会いしましょう

6:29

[音楽]