paint-brush
Atténuations de pré-formation DALL·E 2par@whatsai
541 lectures
541 lectures

Atténuations de pré-formation DALL·E 2

par Louis Bouchard6m2022/07/18
Read on Terminal Reader
Read this story w/o Javascript

Trop long; Pour lire

La plupart des modèles d'intelligence artificielle ne sont pas open source, ce qui signifie que nous, les gens ordinaires comme nous, ne pouvons pas les utiliser librement. C'est ce sur quoi nous allons plonger dans cette vidéo... Le plus connu, Dall-e 2, peut être utilisé pour générer des images à partir d'invites aléatoires. Les données utilisées pour former de tels modèles proviennent également d'images aléatoires sur Internet assez jolies. Nous examinerons ce qu'ils essaient d'atténuer les risques et comment ils filtrent les images violentes et sexuelles d'Internet.

Company Mentioned

Mention Thumbnail
featured image - Atténuations de pré-formation DALL·E 2
Louis Bouchard HackerNoon profile picture

Vous avez tous vu des images incroyables comme celles-ci, entièrement générées par un modèle d'intelligence artificielle. J'ai couvert plusieurs approches sur ma chaîne, comme Craiyon, Imagen et la plus connue, Dall-e 2.

La plupart des gens veulent les essayer et générer des images à partir d'invites aléatoires, mais la majorité de ces modèles ne sont pas open-source, ce qui signifie que nous, les gens ordinaires comme nous, ne pouvons pas les utiliser librement. Pourquoi? C'est ce sur quoi nous allons plonger dans cette vidéo...

Références

►Lire l'article complet : https://www.louisbouchard.ai/how-openai-reduces-risks-for-dall-e-2/
►Article d'OpenAI : https://openai.com/blog/dall-e-2-pre-training-mitigations/
►Vidéo Dalle 2 :
►Vidéo de Craiyon :
►Utilisez Craiyon : https://www.craiyon.com/
►Ma newsletter quotidienne : https://www.getrevue.co/profile/whats_ai

Transcription vidéo

0:00

vous avez tous vu des images incroyables

0:02

comme ceux-ci entièrement générés par un

0:05

modèle d'intelligence artificielle que j'ai couvert

0:07

plusieurs approches sur ma chaîne comme

0:09

crayon imogen et le plus connu

0:12

deli 2. la plupart des gens veulent les essayer et

0:15

générer des images à partir d'invites aléatoires, mais

0:18

la majorité de ces modèles ne sont pas ouverts

0:20

source qui signifie que les gens ordinaires aiment

0:23

nous ne pouvons pas les utiliser librement pourquoi c'est

0:26

dans quoi nous allons plonger dans cette vidéo

0:29

j'ai dit que la plupart d'entre eux n'étaient pas open source

0:32

bien crayon est et les gens ont généré

0:35

des mèmes incroyables en l'utilisant, vous pouvez voir comment

0:38

un tel modèle peut devenir dangereux

0:40

permettant à quiconque de générer quoi que ce soit non

0:43

uniquement pour les éventuels abus concernant

0:45

les générations mais les données utilisées pour

0:47

entraînent également de tels modèles provenant de

0:50

jolies images aléatoires sur internet

0:52

à peu près n'importe quoi avec un contenu douteux

0:55

et produisant des images inattendues

0:58

les données de formation pourraient également être récupérées

1:00

par ingénierie inverse du modèle

1:02

qui est très probablement indésirable openai

1:05

a également utilisé cela pour justifier de ne pas publier

1:08

le modèle daily2 au public ici nous

1:10

va regarder ce qu'ils sont

1:12

enquêtant sur les risques potentiels et comment

1:14

ils essaient de les atténuer je vais

1:16

à travers un article très intéressant, ils

1:18

écrit couvrant leur prétraitement des données

1:21

étapes lors de la formation dalit ii mais avant

1:24

alors laisse-moi quelques secondes pour être le mien

1:26

parrainer et partager mon dernier projet

1:28

ce qui pourrait vous intéresser j'ai récemment

1:31

créé une newsletter quotidienne partage ai

1:34

nouvelles et de la recherche avec un simple et

1:36

effacer une ligne pour savoir si le papier

1:38

le code ou les nouvelles valent votre temps, vous pouvez

1:41

abonnez-vous sur linkedin ou avec votre

1:43

mail le lien est dans la description

1:45

dessous

1:46

alors qu'est-ce que openai a vraiment à l'esprit

1:48

quand ils disent qu'ils font

1:50

efforts pour réduire les risques

1:52

la première et la plus évidente est que

1:55

ils filtrent les violences et

1:57

images sexuelles parmi des centaines de

1:59

des millions d'images sur internet ce

2:02

est d'empêcher le modal d'apprendre

2:04

comment produire des scènes violentes et sexuelles

2:06

contenu ou même retourner l'original

2:08

images comme des générations c'est comme pas

2:11

apprendre à votre enfant à se battre si vous

2:13

je ne veux pas qu'il se batte

2:15

ça peut aider mais c'est loin d'être parfait

2:17

réparer encore je crois qu'il est nécessaire de

2:20

avoir de tels filtres dans nos ensembles de données et

2:22

aide certainement dans ce cas, mais comment faire

2:25

ils font exactement ça ils en construisent plusieurs

2:27

modèles formés pour classer les données à

2h30

filtrés ou non en leur donnant quelques

2:32

différents exemples positifs et négatifs

2:34

et améliorer itérativement les classificateurs

2:37

avec la rétroaction humaine, chaque classificateur est allé

2:39

à travers tout notre ensemble de données en supprimant plus

2:42

images que nécessaire juste au cas où

2:44

beaucoup mieux pour que le modèle ne voie pas mal

2:47

données en premier lieu plutôt que

2:48

essayer de corriger le tir après

2:51

chaque classificateur aura un unique

2:53

compréhension du contenu à filtrer

2:56

et se compléteront tous

2:57

assurer un bon filtrage si par bon on

3:00

signifie pas d'images faussement négatives

3:02

à travers le processus de filtrage

3:04

encore il vient avec des inconvénients d'abord le

3:07

l'ensemble de données est clairement plus petit et peut ne pas

3:10

représenter fidèlement le monde réel

3:12

qui peut être bon ou mauvais selon

3:14

le cas d'utilisation, ils ont également trouvé un

3:16

effet secondaire inattendu de ces données

3:18

processus de filtrage, il a amplifié le

3:21

biais du modèle envers certains

3:23

la démographie introduisant le deuxième

3:25

chose que fait openai en tant que pré-formation

3:28

l'atténuation réduisent les biais causés par

3:31

ce filtrage par exemple après

3:33

filtrer l'un des biais qu'ils ont remarqués

3:36

était que le modal générait plus d'images

3:38

d'hommes et moins de femmes par rapport à

3:41

modaux formés sur l'ensemble de données d'origine

3:44

ils ont expliqué que l'une des raisons

3:46

peut-être que les femmes apparaissent plus souvent que

3:48

les hommes dans le contenu sexuel qui peut biaiser

3:50

leurs classificateurs pour supprimer plus de faux

3:53

images négatives contenant des femmes de

3:55

l'ensemble de données créant une lacune dans

3:57

rapport de genre que le modèle observe dans

4:00

formation et répliques pour corriger qu'ils

4:02

repondérer l'ensemble de données filtré pour correspondre

4:05

la distribution de l'initiale

4:07

ensemble de données de pré-filtre voici un exemple

4:10

ils couvrent l'utilisation de chats et de chiens où le

4:12

le filtre supprimera plus de crottes que de chats

4:14

donc la solution sera de doubler le

4:16

perte d'entraînement pour les images de chiens qui

4:19

sera comme envoyer deux images de dugs

4:21

au lieu d'un et compensant le

4:23

manque d'images ce n'est encore une fois qu'un

4:26

proxy pour le biais de filtrage réel, mais il

4:29

réduit encore l'écart de distribution d'image

4:31

entre le pré-filtré et le

4:33

jeu de données filtré

4:35

le dernier numéro est un numéro de

4:36

mémorisation quelque chose que les modèles semblent

4:39

être beaucoup plus puissant que moi comme nous

4:42

dit qu'il est possible de régurgiter le

4:44

données d'apprentissage provenant d'une telle génération d'images

4:46

modèles qui ne sont pas souhaités dans la plupart des cas

4:49

ici, nous voulons aussi générer du roman

4:51

images et pas simplement copier coller des images

4:54

d'Internet, mais comment pouvons-nous empêcher

4:56

que tout comme notre mémoire tu ne peux pas

4:59

Décidez vraiment de ce dont vous vous souvenez et de quoi

5:01

s'en va une fois que vous voyez quelque chose

5:03

ils collent ou ils n'ont pas trouvé

5:05

que tout comme les humains apprennent un nouveau

5:07

concept si le modèle voit la même image

5:10

plusieurs fois dans l'ensemble de données, il peut

5:12

le connaître accidentellement par cœur à la fin

5:15

de sa formation et la générer exactement

5:17

pour une invite de texte similaire ou identique

5:20

celui-ci est une solution simple et fiable

5:23

découvrez simplement quelles images sont aussi

5:25

similaire et supprimez facilement les doublons

5:28

faire cela signifiera comparer chaque

5h30

image avec toutes les autres significations d'image

5:33

des centaines de quadrillions de paires d'images

5:36

pour comparer à la place, ils commencent simplement par

5:38

regrouper des images similaires et

5:41

puis comparez les images avec toutes les autres

5:43

images dans le même et quelques autres

5:46

des grappes autour d'elle réduisant immensément

5:48

la complexité tout en trouvant 97 de

5:52

toutes les paires en double à nouveau un autre correctif pour

5:55

faire dans l'ensemble de données avant la formation

5:57

notre modèle quotidien openai mentionne également

6:00

une prochaine étape sur laquelle ils enquêtent

6:02

et si vous avez aimé cette vidéo je

6:04

vous invite définitivement à lire leur

6:06

article de fond pour voir tous les détails

6:08

de ce travail d'atténuation de pré-formation

6:11

c'est très intéressant et bien écrit

6:13

article dites moi ce que vous en pensez

6:15

leurs efforts d'atténuation et leurs

6:17

choix de limiter l'accès du modèle à

6:19

le public

6:20

laissez un commentaire ou rejoignez la discussion

6:22

dans notre communauté sur discord merci

6:24

pour avoir regardé jusqu'à la fin et je le ferai

6:26

à la semaine prochaine avec un autre incroyable

6:29

papier

[Musique]