Ce qui rend GPT-3 et Dalle puissants, c'est exactement la même chose : les données.
Les données sont cruciales dans notre domaine, et nos modèles sont extrêmement gourmands en données. Ces grands modèles, qu'il s'agisse de modèles de langage pour GPT ou de modèles d'image pour Dalle, nécessitent tous la même chose : beaucoup trop de données.
Plus vous avez de données, mieux c'est. Vous devez donc faire évoluer ces modèles, en particulier pour les applications du monde réel.
Les modèles plus volumineux peuvent utiliser des ensembles de données plus volumineux pour s'améliorer uniquement si les données sont de haute qualité.
Nourrir des images qui ne représentent pas le monde réel ne servira à rien et dégradera même la capacité de généralisation du modèle. C'est là qu'intervient l'IA centrée sur les données ...
En savoir plus dans la vidéo :
►Lire l'article complet : https://www.louisbouchard.ai/data-centric-ai/
►IA centrée sur les données : https://snorkel.ai/data-centric-ai
►Supervision faible : https://snorkel.ai/weak-supervision/
►Labellisation programmatique : https://snorkel.ai/programmatic-labeling/
► Liste organisée de ressources pour l'IA centrée sur les données : https://github.com/hazyresearch/data-centric-ai
►En savoir plus sur Snorkel : https://snorkel.ai/company/
►De l'IA centrée sur le modèle à l'IA centrée sur les données - Andrew Ng :
►Logiciel 2.0 : https://hazyresearch.stanford.edu/blog/2020-02-28-software2
►Épreuve 1 : Ratner, AJ, De Sa, CM, Wu, S., Selsam, D. et Ré, C.,
2016. Programmation de données : créer rapidement de grands ensembles d'apprentissage. Avances
dans les systèmes de traitement neuronal de l'information, 29.
►Épreuve 2 : Ratner, A., Bach, SH, Ehrenberg, H., Fries, J., Wu, S. et
Ré, C., 2017, novembre. Snorkel : création rapide de données d'entraînement avec
surveillance. Dans Actes de la dotation VLDB. International
Conférence sur les très grandes bases de données (vol. 11, n° 3, p. 269). Public des NIH
Accéder.
►Mémoire 3 : Ré, C. (2018). Logiciel 2.0 et tuba : au-delà de l'étiquetage manuel
Données. Actes de la 24ème conférence internationale ACM SIGKDD sur
Découverte de connaissances et exploration de données.
►Ma Newsletter (Une nouvelle application d'IA expliquée chaque semaine à vos mails !) : https://www.louisbouchard.ai/newsletter/
Transcription vidéo
0:00
ce qui rend gpt3 et delhi puissants, c'est
0:03
exactement la même chose que les données
0:06
cruciaux dans notre domaine et nos modèles sont
0:08
extrêmement gourmands en données ces grands modèles
0:11
soit des modèles de langue pour gpt ou image
0:13
les modèles pour delhi nécessitent tous la même chose
0:15
chose
0:16
beaucoup trop de données malheureusement plus
0:19
meilleures sont les données que vous avez, donc vous
0:21
besoin d'étendre ces modèles en particulier
0:24
pour les applications du monde réel
0:26
les modèles peuvent utiliser des ensembles de données plus volumineux pour
0:28
s'améliorer uniquement si les données sont d'un niveau élevé
0:30
images d'alimentation de qualité qui ne
0:32
représenter le monde réel ne sera d'aucune utilité
0:34
utiliser et même aggraver la capacité du modèle
0:37
pour généraliser c'est là que les données sont centrées
0:39
ai entre en jeu ai centrée sur les données aussi
0:43
appelé logiciel 2.0 n'est qu'un
0:46
manière fantaisiste de dire que nous optimisons notre
0:48
données pour maximiser le modèle
0:50
performances au lieu d'être centré sur le modèle
0:52
où vous n'aurez qu'à peaufiner le modèle
0:54
paramètres sur un jeu de données fixe bien sûr
0:57
les deux doivent être fait pour avoir le meilleur
0:59
résultats possibles mais les données sont de loin
1:02
plus grand joueur ici dans cette vidéo dans
1:04
partenariat avec tuba je couvrirai
1:06
ce qu'est l'IA centrée sur les données et passez en revue quelques-unes
1:09
de grandes avancées dans le domaine vous ferez
1:11
comprendre rapidement pourquoi les données sont si
1:13
important dans l'apprentissage automatique qui est
1:15
la mission de snorkel prenant une citation de
1:17
leur article de blog lié ci-dessous les équipes
1:19
passent souvent du temps à écrire de nouveaux modèles
1:21
au lieu de comprendre leur problème
1:23
et son expression dans les données plus profondément
1:26
écrire un nouveau modèle est une belle
1:28
refuge pour se cacher du désordre de
1h30
comprendre les vrais problèmes et cela
1:33
est ce que cette vidéo vise à combattre en un
1:36
phrase l'objectif de l'IA centrée sur les données est
1:38
pour coder les connaissances de nos données dans
1:40
le modèle en maximisant les données
1:42
la qualité et la performance du modèle le tout
1:45
commencé en 2016 à stanford avec un article
1:48
appelée programmation de données créant de grandes
1:51
ensembles de formation introduisant rapidement un
1:54
paradigme pour l'étiquetage des ensembles de données de formation
1:56
par programmation plutôt qu'à la main
1:58
c'était il y a une éternité en termes d'ai
2:01
l'âge de la recherche comme vous le savez le mieux
2:04
approches à l'utilisation supervisée
2:05
apprendre un processus dans lequel les modèles s'entraînent
2:08
sur les données et les étiquettes et apprendre à
2:10
reproduire les étiquettes lorsqu'on leur donne les données
2:13
par exemple, vous alimenteriez un modèle plusieurs
2:15
images de canards et de chats avec leur
2:17
étiquettes respectives et demandez au modèle de
2:20
découvrez ce qui est dans l'image puis utilisez
2:23
rétro-propagation pour entraîner le modèle
2:25
basé sur la façon dont il réussit si vous êtes
2:27
peu familier avec la rétropropagation je
2:29
vous invite à mettre la vidéo en pause pour regarder
2:31
mon explication d'une minute et retour
2:33
où vous vous êtes arrêté car les ensembles de données sont
2:35
il devient de plus en plus gros
2:37
de plus en plus difficile de les gérer
2:39
et supprimer les données nuisibles pour permettre la
2:41
modèle pour se concentrer uniquement sur les données pertinentes que vous
2:44
vous ne voulez pas entraîner votre modèle à détecter
2:46
un chat quand c'est une mouffette ça pourrait finir
2:48
mal quand je me réfère aux données garder à l'esprit
2:51
qu'il peut s'agir de n'importe quel type de tableau de données
2:53
images texte vidéos etc maintenant que vous pouvez
2:57
télécharger facilement un modal pour n'importe quelle tâche
2:59
passer à l'amélioration des données et
3:01
l'optimisation est un moteur inévitable
3:03
la disponibilité l'échelle des données récentes
3:05
ensembles et les modèles de cd dépendants des données
3:08
ont sont pourquoi un tel paradigme pour
3:10
étiquetage des ensembles de données de formation
3:12
programmatiquement devient essentiel
3:14
maintenant le principal problème vient du fait d'avoir
3:17
étiquettes pour nos données, il est facile d'avoir
3:19
des milliers d'images de chats et de chiens mais
3:22
il est beaucoup plus difficile de savoir quelles images
3:24
avoir un creusé et quelles images ont un chat
3:26
et encore plus difficile d'avoir leur exacte
3:28
emplacements dans l'image pour la segmentation
3:31
tâches par exemple
3:32
le premier article introduit une donnée
3:34
cadre de programmation où l'utilisateur
3:36
soit ingénieur ml ou data scientist
3:38
exprime des stratégies de supervision faibles comme
3:41
étiquetage des fonctions à l'aide d'un génératif
3:43
modèle qui étiquette des sous-ensembles de données
3:46
et constaté que la programmation de données peut être
3:48
un moyen plus facile pour les non-experts de créer
3:51
modèles d'apprentissage automatique lors de la formation
3:53
les données sont limitées ou indisponibles en bref
3:56
ils montrent comment améliorer les données sans
3:58
beaucoup de travail supplémentaire tout en gardant
4:00
modéliser les mêmes résultats d'amélioration qui est
4:03
une étape désormais évidente mais essentielle
4:05
pierre c'est vraiment intéressant
4:07
document de base dans ce domaine et vaut
4:09
la lecture
4:10
le deuxième article que nous couvrons ici s'appelle
4:12
création de données d'entraînement rapide avec tuba
4:15
avec une faible supervision cet article
4:17
publié un an plus tard également de
4:19
l'université de stanford présente un programme flexible
4:22
couche d'interface pour écrire l'étiquetage
4:24
fonctions basées sur l'expérience continue
4:27
sur l'idée que les données d'entraînement sont
4:28
de plus en plus vaste et difficile à
4h30
étiquette provoquant un goulot d'étranglement dans les modèles
4:33
performances qu'ils introduisent tuba un
4:36
système qui implémente le précédent
4:37
papier dans un système de bout en bout le système
4:40
a permis aux experts du savoir les personnes
4:42
qui comprennent le mieux les données pour facilement
4:44
définir des fonctions d'étiquetage pour
4:46
étiqueter automatiquement les données au lieu de
4:48
faire des annotations manuelles construire des modèles
4:51
à 2,8 fois plus rapide tout en
4:54
augmenter les performances prédictives par un
4:56
moyenne de 45,5 pour cent donc encore une fois à la place
5:00
d'écrire des étiquettes les utilisateurs ou les connaissances
5:03
les experts écrivent des fonctions d'étiquetage ces
5:05
fonctions donnent simplement un aperçu de la
5:07
des modèles sur des motifs à rechercher ou
5:10
tout ce que l'expert utilisera pour classer
5:12
les données aidant le modèle à suivre
5:14
même processus, le système applique le
5:17
l'étiquetage nouvellement écrit fonctionne sur
5:19
nos données non étiquetées et apprend un
5:21
modèle génératif pour combiner la sortie
5:24
étiquettes en étiquettes probabilistes qui
5:26
sont ensuite utilisés pour former notre profondeur finale
5:29
réseau de neurones tuba fait tout cela en
5:32
lui-même facilitant tout ce processus
5:35
pour la première fois
5:36
notre dernier papier aussi de stanford
5:39
un an plus tard introduit le logiciel
5:42
2.0 ce document d'une page est une fois de plus
5:45
poussant vers l'avant avec la même profondeur
5:47
Apprentissage d'une approche centrée sur les données
5:49
fonctions d'étiquetage pour produire de la formation
5:51
étiquettes pour les grands ensembles de données non étiquetés et
5:54
former notre modèle final qui est
5:56
particulièrement utile pour l'énorme Internet
5:59
ensembles de données scrapés comme celui utilisé dans
6:01
applications google telles que google ads
6:03
gmail youtube etc s'attaquer au manque de
6:06
données étiquetées à la main bien sûr c'est juste
6:09
un aperçu des progrès et
6:10
direction de ai et i centrés sur les données
6:13
vous invite vivement à lire
6:14
informations dans la description ci-dessous pour
6:16
avoir une vue complète de l'IA centrée sur les données
6:19
d'où ça vient et où ça vient
6:21
rubrique je veux aussi remercier tuba pour
6:24
sponsoriser cette vidéo et je vous invite
6:26
pour consulter leur site Web pour plus
6:28
informations si vous n'avez pas entendu parler
6h30
tuba avant d'avoir encore déjà utilisé
6:32
leur approche dans de nombreux produits comme
6:35
youtube google ads gmail et autres gros
6:37
applications
6:39
merci d'avoir regardé la vidéo jusqu'à
6:41
la fin
[Musique]