paint-brush
Qu'est-ce que la reconnaissance vidéo générale ?par@whatsai
864 lectures
864 lectures

Qu'est-ce que la reconnaissance vidéo générale ?

par Louis Bouchard6m2022/09/09
Read on Terminal Reader
Read this story w/o Javascript

Trop long; Pour lire

Nous avons vu l'IA générer du texte, puis générer des images et, plus récemment, même générer de courtes vidéos, même si elles ont encore besoin d'être améliorées. Les résultats sont incroyables quand on pense que personne n'est réellement impliqué dans le processus de création de ces pièces et qu'elles ne doivent être formées qu'une seule fois pour ensuite être utilisées par des milliers de personnes comme l'est la diffusion stable. Pourtant, ces modèles comprennent-ils vraiment ce qu'ils font ? Savent-ils ce que représente réellement l'image ou la vidéo qu'ils viennent de produire ? Que comprend un tel modèle lorsqu'il voit une telle image ou, plus complexe encore, une vidéo ? Apprenez-en plus dans la vidéo... (informations sur les cadeaux également dans la vidéo !)
featured image - Qu'est-ce que la reconnaissance vidéo générale ?
Louis Bouchard HackerNoon profile picture

Nous avons vu l'IA générer du texte, puis générer des images et plus récemment même générer de courtes vidéos, même si elles ont encore besoin d'être améliorées.

Les résultats sont incroyables quand on pense que personne n'est réellement impliqué dans le processus de création de ces pièces et qu'elles ne doivent être formées qu'une seule fois pour ensuite être utilisées par des milliers de personnes comme l'est la diffusion stable.

Pourtant, ces modèles comprennent-ils vraiment ce qu'ils font ? Savent-ils ce que représente réellement l'image ou la vidéo qu'ils viennent de produire ?

Que comprend un tel modèle lorsqu'il voit une telle photo ou, plus complexe encore, une vidéo ? Apprenez-en plus dans la vidéo... (il y a aussi des informations sur les cadeaux du GPU RTX dans la vidéo !)

Références

►Lire l'article complet :
https://www.louisbouchard.ai/general-video-recognition/
►Ni, B., Peng, H., Chen, M., Zhang, S., Meng, G., Fu, J., Xiang, S. et
Ling, H., 2022. Extension des modèles pré-entraînés langage-image pour le général
Reconnaissance vidéo. prétirage arXiv arXiv:2208.02816.
►Code : https://github.com/microsoft/VideoX/tree/master/X-CLIP
►Ma Newsletter (Une nouvelle application d'IA expliquée chaque semaine à vos mails !) :
https://www.louisbouchard.ai/newsletter/

Transcription vidéo

 0:00

nous avons vu ai générer du texte alors

0:02

générer des images et plus récemment même

0:05

générer de courtes vidéos même si elles

0:07

encore besoin de travail les résultats sont

0:09

incroyable surtout quand on pense

0:11

que personne n'est réellement impliqué dans

0:13

processus de création de ces pièces et il

0:16

doit seulement être formé immédiatement pour ensuite

0:18

être utilisé par des milliers de personnes comme

0:20

diffusion stable est encore faire ces

0:23

les modaux comprennent vraiment ce qu'ils sont

0:25

font-ils savent ce que l'image ou

0:27

vidéo qu'ils viennent de produire vraiment

0:29

représente ce que fait un tel modèle

0:31

comprendre quand il voit une telle image

0:34

ou encore plus complexe une vidéo concentrons-nous

0:36

sur le plus difficile des deux et

0:38

plonger dans la façon dont une ai comprend les vidéos

0:41

via une tâche appelée vidéo générale

0:44

reconnaissance où l'objectif est d'obtenir un

0:46

modèle pour prendre des vidéos comme entrées et utiliser

0:49

texte pour décrire ce qui se passe dans le

0:51

vidéo mais d'abord je pense que vous allez adorer

0:53

ce sponsor d'épisode et ce qu'ils ont

0:55

pour offrir un incroyable événement d'IA gratuit pour

0:59

cette vidéo, je suis en partenariat avec scale ai

1:01

scalia est l'entreprise à l'origine de l'un des

1:04

les principales conférences mondiales sur l'IA transforment

1:07

x ce 19 au 21 octobre transformix

1:11

réunira plus de 20 000 ai et

1:14

ml leaders visionnaires praticiens et

1:16

chercheurs de tous les secteurs à explorer

1:19

opérationnaliser l'IA et l'apprentissage automatique

1:22

transfer mix est un événement virtuel gratuit et

1:24

accueillera 120 intervenants d'entreprises

1:27

comme meta openai deepmind google etsy

1:31

et plus je suis personnellement ravi d'entendre

1:33

du co-fondateur de greg brockman openai

1:36

et président et corey le vice-président de

1:39

recherche et technologie chez deepmind two

1:41

des entreprises les plus importantes de notre

1:43

terrain il y aura aussi vraiment

1:45

discussions intéressantes de fantastique

1:46

contributeurs sur le terrain comme françois

1:49

chalet le créateur de keras que je vais

1:51

ne manquez pas votre

1:53

chance d'assister à cette formation gratuite

1:55

événement, il a été un énorme succès l'année dernière et

1:58

tu ne veux pas manquer chanter avec

2:00

le premier lien ci-dessous pour assister à la

2:01

conférence transformix avec moi et

2:03

soutenez mon travail

2:06

reconnaissance vidéo générale

2:08

est l'une des tâches les plus difficiles de

2:10

comprendre les vidéos mais c'est peut-être le

2:13

meilleure mesure de la capacité d'un modèle à obtenir

2:15

ce qui se passe c'est aussi la base

2:17

à l'origine de nombreuses applications reposant sur un

2:19

bonne compréhension des vidéos comme le sport

2:22

analyse ou conduite autonome mais quoi

2:24

rend cette tâche si complexe bien là

2:27

sont deux choses que nous devons comprendre

2h30

ce qui est montré signifiant chaque image ou chaque

2:33

image d'une vidéo particulière à la seconde où nous

2:36

besoin de pouvoir dire ce que nous

2:38

comprendre d'une manière que les humains comprennent

2:41

ce qui signifie utiliser des mots heureusement pour

2:44

nous le deuxième défi a été relevé

2:46

de nombreuses fois par la communauté linguistique

2:49

et nous pouvons reprendre leur travail plus

2:51

précisément, nous pouvons prendre ce que les gens de

2:53

le champ image de la langue en a fini avec

2:56

modèles comme clip ou même stable

2:58

diffusion où vous avez un encodeur de texte

3:01

et un encodeur d'image qui apprend à

3:04

encoder les deux types d'entrées dans le

3:06

même genre de représentation de cette façon vous

3:09

peut comparer une scène similaire à une scène similaire

3:11

invite de texte en formant l'architecture

3:13

avec des millions de légendes d'images exemple

3:16

paires contenant à la fois du texte et des images

3:18

encodé dans un espace similaire est puissant

3:20

parce qu'il prend beaucoup moins de place pour

3:22

effectuer des calculs et cela nous permet de

3:24

comparer facilement le texte aux images

3:27

que le modèle ne comprend toujours pas

3:29

une image ou même une simple phrase mais

3:32

il peut au moins comprendre si les deux sont

3:34

similaire ou pas on est encore loin de

3:37

intelligence mais c'est assez utile

3:39

et assez bon pour la plupart des cas vient maintenant

3:42

avec le plus grand défi ici vidéos

3:44

et pour cela nous utiliserons l'approche de

3:47

berlin moi et mes collègues dans leur récent

3:49

image de langue d'expansion de papier

3:51

modaux pré-formés pour la vidéo générale

3:54

les vidéos de reconnaissance sont beaucoup plus complexes

3:56

que les images en raison de la temporalité

3:58

informations signifiant les multiples trames

4:01

et le fait que chaque trame est liée

4:03

au suivant et au précédent avec

4:05

mouvement et actions cohérents le modèle

4:08

a besoin de voir ce qui s'est passé avant pendant

4:10

et après chaque image pour avoir un bon

4:13

compréhension de la scène c'est juste

4:15

comme sur youtube vous ne pouvez pas vraiment sauter 5

4:18

quelques secondes en avant dans de courtes vidéos pendant que vous

4:20

va manquer des informations précieuses dans ce

4:23

cas, ils prennent chaque image et les envoient

4:25

dans le même encodeur d'image, nous venons

4:27

discuté à l'aide d'un transformateur de vision

4h30

architecture basée pour les transformer en

4:32

un espace condensé en utilisant l'attention si vous

4:35

ne sont pas familiers avec la vision

4:36

transformateurs ou le mécanisme d'attention

4:39

je vous invite à regarder la vidéo je

4:40

fait de les présenter une fois que vous avez votre

4:43

représentation pour chaque image, vous pouvez

4:45

utiliser un processus similaire basé sur l'attention pour

4:47

faire communiquer chaque cadre entre eux et

4:50

permettre à votre modèle d'échanger des informations

4:52

entre les cadres et créer une finale

4:55

représentation pour la vidéo ce

4:57

échange d'informations entre les trames

4:59

utiliser l'attention agira comme une sorte de

5:02

mémoire pour que votre modèle comprenne

5:04

vidéo dans son ensemble plutôt que quelques

5:06

images aléatoires ensemble finalement nous utilisons

5:09

un autre module d'attention pour fusionner

5:11

encodages de texte des cadres que nous avions avec

5:14

notre représentation vidéo condensée

5:17

et voila c'est une façon un ai

5:20

comprend une vidéo bien sûr c'était

5:23

juste un aperçu de cet excellent article de

5:25

Microsoft Research servant de

5:27

introduction à la reconnaissance vidéo i

5h30

vous invitons à lire leur article pour une

5:32

meilleure compréhension de leur approche i

5:34

ont également le plaisir d'annoncer

5:36

un autre cadeau pour le prochain nvidia gtc

5:39

événement du 19 septembre au septembre

5:42

22e nvidia me donne une fois de plus un

5:45

rtx 3080 ti à donner à cela

5:48

communauté pour ceux d'entre vous qui assistent à la

5:50

événement les deux seules choses que vous devez faire

5:53

pour avoir une chance de gagner doivent

5:55

abonne toi a la chaine et dm moi un

5:57

capture d'écran de l'un des péages que vous

5:59

décider d'assister à l'événement

6:02

c'est tout merci d'avoir regardé

6:04

vidéo et chaleureux merci à mes amis de

6:06

scale ai pour avoir sponsorisé la vidéo j'espère

6:09

pour vous voir virtuellement à leur événement gratuit

6:11

bientôt et je vous verrai la semaine prochaine

6:13

avec un autre papier incroyable

[Musique]