paint-brush
¿Qué es el reconocimiento general de video?por@whatsai
864 lecturas
864 lecturas

¿Qué es el reconocimiento general de video?

por Louis Bouchard6m2022/09/09
Read on Terminal Reader
Read this story w/o Javascript

Demasiado Largo; Para Leer

Hemos visto que la IA genera texto, luego genera imágenes y, más recientemente, incluso genera videos cortos, aunque todavía necesitan algunas mejoras. Los resultados son increíbles cuando piensas que nadie está realmente involucrado en el proceso de creación de estas piezas y solo tiene que ser entrenado una vez para luego ser utilizado por miles de personas como lo es la difusión estable. Aún así, ¿estos modelos realmente entienden lo que están haciendo? ¿Saben lo que representa realmente la imagen o el vídeo que acaban de producir? ¿Qué entiende tal modelo cuando ve tal imagen o, aún más complejo, un video? Obtén más información en el video... (¡información del sorteo también en el video!)
featured image - ¿Qué es el reconocimiento general de video?
Louis Bouchard HackerNoon profile picture

Hemos visto a la IA generar texto, luego generar imágenes y, más recientemente, incluso generar videos cortos, aunque todavía necesitan algunas mejoras.

Los resultados son increíbles cuando piensas que nadie está realmente involucrado en el proceso de creación de estas piezas y solo tiene que ser entrenado una vez para luego ser utilizado por miles de personas como lo es la difusión estable.

Aún así, ¿estos modelos realmente entienden lo que están haciendo? ¿Saben lo que representa realmente la imagen o el vídeo que acaban de producir?

¿Qué entiende tal modelo cuando ve tal imagen o, aún más complejo, un video? Obtenga más información en el video... (¡también hay información de obsequios de GPU RTX en el video!)

Referencias

►Lea el artículo completo:
https://www.louisbouchard.ai/general-video-recognition/
►Ni, B., Peng, H., Chen, M., Zhang, S., Meng, G., Fu, J., Xiang, S. y
Ling, H., 2022. Expansión de modelos preentrenados de imagen de lenguaje para general
Reconocimiento de vídeo. preimpresión de arXiv arXiv:2208.02816.
►Código: https://github.com/microsoft/VideoX/tree/master/X-CLIP
►My Newsletter (¡Una nueva aplicación de IA explicada semanalmente en sus correos electrónicos!):
https://www.louisbouchard.ai/newsletter/

Transcripción del vídeo

 0:00

hemos visto ai generar texto entonces

0:02

generar imágenes y, más recientemente, incluso

0:05

generar videos cortos a pesar de que

0:07

todavía necesita trabajo los resultados son

0:09

increíble especialmente cuando piensas

0:11

que nadie está realmente involucrado en el

0:13

proceso de creación de estas piezas y

0:16

solo tiene que ser entrenado a la vez para luego

0:18

ser utilizado por miles de personas como

0:20

la difusión estable sigue siendo hacer estos

0:23

los modales realmente entienden lo que son

0:25

haciendo saben lo que la imagen o

0:27

video que acaban de producir realmente

0:29

representa lo que hace tal modelo

0:31

entender cuando ve una imagen así

0:34

o aun mas complejo un video centrémonos

0:36

en el más desafiante de los dos y

0:38

sumérgete en cómo una IA entiende los videos

0:41

a través de una tarea llamada video general

0:44

reconocimiento de dónde está el objetivo para un

0:46

modelo para tomar videos como entradas y uso

0:49

texto para describir lo que está sucediendo en el

0:51

video pero primero creo que te va a encantar

0:53

patrocinador de este episodio y lo que tienen

0:55

para ofrecer un increíble evento gratuito de inteligencia artificial para

0:59

este video me estoy asociando con scale ai

1:01

scalia es la empresa detrás de uno de los

1:04

Las conferencias de IA líderes en el mundo transforman

1:07

x este 19 al 21 de octubre transformix

1:11

reunirá a más de 20 000 ai y

1:14

ml líderes visionarios practicantes y

1:16

investigadores de todas las industrias para explorar

1:19

operacionalización de la IA y el aprendizaje automático

1:22

transfer mix es un evento virtual gratuito y

1:24

contará con 120 ponentes de empresas

1:27

como meta openai mente profunda google etsy

1:31

y más estoy personalmente emocionado de escuchar

1:33

del cofundador de greg brockman openai

1:36

y presidente y corey el vicepresidente de

1:39

investigación y tecnología en deepmind dos

1:41

de las empresas más importantes de nuestro

1:43

campo también habrá realmente

1:45

charlas interesantes de fantásticos

1:46

contribuyentes al campo como francois

1:49

chalet el creador de keras que voy

1:51

definitivamente sintoniza no te pierdas tu

1:53

oportunidad de asistir a esta educación gratuita

1:55

evento fue un gran éxito el año pasado y

1:58

no te lo quieres perder regístrate con

2:00

el primer enlace a continuación para asistir a la

2:01

conferencia transformix conmigo y

2:03

apoya mi trabajo

2:06

reconocimiento general de videos

2:08

es una de las tareas más desafiantes en

2:10

comprender los videos pero puede ser el

2:13

mejor medida de la capacidad de un modelo para obtener

2:15

lo que está pasando también es la base

2:17

detrás de muchas aplicaciones que dependen de un

2:19

buena comprensión de videos como deportes

2:22

análisis o conducción autónoma pero qué

2:24

hace esta tarea tan compleja pues ahi

2:27

son dos cosas que tenemos que entender

2:30

lo que se muestra significa cada cuadro o cada

2:33

imagen de un video en particular segundo nosotros

2:36

tenemos que ser capaces de decir lo que

2:38

entender de una manera que los humanos entienden

2:41

lo que significa usar palabras afortunadamente para

2:44

nosotros el segundo reto ha sido abordado

2:46

numerosas veces por la comunidad lingüística

2:49

y podemos hacernos cargo de su trabajo más

2:51

precisamente podemos tomar lo que la gente de

2:53

el campo de la imagen del idioma se ha hecho con

2:56

modelos como clip o incluso estable

2:58

difusión donde tienes un codificador de texto

3:01

y un codificador de imágenes que aprende a

3:04

codificar ambos tipos de entradas en el

3:06

mismo tipo de representación de esta manera usted

3:09

puede comparar una escena similar a una similar

3:11

solicitud de texto entrenando la arquitectura

3:13

con millones de ejemplos de leyendas de imágenes

3:16

pares que tienen texto e imágenes

3:18

codificado en un espacio similar es poderoso

3:20

porque se necesita mucho menos espacio para

3:22

realizar cálculos y nos permite

3:24

comparar texto con imágenes fácilmente significado

3:27

que la modelo aun no entiende

3:29

una imagen o incluso una oración simple, pero

3:32

al menos puede entender si ambos son

3:34

similar o no, todavía estamos lejos de

3:37

inteligencia pero eso es bastante útil

3:39

y lo suficientemente bueno para la mayoría de los casos ahora viene

3:42

con el mayor desafío aquí videos

3:44

y para eso usaremos el enfoque de

3:47

Berlín yo y mis colegas en su reciente

3:49

imagen de idioma en expansión de papel

3:51

modales pre-entrenados para video general

3:54

los videos de reconocimiento son mucho más complejos

3:56

que las imágenes debido a la temporalidad

3:58

información que significa los marcos múltiples

4:01

y el hecho de que cada cuadro está vinculado

4:03

al siguiente y al anterior con

4:05

movimiento y acciones coherentes el modelo

4:08

necesita ver lo que sucedió antes durante

4:10

y después de cada cuadro para tener una adecuada

4:13

comprensión de la escena es sólo

4:15

como en youtube realmente no puedes saltarte 5

4:18

segundos adelante en videos cortos como tú

4:20

perderá información valiosa en este

4:23

en caso de que tomen cada cuadro y los envíen

4:25

en el mismo codificador de imagen que acabamos de

4:27

discutido el uso de un transformador de visión

4:30

arquitectura basada en para procesarlos en

4:32

un espacio condensado usando la atención si

4:35

no están familiarizados con la visión

4:36

transformadores o el mecanismo de atención

4:39

te invito a ver el video

4:40

hecho presentándolos una vez que tenga su

4:43

representación para cada cuadro que puede

4:45

usar un proceso similar basado en la atención para

4:47

hacer que cada marco se comunique entre sí y

4:50

permitir que su modelo intercambie información

4:52

entre fotogramas y crear un final

4:55

representación para el video este

4:57

intercambio de información entre marcos

4:59

usar la atención actuará como una especie de

5:02

memoria para que su modelo entienda el

5:04

video como un todo en lugar de un par de

5:06

imágenes aleatorias juntas finalmente usamos

5:09

otro módulo de atención para fusionar el

5:11

codificaciones de texto de los marcos que teníamos con

5:14

nuestra representación de video condensada

5:17

y listo, esta es una forma de ai

5:20

entiende un video por supuesto que esto era

5:23

solo una descripción general de este gran artículo de

5:25

investigación de Microsoft que sirve como

5:27

introducción al reconocimiento de video i

5:30

invitarle a leer su artículo por un

5:32

mejor comprensión de su enfoque i

5:34

también tengo el placer de anunciar

5:36

otro sorteo de la proxima nvidia gtc

5:39

evento del 19 de septiembre a septiembre

5:42

22nd nvidia me está dando una vez más una

5:45

rtx 3080 ti para regalar a este

5:48

comunidad para aquellos de ustedes que asisten a la

5:50

evento las únicas dos cosas que tienes que hacer

5:53

para tener la oportunidad de ganar son

5:55

suscríbete al canal y mándame un dm

5:57

captura de pantalla de uno de los peajes que

5:59

decida asistir durante el evento

6:02

eso es todo gracias por ver el

6:04

video y cálido agradecimiento a mis amigos en

6:06

scale ai por patrocinar el video espero

6:09

para verlo virtualmente en su evento gratuito

6:11

en breve y te veré la próxima semana

6:13

con otro papel increíble

[Música]