Salió el nuevo modelo make-a-video de Meta AI y en una sola frase: genera videos a partir de texto . ¡No solo es capaz de generar videos, sino que también es el nuevo método de vanguardia, que produce videos más coherentes y de mayor calidad que nunca!
Puede ver este modelo como un modelo de difusión estable para videos. Seguramente el siguiente paso después de poder generar imágenes. Esta es toda la información que ya debe haber visto en un sitio web de noticias o simplemente leyendo el título del artículo, pero lo que aún no sabe es qué es exactamente y cómo funciona.
Así es cómo...
►Lea el artículo completo: https://www.louisbouchard.ai/make-a-video/
► Publicación del blog de Meta: https://ai.facebook.com/blog/generative-ai-text-to-video/
►Singer et al. (Meta AI), 2022, "MAKE-A-VIDEO: GENERACIÓN DE TEXTO A VIDEO SIN DATOS DE TEXTO-VIDEO", https://makeavideo.studio/Make-A-Video.pdf
►Make-a-video (página oficial): https://makeavideo.studio/?fbclid=IwAR0tuL9Uc6kjZaMoJHCngAMUNp9bZbyhLmdOUveJ9leyyfL9awRy4seQGW4
► Implementación de Pytorch: https://github.com/lucidrains/make-a-video-pytorch
►My Newsletter (¡Una nueva aplicación de IA explicada semanalmente en sus correos electrónicos!): https://www.louisbouchard.ai/newsletter/
0:00
methias nuevo modelo hacer un video está fuera
0:03
y en una sola frase genera
0:05
videos de texto no es capaz de
0:07
generar videos pero también es lo nuevo
0:09
método de última generación que produce mayor
0:11
vídeos de calidad y más coherentes que
0:14
nunca se puede ver este modelo como un establo
0:16
modelo de difusión para videos seguramente el
0:19
siguiente paso después de poder generar
0:21
imagenes asi es como informacion debes
0:23
ya han visto en un sitio web de noticias o
0:26
con solo leer el titulo del video
0:28
pero lo que no sabes todavía es lo que es
0:30
exactamente y cómo funciona hacer un video
0:33
es la publicación más reciente de met
0:35
III y te permite generar un
0:37
video corto de entradas de texto solo
0:40
así, por lo que está agregando complejidad
0:42
a la prueba de generación de imágenes no sólo
0:45
tener que generar múltiples marcos de
0:47
el mismo tema y escena pero también
0:49
tiene que ser coherente en el tiempo no se puede
0:51
simplemente genera 60 imágenes usando dally
0:53
y generar un video solo se verá
0:56
malo y nada realista necesitas un
0:58
modelo que entiende el mundo de una
1:00
mejor manera y aprovecha este nivel de
1:02
comprensión para generar una
1:04
serie de imágenes que combinan bien
1:06
juntos básicamente quieren simular
1:08
un mundo y luego simular grabaciones de
1:11
pero ¿cómo puedes hacer eso típicamente tú?
1:14
necesitará toneladas de pares de video de texto para
1:16
entrena a tu modelo para generar tales videos
1:18
de entrada textual pero no en este caso
1:21
ya que este tipo de datos es realmente
1:23
difícil de conseguir y los costos de capacitación
1:25
son super caros se acercan a esto
1:27
problema de otra manera otra forma es
1:30
tome el mejor modelo de texto a imagen y
1:32
adaptarlo a videos y eso fue lo que conocí
1:35
hicieron en un trabajo de investigación que acaban de
1:38
liberado en su caso el texto a imagen
1:40
modelo es otro modelo por meta llamado
1:43
revista que cubrí en un artículo anterior
1:45
vídeo si desea obtener más información sobre
1:47
pero ¿cómo se adapta ese modelo a
1:50
tener en cuenta el tiempo se añade un
1:53
tubería temporal espacial para su modelo
1:55
para poder procesar videos esto significa
1:58
que el modelo no sólo generará un
2:00
imagen pero en este caso 16 de ellos en bajo
2:03
resolución para crear un corto coherente
2:06
video de manera similar a un texto para
2:08
modelo de imagen pero agregando un modelo unidimensional
2:11
convolución junto con la regular
2:13
bidimensional la suma simple
2:15
les permite mantener el pre-entrenado
2:17
convoluciones bidimensionales iguales
2:19
y añadir una Dimensión temporal que ellos
2:22
entrenará desde cero reutilizando la mayor parte de
2:25
el código y los parámetros de los modelos de la
2:27
modelo de imagen del que partieron nosotros también
2:30
quiero guiar a Nuestras Generaciones con texto
2:32
entrada que será muy similar a
2:34
modelos de imágenes usando incrustaciones de clips a
2:37
proceso voy en detalle en mi establo
2:39
video de difusión si no estás familiarizado
2:41
con su problema pero también serán
2:43
agregando la Dimensión temporal cuando
2:45
mezclando las características del texto con el
2:47
características de la imagen que hacen lo mismo
2:49
manteniendo el módulo de atención que describí
2:52
en mi video de hacer una escena y agregando un
2:55
módulo de atención unidimensional o
2:57
consideraciones temporales copiar pegar el
3:00
generador de imagen modelo y duplicado
3:02
los módulos de generación para uno más
3:04
Dimensión para tener todos nuestros 16 iniciales.
3:07
marcos, pero ¿qué se puede hacer con 16
3:10
marcos bien nada realmente interesante
3:13
necesitamos hacer un video de alta definición
3:16
fuera de esos marcos el modelo va a hacer
3:19
que al tener acceso a vistas previas y
3:21
marcos futuros e iterativamente
3:23
interpolando de ambos en términos de
3:27
Dimensiones temporales y espaciales en el
3:30
al mismo tiempo, básicamente generando nuevos
3:33
y marcos más grandes entre esos
3:35
16 fotogramas iniciales basados en los fotogramas
3:38
antes y después de ellos que
3:40
fascinar haciendo el movimiento coherente
3:43
y el video en general arruinó esto está hecho
3:45
utilizando una red de interpolación de cuadros
3:47
que también describí en otros videos
3:50
pero básicamente tomará las imágenes que
3:52
tener y llenar los vacíos generando en
3:54
entre información hará lo mismo
3:57
cosa para un componente espacial que se agranda
3:59
la imagen y rellenando los huecos de píxeles para
4:02
hacerlo más alta definición
4:04
así que para resumir la afinación de un texto a
4:07
modelo de imagen para la generación de video este
4:09
significa que ya toman un modelo poderoso
4:12
entrenado y adaptarse y entrenarlo un poco
4:14
un poco más para acostumbrarse a los videos este
4:16
el reentrenamiento se hará con
4:19
videos solo para enseñar a la modelo a
4:21
entender videos y marco de video
4:23
consistencia que hace que el conjunto de datos
4:25
proceso de construcción mucho más simple que nosotros
4:27
usar una vez más un modelo optimizado de imagen
4:30
para mejorar la resolución espacial en nuestro
4:32
componente de interpolación del último cuadro para
4:35
agregue más marcos para que el video sea fluido
4:38
por supuesto, los resultados aún no son perfectos
4:40
al igual que los modelos de texto a imagen, pero nosotros
4:43
saber lo rápido que va el progreso esto fue
4:45
solo una descripción general de cómo me conocí
4:47
abordó con éxito el texto a video
4:49
tarea en este gran papel todos los enlaces
4:52
están en la descripción a continuación si desea
4:53
quisiera aprender más sobre su enfoque
4:55
en la implementación de pytorch también es
4:57
ya está siendo desarrollado por la comunidad
4:59
así que estad atentos a eso si queréis
5:02
quisiera implementarlo usted mismo gracias
5:04
por ver el video completo y lo haré
5:06
nos vemos la próxima vez con otro increíble
5:08
papel