Si pensabas que tenía grandes resultados, espera a ver lo que puede hacer este nuevo modelo de Google Brain.
Dalle-e es asombroso pero a menudo carece de realismo, y esto es lo que el equipo atacó con este nuevo modelo llamado Imagen.
Comparten una gran cantidad de resultados en la página de su proyecto, así como un punto de referencia, que introdujeron para comparar modelos de texto a imagen, donde superan claramente a y enfoques de generación de imágenes anteriores. Conoce más en el vídeo...
►Lea el artículo completo: https://www.louisbouchard.ai/google-brain-imagen/
►Artículo: Saharia et al., 2022, Imagen - Google Brain, https://gweb-research-imagen.appspot.com/paper.pdf
►Enlace del proyecto: https://gweb-research-imagen.appspot.com/
►My Newsletter (¡Una nueva aplicación de IA explicada semanalmente en sus correos electrónicos!): https://www.louisbouchard.ai/newsletter/
0:00
si pensabas que dali 2 tenía grandes resultados
0:02
espera a ver que tal este nuevo modelo
0:04
de google brain puede hacer delhi es
0:07
sorprendente pero a menudo carece de realismo y esto
0:10
es lo que atacó el equipo con esta nueva
0:12
modelo llamada imogen comparten mucho
0:14
resultados en la página de su proyecto, así como
0:16
un punto de referencia que introdujeron para
0:18
comparar texto con modelos de imagen donde
0:20
superaron claramente a diario2 y
0:23
enfoques previos de generación de imágenes
0:25
este punto de referencia también es genial, ya que
0:27
ver más y más modelos de texto a imagen
0:29
y es bastante difícil comparar el
0:31
resultados a menos que asumamos que los resultados son
0:34
realmente malo, lo que hacemos a menudo, pero esto
0:36
modelo y le2 definitivamente desafiaron las probabilidades
0:40
tldr es un nuevo modelo de texto a imagen que
0:43
puedes comparar a dali con más
0:45
realismo según los probadores humanos, así que solo
0:48
como dali que cubrí ni siquiera un
0:50
hace un mes este modelo toma textos como un
0:53
perro golden retriever con un azul
0:56
pasador a cuadros y un punto rojo
0:58
de cuello alto e intenta generar un
1:00
imagen fotorrealista de este extraño
1:02
frase el punto principal aquí es que
1:05
imogen no solo puede entender el texto sino
1:08
también puede entender las imágenes que
1:10
genera ya que son más realistas
1:12
que todos los enfoques anteriores, por supuesto
1:15
cuando digo entender me refiero a su propio
1:17
tipo de comprensión que es realmente
1:20
diferente al nuestro, el modal no
1:22
entender realmente el texto o la imagen
1:24
genera definitivamente tiene algún tipo
1:27
de conocimientos al respecto, pero principalmente
1:28
entiende cómo este tipo particular de
1:31
la oración con estos objetos debe ser
1:33
representado usando píxeles en una imagen pero
1:36
admitiré que seguro que lo parece
1:38
entiende lo que le enviamos cuando lo vemos
1:41
esos resultados obviamente puedes engañarlo
1:43
con algunas oraciones realmente extrañas que
1:45
no podía verse realista como este
1:48
pero a veces supera incluso al tuyo
1:50
imaginación y simplemente crea algo
1:53
asombroso aún lo que es aún más asombroso
1:56
es como funciona usando algo que nunca
1:58
discutido en el canal una difusión
2:00
modelo pero antes de usar esta difusión
2:03
modelo primero tenemos que entender el
2:05
entrada de texto y este es también el principal
2:07
diferencia con dali usaron un enorme
2:10
modelo de texto similar a gpt3 para entender
2:13
el texto lo mejor que puede un sistema de inteligencia artificial
2:16
en lugar de entrenar un modelo de texto a lo largo
2:18
con el modelo de generación de imágenes que
2:21
simplemente use un gran modelo pre-entrenado y
2:23
congelarlo para que no cambie
2:25
durante el entrenamiento de la imagen
2:27
modelo de generación de su estudio este
2:30
condujo a resultados mucho mejores y parecía
2:32
como si el modelo entendiera mejor el texto, así que
2:35
este módulo de texto es cómo el modelo
2:37
entiende el texto y esta comprensión
2:40
se representa en lo que llamamos codificaciones
2:42
que es lo que ha sido entrenado el modelo
2:44
hacer en grandes conjuntos de datos para transferir texto
2:47
entradas en un espacio de información que
2:50
puede usar y entender
2:52
ahora necesitamos usar este texto de transformación
2:54
datos para generar la imagen y como dije
2:57
utilizaron un modelo de difusión para lograr
3:00
eso pero que es un modelo de difusión
3:02
los modelos de difusión son modelos generativos
3:04
que convierten ruido gaussiano aleatorio como
3:07
esto en imágenes aprendiendo a
3:10
ruido gaussiano inverso iterativamente
3:13
son modelos poderosos para súper resolución
3:15
u otras traducciones de imagen a imagen y
3:18
en este caso utilice una unidad modificada
3:20
arquitectura que cubrí numerosos
3:22
veces en videos anteriores, así que no lo haré
3:24
entrar en los detalles arquitectónicos
3:26
aquí básicamente el modelo está entrenado para
3:29
eliminar el ruido de una imagen de puro ruido que
3:31
el oriente utilizando las codificaciones de texto y
3:34
una técnica llamada clasificador libre
3:36
orientación que dicen es esencial y
3:38
claramente explicado en su artículo, lo haré
3:40
le permite leerlo para obtener más información sobre
3:42
esta técnica así que ahora tenemos un modelo
3:45
capaz de tomar ruido gaussiano aleatorio y
3:47
nuestra codificación de texto y eliminar el ruido con
3:49
orientación de las codificaciones de texto a
3:51
generar nuestra imagen pero como ves aquí
3:54
no es tan simple como suena el
3:56
imagen que acabamos de generar es muy pequeña
3:58
imagen como una imagen más grande requerirá
4:00
mucha más computación y mucho más grande
4:02
modelo que no son viables en cambio nosotros
4:05
primero generar una imagen fotorrealista
4:07
Usando el modelo de difusión solo
4:09
discutido y luego usar otra difusión
4:12
modelos para mejorar la calidad de la
4:14
imagen iterativa que ya cubrí
4:16
modelos de súper resolución en videos anteriores
4:19
así que no entraré en detalles aquí
4:21
pero hagamos un resumen rápido una vez más
4:24
queremos tener ruido y no una imagen
4:26
así que cubrimos esto generado inicialmente
4:28
imagen de baja resolución con de nuevo algunos
4:31
ruido gaussiano y entrenamos nuestro segundo
4:33
modelo de difusión para tomar este modificado
4:35
imagen y mejorarla luego repetimos
4:38
estos dos pasos con otro modelo pero
4:40
esta vez usando solo parches de la
4:43
imagen en lugar de la imagen completa para hacer
4:45
la misma relación de mejora y permanecer
4:47
computacionalmente viable y listo terminamos
4:51
arriba con nuestro alto fotorrealista
4:53
imagen de resolución
4:55
por supuesto, esto fue solo una descripción general de
4:56
este nuevo modelo emocionante con realmente genial
4:59
resultados definitivamente te invito a leer
5:01
su gran artículo para una profundización
5:03
comprensión de su enfoque y una
5:05
análisis de resultados detallado
5:07
y tu crees que los resultados son
5:09
comparable a delhi también son mejores
5:12
o peor, seguro que creo que es el principal de Dally.
5:15
competidor a partir de ahora déjame saber qué
5:17
piensas en este nuevo cerebro de google
5:19
publicación y la explicación espero
5:21
disfrutaste este video y si lo hiciste
5:24
por favor tome un segundo para dejar un me gusta y
5:26
suscríbete para estar al día con
5:27
emocionantes noticias de ai si estás suscrito i
5:30
nos vemos la próxima semana con otro
papel asombroso