eDiffi, el modelo más reciente de NVIDIA, genera imágenes más precisas y de mejor aspecto que todos los enfoques anteriores como DALLE 2 o Stable Diffusion. eDiffi comprende mejor el texto que envía y es más personalizable, ya que agrega una función que vimos en un artículo anterior de NVIDIA: la herramienta Painter. Conoce más en el vídeo...
►Lea el artículo completo: https://www.louisbouchard.ai/ediffi/
► Balaji, Y. et al., 2022, eDiffi: Modelos de difusión de texto a imagen con un conjunto de eliminadores de ruido expertos, https://arxiv.org/abs/2211.01324
►Página del proyecto: https://deepimagination.cc/eDiffi/
►My Newsletter (¡Una nueva aplicación de IA explicada semanalmente en sus correos electrónicos!): https://www.louisbouchard.ai/newsletter/
0:06
el nuevo enfoque de vanguardia para
0:08
síntesis de imagen que genera mejor
0:10
buscando imágenes más precisas que
0:13
todos los enfoques anteriores como Delhi 2 o
0:15
difusión estable ya sea si es mejor
0:17
entiende el texto que envía y es
0:19
más personalizable agregando una nueva característica
0:21
vimos en un artículo anterior de Nvidia
0:23
la herramienta de pintor como ven se puede
0:26
pintar con palabras en resumen esto significa que
0:29
puede ingresar algunos temas y pintar en
0:32
la imagen lo que debe aparecer aquí y
0:34
ahí permitiéndote crear mucho más
0:36
imágenes personalizadas en comparación con un aleatorio
0:39
generación siguiendo un aviso esto es
0:41
el siguiente nivel que te permite ser bonita
0:43
obtener la imagen exacta que tiene en
0:45
mente simplemente dibujando un rápido horrible
0:47
esbozar algo que incluso yo pueda hacer como yo
0:50
mencionó que los resultados no son solo de Sota
0:52
y mejor aspecto que la difusión estable
0:55
pero también son mucho más controlables
0:57
por supuesto que es un caso de uso diferente como
0:59
necesita un poco más de trabajo y más claro
1:02
ID en mente para crear un borrador de este tipo, pero
1:04
definitivamente es muy emocionante y
1:06
interesante también es por eso que quería
1:08
cúbrelo en mi canal ya que no es
1:11
simplemente un modelo mejor, sino también un
1:13
enfoque diferente con mucho más
1:15
control sobre la salida que la herramienta no tiene
1:17
todavía disponible lamentablemente pero estoy seguro
1:19
espero que sea pronto por cierto
1:22
definitivamente debería suscribirse a la
1:23
canal y sígueme en Twitter en what
1:25
saluda si te gusta este tipo de video
1:27
y me gustaría tener acceso a fácilmente
1:30
noticias digeribles sobre esto fuertemente
1:32
campo complicado otra victoria que ellos
1:34
le permite tener más control en este
1:37
nuevo modelo es mediante el uso de la misma función
1:39
vimos pero de manera diferente en efecto el modelo
1:42
genera imágenes Guiado por una oración
1:44
pero también puede ser influenciado usando un
1:47
bosquejo rápido por lo que básicamente toma un
1:49
imagen y un texto como entradas esto significa
1:52
puedes hacer otras cosas como entiende
1:54
las imágenes aquí aprovechan esto
1:56
capacidad mediante el desarrollo de un estilo
1:58
enfoque de transferencia donde puede
2:00
influir en el estilo de la imagen
2:02
proceso de generación dando una imagen con
2:04
un estilo particular bien junto con su
2:06
entrada de texto esto es genial y solo
2:09
mira los resultados de los que hablan
2:11
ellos mismos es increíble vencer a ambos
2:14
Modelos e imagen de transferencia de estilo Sota
2:16
modelos de síntesis con un solo enfoque
2:18
ahora la pregunta es cómo podría Nvidia
2:22
desarrollar un modelo que cree mejores
2:23
mirar imágenes permite un mayor control sobre
2:26
tanto el estilo como la estructura de la imagen
2:29
así como una mejor comprensión y
2:31
representando lo que realmente quieres en
2:34
tu texto pues cambian lo tipico
2:36
arquitectura de difusión de dos maneras primero
2:39
codifican el texto usando dos diferentes
2:41
enfoques que ya cubrí en el
2:43
canal al que nos referimos como clip y T5
2:46
codificadores esto significa que utilizarán
2:48
modelos pre-entrenados para tomar texto y
2:50
crear varias incrustaciones centrándose en
2:52
diferentes características a medida que son entrenados
2:55
y se comportaron de manera diferente y los significados son
2:57
sólo representaciones que maximizan lo que el
3:00
oración en realidad significa para el
3:01
algoritmo o la máquina para entender
3:04
con respecto a la imagen de entrada, simplemente
3:06
use las incrustaciones de clips también
3:08
básicamente codificando la imagen para que la
3:11
modelo puede entenderlo que usted puede
3:13
aprende más sobre en mis otros videos
3:14
cubriendo los modelos generativos tal como son
3:16
casi todo construido en clip esto es
3:19
lo que les permite tener más control
3:21
sobre la salida, así como procesada
3:23
texto e imágenes en lugar de solo texto
3:25
la segunda modificación es usar un
3:28
Cascada de modelos de difusión en lugar de
3:31
reutilizando lo mismo iterativamente como nosotros
3:33
generalmente lo hacen con modelos basados en difusión
3:35
aquí los modelos de uso entrenados para la
3:38
parte específica del proceso generativo
3:39
lo que significa que cada modelo no tiene que
3:42
ser tan general como la difusión regular
3:44
eliminador de ruido ya que cada modelo tiene que centrarse
3:46
en una parte específica del proceso puede
3:49
ser mucho mejor en eso usan esto
3:51
porque observaron que el
3:52
los modelos de eliminación de ruido parecían usar el texto
3:55
incrustaciones mucho más para orientar su
3:57
generación hacia el comienzo de la
3:59
proceso y luego usarlo cada vez menos para
4:02
Centrarse en la calidad de salida y la fidelidad.
4:05
esto naturalmente trae la hipótesis
4:07
que reutilizar el mismo modelo de eliminación de ruido
4:09
a lo largo de todo el proceso podría no
4:11
ser la mejor identificación ya que automáticamente
4:13
se enfoca en diferentes tareas y sabemos
4:15
que un generalista está lejos del experto
4:18
nivel en todas las tareas ¿por qué no usar algunos
4:20
expertos en lugar de un generalista para obtener
4:23
resultados mucho mejores así que esto es lo que ellos
4:25
hizo y por qué los llaman denoising
4:28
expertos y la razón principal de esto
4:30
mejora el rendimiento en calidad y
4:32
fidelidad el resto de los
4:34
la arquitectura es bastante similar a otras
4:36
enfoques de escalar los resultados finales
4:38
con otros modelos para obtener un alto
4:40
definición imagen final la imagen y
4:43
los campos de síntesis de video se están poniendo
4:45
loco hoy en día y estamos viendo
4:47
resultados impresionantes que salen cada semana
4:49
Estoy súper emocionada por los próximos lanzamientos.
4:51
y me encanta ver diferentes enfoques
4:53
con formas innovadoras de abordar
4:55
el problema y también ir por diferentes
4:57
casos de uso como dijo una vez una gran persona
5:01
que tiempo de estar vivo espero que les guste
5:04
esta rápida descripción general del enfoque
5:06
nivel un poco más alto de lo que suelo
5:08
haz lo que sea necesario para la mayoría de las partes que ya
5:10
cubierto en numerosos videos y cambiado
5:12
que actúen diferente te invito a
5:15
mira mi video de difusión estable para aprender
5:17
un poco más sobre el enfoque de difusión
5:19
mismo y leer el documento de nvidia para
5:21
obtener más información sobre este enfoque específico
5:23
y su implementación te veré
5:26
la próxima semana con otro artículo increíble
5:32
extranjero
5:36
[Música]