paint-brush
Una introducción a eDiffi: el nuevo modelo de síntesis de imágenes SOTA de NVIDIApor@whatsai
3,201 lecturas
3,201 lecturas

Una introducción a eDiffi: el nuevo modelo de síntesis de imágenes SOTA de NVIDIA

por Louis Bouchard5m2022/11/05
Read on Terminal Reader

Demasiado Largo; Para Leer

eDiffi, el modelo más reciente de NVIDIA, genera imágenes de mejor aspecto y más precisas que todos los enfoques anteriores como DALLE 2 o Stable Diffusion. eDiffi comprende mejor el texto que envía y es más personalizable, ya que agrega una función que vimos en un artículo anterior de NVIDIA: la herramienta Painter. Conoce más en el vídeo...
featured image - Una introducción a eDiffi: el nuevo modelo de síntesis de imágenes SOTA de NVIDIA
Louis Bouchard HackerNoon profile picture

eDiffi, el modelo más reciente de NVIDIA, genera imágenes más precisas y de mejor aspecto que todos los enfoques anteriores como DALLE 2 o Stable Diffusion. eDiffi comprende mejor el texto que envía y es más personalizable, ya que agrega una función que vimos en un artículo anterior de NVIDIA: la herramienta Painter. Conoce más en el vídeo...

Referencias

►Lea el artículo completo: https://www.louisbouchard.ai/ediffi/
► Balaji, Y. et al., 2022, eDiffi: Modelos de difusión de texto a imagen con un conjunto de eliminadores de ruido expertos, https://arxiv.org/abs/2211.01324
►Página del proyecto: https://deepimagination.cc/eDiffi/
►My Newsletter (¡Una nueva aplicación de IA explicada semanalmente en sus correos electrónicos!): https://www.louisbouchard.ai/newsletter/

Transcripción del vídeo

0:06

el nuevo enfoque de vanguardia para

0:08

síntesis de imagen que genera mejor

0:10

buscando imágenes más precisas que

0:13

todos los enfoques anteriores como Delhi 2 o

0:15

difusión estable ya sea si es mejor

0:17

entiende el texto que envía y es

0:19

más personalizable agregando una nueva característica

0:21

vimos en un artículo anterior de Nvidia

0:23

la herramienta de pintor como ven se puede

0:26

pintar con palabras en resumen esto significa que

0:29

puede ingresar algunos temas y pintar en

0:32

la imagen lo que debe aparecer aquí y

0:34

ahí permitiéndote crear mucho más

0:36

imágenes personalizadas en comparación con un aleatorio

0:39

generación siguiendo un aviso esto es

0:41

el siguiente nivel que te permite ser bonita

0:43

obtener la imagen exacta que tiene en

0:45

mente simplemente dibujando un rápido horrible

0:47

esbozar algo que incluso yo pueda hacer como yo

0:50

mencionó que los resultados no son solo de Sota

0:52

y mejor aspecto que la difusión estable

0:55

pero también son mucho más controlables

0:57

por supuesto que es un caso de uso diferente como

0:59

necesita un poco más de trabajo y más claro

1:02

ID en mente para crear un borrador de este tipo, pero

1:04

definitivamente es muy emocionante y

1:06

interesante también es por eso que quería

1:08

cúbrelo en mi canal ya que no es

1:11

simplemente un modelo mejor, sino también un

1:13

enfoque diferente con mucho más

1:15

control sobre la salida que la herramienta no tiene

1:17

todavía disponible lamentablemente pero estoy seguro

1:19

espero que sea pronto por cierto

1:22

definitivamente debería suscribirse a la

1:23

canal y sígueme en Twitter en what

1:25

saluda si te gusta este tipo de video

1:27

y me gustaría tener acceso a fácilmente

1:30

noticias digeribles sobre esto fuertemente

1:32

campo complicado otra victoria que ellos

1:34

le permite tener más control en este

1:37

nuevo modelo es mediante el uso de la misma función

1:39

vimos pero de manera diferente en efecto el modelo

1:42

genera imágenes Guiado por una oración

1:44

pero también puede ser influenciado usando un

1:47

bosquejo rápido por lo que básicamente toma un

1:49

imagen y un texto como entradas esto significa

1:52

puedes hacer otras cosas como entiende

1:54

las imágenes aquí aprovechan esto

1:56

capacidad mediante el desarrollo de un estilo

1:58

enfoque de transferencia donde puede

2:00

influir en el estilo de la imagen

2:02

proceso de generación dando una imagen con

2:04

un estilo particular bien junto con su

2:06

entrada de texto esto es genial y solo

2:09

mira los resultados de los que hablan

2:11

ellos mismos es increíble vencer a ambos

2:14

Modelos e imagen de transferencia de estilo Sota

2:16

modelos de síntesis con un solo enfoque

2:18

ahora la pregunta es cómo podría Nvidia

2:22

desarrollar un modelo que cree mejores

2:23

mirar imágenes permite un mayor control sobre

2:26

tanto el estilo como la estructura de la imagen

2:29

así como una mejor comprensión y

2:31

representando lo que realmente quieres en

2:34

tu texto pues cambian lo tipico

2:36

arquitectura de difusión de dos maneras primero

2:39

codifican el texto usando dos diferentes

2:41

enfoques que ya cubrí en el

2:43

canal al que nos referimos como clip y T5

2:46

codificadores esto significa que utilizarán

2:48

modelos pre-entrenados para tomar texto y

2:50

crear varias incrustaciones centrándose en

2:52

diferentes características a medida que son entrenados

2:55

y se comportaron de manera diferente y los significados son

2:57

sólo representaciones que maximizan lo que el

3:00

oración en realidad significa para el

3:01

algoritmo o la máquina para entender

3:04

con respecto a la imagen de entrada, simplemente

3:06

use las incrustaciones de clips también

3:08

básicamente codificando la imagen para que la

3:11

modelo puede entenderlo que usted puede

3:13

aprende más sobre en mis otros videos

3:14

cubriendo los modelos generativos tal como son

3:16

casi todo construido en clip esto es

3:19

lo que les permite tener más control

3:21

sobre la salida, así como procesada

3:23

texto e imágenes en lugar de solo texto

3:25

la segunda modificación es usar un

3:28

Cascada de modelos de difusión en lugar de

3:31

reutilizando lo mismo iterativamente como nosotros

3:33

generalmente lo hacen con modelos basados en difusión

3:35

aquí los modelos de uso entrenados para la

3:38

parte específica del proceso generativo

3:39

lo que significa que cada modelo no tiene que

3:42

ser tan general como la difusión regular

3:44

eliminador de ruido ya que cada modelo tiene que centrarse

3:46

en una parte específica del proceso puede

3:49

ser mucho mejor en eso usan esto

3:51

porque observaron que el

3:52

los modelos de eliminación de ruido parecían usar el texto

3:55

incrustaciones mucho más para orientar su

3:57

generación hacia el comienzo de la

3:59

proceso y luego usarlo cada vez menos para

4:02

Centrarse en la calidad de salida y la fidelidad.

4:05

esto naturalmente trae la hipótesis

4:07

que reutilizar el mismo modelo de eliminación de ruido

4:09

a lo largo de todo el proceso podría no

4:11

ser la mejor identificación ya que automáticamente

4:13

se enfoca en diferentes tareas y sabemos

4:15

que un generalista está lejos del experto

4:18

nivel en todas las tareas ¿por qué no usar algunos

4:20

expertos en lugar de un generalista para obtener

4:23

resultados mucho mejores así que esto es lo que ellos

4:25

hizo y por qué los llaman denoising

4:28

expertos y la razón principal de esto

4:30

mejora el rendimiento en calidad y

4:32

fidelidad el resto de los

4:34

la arquitectura es bastante similar a otras

4:36

enfoques de escalar los resultados finales

4:38

con otros modelos para obtener un alto

4:40

definición imagen final la imagen y

4:43

los campos de síntesis de video se están poniendo

4:45

loco hoy en día y estamos viendo

4:47

resultados impresionantes que salen cada semana

4:49

Estoy súper emocionada por los próximos lanzamientos.

4:51

y me encanta ver diferentes enfoques

4:53

con formas innovadoras de abordar

4:55

el problema y también ir por diferentes

4:57

casos de uso como dijo una vez una gran persona

5:01

que tiempo de estar vivo espero que les guste

5:04

esta rápida descripción general del enfoque

5:06

nivel un poco más alto de lo que suelo

5:08

haz lo que sea necesario para la mayoría de las partes que ya

5:10

cubierto en numerosos videos y cambiado

5:12

que actúen diferente te invito a

5:15

mira mi video de difusión estable para aprender

5:17

un poco más sobre el enfoque de difusión

5:19

mismo y leer el documento de nvidia para

5:21

obtener más información sobre este enfoque específico

5:23

y su implementación te veré

5:26

la próxima semana con otro artículo increíble

5:32

extranjero

5:36

[Música]