paint-brush
¿Qué son los modelos de difusión latente? La arquitectura detrás de la difusión estableby@whatsai
11,736
11,736

¿Qué son los modelos de difusión latente? La arquitectura detrás de la difusión estable

Louis Bouchard6m2022/08/29
Read on Terminal Reader
Read this story w/o Javascript

¿Qué tienen en común todos los modelos de imagen súper poderosos recientes como DALLE, Imagen o Midjourney? Aparte de sus altos costes informáticos, su enorme tiempo de formación y su entusiasmo compartido, todos se basan en el mismo mecanismo: la difusión. Los modelos de difusión lograron recientemente resultados de última generación para la mayoría de las tareas de imágenes, incluida la conversión de texto a imagen con DALLE, pero también para muchas otras tareas relacionadas con la generación de imágenes, como la pintura de imágenes, la transferencia de estilos o la superresolución de imágenes. Pero, como trabajan? Conoce más en el vídeo...

Companies Mentioned

Mention Thumbnail
Mention Thumbnail
featured image - ¿Qué son los modelos de difusión latente? La arquitectura detrás de la difusión estable
Louis Bouchard HackerNoon profile picture

¿Qué tienen en común todos los modelos de imagen superpoderosos recientes como DALLE , Imagen o Midjourney ? Aparte de sus altos costes informáticos, su enorme tiempo de formación y su entusiasmo compartido, todos se basan en el mismo mecanismo: la difusión.

Los modelos de difusión lograron recientemente resultados de última generación para la mayoría de las tareas de imágenes, incluida la conversión de texto a imagen con DALLE, pero también para muchas otras tareas relacionadas con la generación de imágenes, como la pintura de imágenes, la transferencia de estilos o la superresolución de imágenes. Pero, como trabajan? Conoce más en el vídeo...

Referencias

►Lea el artículo completo: https://www.louisbouchard.ai/latent-diffusion-models/
►Rombach, R., Blattmann, A., Lorenz, D., Esser, P. y Ommer, B., 2022.
Síntesis de imágenes de alta resolución con modelos de difusión latente. En
Actas de la Conferencia IEEE/CVF sobre Visión por Computador y Patrones
Reconocimiento (págs. 10684–10695), https://arxiv.org/pdf/2112.10752.pdf
►Código de difusión latente: https://github.com/CompVis/latent-diffusion
►Código de difusión estable (texto a imagen basado en LD): https://github.com/CompVis/stable-diffusion
►Pruébelo usted mismo: https://huggingface.co/spaces/stabilityai/stable-diffusion
►Aplicación web:
https://stabilityai.us.auth0.com/u/login?state=hKFo2SA4MFJLR1M4cVhJcllLVmlsSV9vcXNYYy11Q25rRkVzZaFur3VuaXZlcnNhbC1sb2dpbqN0aWTZIFRjV2p5dHkzNGQzdkFKZUdyUEprRnhGeFl6ZVdVUDRZo2NpZNkgS3ZZWkpLU2htVW9PalhwY2xRbEtZVXh1Y0FWZXNsSE4
►My Newsletter (¡Una nueva aplicación de IA explicada semanalmente en sus correos electrónicos!): https://www.louisbouchard.ai/newsletter/

Transcripción del vídeo

0:00

¿Qué significan todas las imágenes súper poderosas recientes?

0:02

modelos como delhi imagine o mid journey

0:05

tienen en común además de la alta computación

0:08

cuesta mucho tiempo de entrenamiento y entusiasmo compartido

0:10

todos se basan en el mismo mecanismo

0:13

difusión los modelos de fusión recientemente

0:15

logrado resultados de última generación para

0:17

la mayoría de las tareas de imagen, incluido texto a imagen

0:19

con delhi pero muchas otras imágenes

0:21

tareas relacionadas con la generación como imagen y

0:23

transferencia de estilo de pintura o super imagen

0:25

resolución aunque hay algunos

0:27

desventajas trabajan secuencialmente en el

0:30

imagen completa, lo que significa que tanto la

0:31

los tiempos de entrenamiento e inferencia son súper

0:34

caro es por eso que necesitas cientos

0:36

de gpus para entrenar tal modelo y por qué

0:38

esperas unos minutos para obtener tu

0:40

resultados, no es de extrañar que sólo el

0:42

empresas más grandes como google o openai

0:45

están lanzando esos modelos

0:47

pero que son he cubierto la difusión

0:49

modelos en un par de videos que yo

0:51

te invito a comprobar por una mejor

0:52

entendiendo que son modelos iterativos

0:55

que toman ruido aleatorio como entradas que

0:57

se puede condicionar con un texto o un

0:59

imagen para que no sea completamente aleatoria

1:02

aprende iterativamente a eliminar este ruido

1:04

aprendiendo qué parámetros los modelos

1:06

debe aplicar a este ruido para terminar

1:08

con una imagen final asi que la basica

1:10

los modelos de difusión tomarán una posición aleatoria

1:12

ruido con el tamaño de la imagen y

1:14

aprenda a aplicar aún más ruido hasta que

1:17

volvemos a una imagen real esta es

1:19

posible porque el modelo tendrá

1:21

acceso a las imágenes reales durante

1:23

formación y será capaz de aprender la

1:25

parámetros correctos aplicando dicho ruido

1:27

a la imagen iterativamente hasta que

1:29

alcanza el ruido completo y es

1:31

irreconocible

1:33

entonces cuando estemos satisfechos con el

1:35

ruido que obtenemos de todas nuestras imágenes significado

1:37

que son similares y generan ruido

1:40

de una distribución similar estamos listos

1:42

para usar nuestro modelo en reversa y alimentarlo

1:45

ruido similar en el orden inverso a

1:48

esperar una imagen similar a las utilizadas

1:50

durante el entrenamiento por lo que el principal problema aquí

1:53

es que estás trabajando directamente con

1:54

los píxeles y la gran entrada de datos como

1:57

imágenes vamos a ver cómo podemos solucionar esto

1:59

problema de cálculo mientras se mantiene el

2:02

la calidad de los resultados es la misma que se muestra

2:04

aqui comparado con delhi pero primero dale

2:07

Dame unos segundos para presentarte a mi

2:09

amigos de quack patrocinando este video

2:11

como sin duda conoces a la mayoría

2:13

de las empresas ahora reportan ai y ml

2:15

adopción en sus procesos pero compleja

2:18

operaciones como el despliegue modal

2:20

prueba de entrenamiento y tienda de características

2:22

la gerencia parece interponerse en el camino de

2:24

La implementación del modelo de progreso ml es uno de

2:26

los procesos más complejos es tal

2:29

proceso riguroso que el científico de datos

2:31

los equipos dedican demasiado tiempo a resolver

2:33

tareas de back-end e ingeniería antes

2:35

ser capaz de empujar el modelo en

2:37

producción algo que yo personalmente

2:39

experimentado también requiere muy

2:42

diferentes conjuntos de habilidades que a menudo requieren dos

2:44

diferentes equipos trabajando en estrecha colaboración

2:46

afortunadamente para nosotros quack ofrece un

2:48

plataforma totalmente administrada que unifica ml

2:50

ingeniería y operaciones de datos

2:53

proporcionando una infraestructura ágil que

2:55

permite la producción continua de

2:57

ml modelos a escala que no tienes que

2:59

aprender a hacer todo de principio a fin

3:01

mas gracias a ellos quack empodera

3:04

organizaciones para entregar máquinas

3:06

modelos de aprendizaje en producción a escala

3:08

si quieres acelerar tu modelo

3:10

entrega a producción por favor tome unos

3:12

minutos y haga clic en el primer enlace a continuación

3:14

para comprobar lo que ofrecen como estoy seguro de que

3:16

valdrá la pena gracias a cualquiera

3:18

echando un vistazo y apoyándome a mí y a mi

3:20

amigos en quack

3:23

¿Cómo pueden estos poderosos modelos de difusión

3:25

ser computacionalmente eficiente por

3:27

transformándolos en difusión latente

3:30

modelos esto significa que robin rumback y

3:32

sus colegas implementaron esto

3:34

enfoque de difusión que acabamos de cubrir

3:36

dentro de una representación de imagen comprimida

3:38

en lugar de la imagen en sí y luego

3:41

trabajaron para reconstruir la imagen para que

3:43

no están trabajando con el espacio de píxeles o

3:45

las imágenes normales ya no funcionan de tal

3:48

el espacio comprimido no sólo permite

3:50

generaciones más eficientes y rápidas como

3:52

el tamaño de los datos es mucho más pequeño pero también

3:54

permite trabajar con diferentes

3:56

modalidades ya que están codificando el

3:58

entradas puedes alimentarlo con cualquier tipo de entrada

4:00

como imágenes o texto y el modelo

4:03

aprender a codificar estas entradas en el mismo

4:05

subespacio que el modelo de difusión

4:07

usar para generar una imagen así que sí solo

4:10

como el modelo de clip, un modelo funcionará

4:13

con texto o imágenes para guiar a las generaciones

4:16

el modelo general se verá así

4:18

tendrás tu imagen inicial aquí x

4:21

y codificarlo en una información entonces

4:23

espacio llamado espacio latente o z este

4:26

es muy similar a una pistola en la que

4:29

use un modelo de codificador para tomar la imagen

4:31

y extraer lo más relevante

4:32

información sobre él en un subespacio que

4:35

se puede ver como una tarea de muestreo descendente

4:37

reduciendo su tamaño manteniendo tanto

4:39

información posible en la que ahora se encuentra

4:42

el espacio latente con tu condensado

4:44

ingresa y luego haz lo mismo con

4:46

su condición ingresa ya sea imágenes de texto

4:49

o cualquier otra cosa y fusionarlos con

4:50

su representación de imagen actual usando

4:53

atención que describí en otro

4:55

video de este mecanismo de atención

4:57

aprender la mejor manera de combinar la entrada

4:59

y acondicionado entradas en este latente

5:01

espacio agregando atención un transformador

5:04

característica a los modelos de difusión estos combinados

5:07

las entradas son ahora su ruido inicial para

5:09

el proceso de difusión

5:11

entonces tienes el mismo modelo de difusión i

5:13

cubierto en mi imagen y video pero aún así

5:16

en este subespacio finalmente reconstruyes

5:19

la imagen usando un decodificador que puede

5:21

ver como el paso inverso de su inicial

5:23

codificador tomando este modificado y

5:25

entrada sin ruido en el espacio latente para

5:28

construir una imagen final de alta resolución

5:31

básicamente sobremuestreando sus resultados y

5:34

listo, así es como puedes usar la difusión

5:36

modelos para una amplia variedad de tareas como

5:39

súper resolución en pintura e incluso

5:41

texto a imagen con el establo reciente

5:44

modelo de código abierto de difusión a través del

5:46

proceso de acondicionamiento siendo mucho

5:49

más eficiente y permitiéndole ejecutar

5:51

en su gpus en lugar de requerir

5:54

cientos de ellos escuchaste bien

5:56

para todos los desarrolladores que quieran tener

5:58

su propio texto a la imagen y la imagen

6:00

modelo de síntesis funcionando por su cuenta

6:02

gpus el código está disponible con

6:04

modelos pre-torneados todos los enlaces son

6:06

a continuación si usa el modelo, por favor

6:08

comparta sus identificaciones de pruebas y resultados o cualquier

6:10

comentarios que tienes conmigo me encantaría

6:13

charlar sobre eso, por supuesto, esto era solo

6:15

una visión general de la difusión latente

6:17

modelo y te invito a leer su

6:19

gran artículo vinculado a continuación también a

6:21

obtener más información sobre el modelo y el enfoque

6:24

muchísimas gracias a mis amigos de quack por

6:26

patrocinando este video y aun mas grande

6:28

gracias a ti por ver todo

6:30

video te veré la próxima semana con

6:33

otro papel increíble