see more

¿Qué son los modelos de difusión latente? La arquitectura detrás de la difusión estable by@whatsai

11,736

11,736

¿Qué son los modelos de difusión latente? La arquitectura detrás de la difusión estable

Louis Bouchard6m2022/08/29

Read on Terminal Reader

Read this story w/o Javascript

ES

¿Qué tienen en común todos los modelos de imagen súper poderosos recientes como DALLE, Imagen o Midjourney? Aparte de sus altos costes informáticos, su enorme tiempo de formación y su entusiasmo compartido, todos se basan en el mismo mecanismo: la difusión. Los modelos de difusión lograron recientemente resultados de última generación para la mayoría de las tareas de imágenes, incluida la conversión de texto a imagen con DALLE, pero también para muchas otras tareas relacionadas con la generación de imágenes, como la pintura de imágenes, la transferencia de estilos o la superresolución de imágenes. Pero, como trabajan? Conoce más en el vídeo...

Companies Mentioned

Mention Thumbnail

Mention Thumbnail

featured image - ¿Qué son los modelos de difusión latente? La arquitectura detrás de la difusión estable

¿Qué tienen en común todos los modelos de imagen superpoderosos recientes como DALLE , Imagen o Midjourney ? Aparte de sus altos costes informáticos, su enorme tiempo de formación y su entusiasmo compartido, todos se basan en el mismo mecanismo: la difusión.

Los modelos de difusión lograron recientemente resultados de última generación para la mayoría de las tareas de imágenes, incluida la conversión de texto a imagen con DALLE, pero también para muchas otras tareas relacionadas con la generación de imágenes, como la pintura de imágenes, la transferencia de estilos o la superresolución de imágenes. Pero, como trabajan? Conoce más en el vídeo...

Referencias

►Lea el artículo completo: https://www.louisbouchard.ai/latent-diffusion-models/
►Rombach, R., Blattmann, A., Lorenz, D., Esser, P. y Ommer, B., 2022.
Síntesis de imágenes de alta resolución con modelos de difusión latente. En
Actas de la Conferencia IEEE/CVF sobre Visión por Computador y Patrones
Reconocimiento (págs. 10684–10695), https://arxiv.org/pdf/2112.10752.pdf
►Código de difusión latente: https://github.com/CompVis/latent-diffusion
►Código de difusión estable (texto a imagen basado en LD): https://github.com/CompVis/stable-diffusion
►Pruébelo usted mismo: https://huggingface.co/spaces/stabilityai/stable-diffusion
►Aplicación web:
https://stabilityai.us.auth0.com/u/login?state=hKFo2SA4MFJLR1M4cVhJcllLVmlsSV9vcXNYYy11Q25rRkVzZaFur3VuaXZlcnNhbC1sb2dpbqN0aWTZIFRjV2p5dHkzNGQzdkFKZUdyUEprRnhGeFl6ZVdVUDRZo2NpZNkgS3ZZWkpLU2htVW9PalhwY2xRbEtZVXh1Y0FWZXNsSE4
►My Newsletter (¡Una nueva aplicación de IA explicada semanalmente en sus correos electrónicos!): https://www.louisbouchard.ai/newsletter/

Transcripción del vídeo

0:00

¿Qué significan todas las imágenes súper poderosas recientes?

0:02

modelos como delhi imagine o mid journey

0:05

tienen en común además de la alta computación

0:08

cuesta mucho tiempo de entrenamiento y entusiasmo compartido

0:10

todos se basan en el mismo mecanismo

0:13

difusión los modelos de fusión recientemente

0:15

logrado resultados de última generación para

0:17

la mayoría de las tareas de imagen, incluido texto a imagen

0:19

con delhi pero muchas otras imágenes

0:21

tareas relacionadas con la generación como imagen y

0:23

transferencia de estilo de pintura o super imagen

0:25

resolución aunque hay algunos

0:27

desventajas trabajan secuencialmente en el

0:30

imagen completa, lo que significa que tanto la

0:31

los tiempos de entrenamiento e inferencia son súper

0:34

caro es por eso que necesitas cientos

0:36

de gpus para entrenar tal modelo y por qué

0:38

esperas unos minutos para obtener tu

0:40

resultados, no es de extrañar que sólo el

0:42

empresas más grandes como google o openai

0:45

están lanzando esos modelos

0:47

pero que son he cubierto la difusión

0:49

modelos en un par de videos que yo

0:51

te invito a comprobar por una mejor

0:52

entendiendo que son modelos iterativos

0:55

que toman ruido aleatorio como entradas que

0:57

se puede condicionar con un texto o un

0:59

imagen para que no sea completamente aleatoria

1:02

aprende iterativamente a eliminar este ruido

1:04

aprendiendo qué parámetros los modelos

1:06

debe aplicar a este ruido para terminar

1:08

con una imagen final asi que la basica

1:10

los modelos de difusión tomarán una posición aleatoria

1:12

ruido con el tamaño de la imagen y

1:14

aprenda a aplicar aún más ruido hasta que

1:17

volvemos a una imagen real esta es

1:19

posible porque el modelo tendrá

1:21

acceso a las imágenes reales durante

1:23

formación y será capaz de aprender la

1:25

parámetros correctos aplicando dicho ruido

1:27

a la imagen iterativamente hasta que

1:29

alcanza el ruido completo y es

1:31

irreconocible

1:33

entonces cuando estemos satisfechos con el

1:35

ruido que obtenemos de todas nuestras imágenes significado

1:37

que son similares y generan ruido

1:40

de una distribución similar estamos listos

1:42

para usar nuestro modelo en reversa y alimentarlo

1:45

ruido similar en el orden inverso a

1:48

esperar una imagen similar a las utilizadas

1:50

durante el entrenamiento por lo que el principal problema aquí

1:53

es que estás trabajando directamente con

1:54

los píxeles y la gran entrada de datos como

1:57

imágenes vamos a ver cómo podemos solucionar esto

1:59

problema de cálculo mientras se mantiene el

2:02

la calidad de los resultados es la misma que se muestra

2:04

aqui comparado con delhi pero primero dale

2:07

Dame unos segundos para presentarte a mi

2:09

amigos de quack patrocinando este video

2:11

como sin duda conoces a la mayoría

2:13

de las empresas ahora reportan ai y ml

2:15

adopción en sus procesos pero compleja

2:18

operaciones como el despliegue modal

2:20

prueba de entrenamiento y tienda de características

2:22

la gerencia parece interponerse en el camino de

2:24

La implementación del modelo de progreso ml es uno de

2:26

los procesos más complejos es tal

2:29

proceso riguroso que el científico de datos

2:31

los equipos dedican demasiado tiempo a resolver

2:33

tareas de back-end e ingeniería antes

2:35

ser capaz de empujar el modelo en

2:37

producción algo que yo personalmente

2:39

experimentado también requiere muy

2:42

diferentes conjuntos de habilidades que a menudo requieren dos

2:44

diferentes equipos trabajando en estrecha colaboración

2:46

afortunadamente para nosotros quack ofrece un

2:48

plataforma totalmente administrada que unifica ml

2:50

ingeniería y operaciones de datos

2:53

proporcionando una infraestructura ágil que

2:55

permite la producción continua de

2:57

ml modelos a escala que no tienes que

2:59

aprender a hacer todo de principio a fin

3:01

mas gracias a ellos quack empodera

3:04

organizaciones para entregar máquinas

3:06

modelos de aprendizaje en producción a escala

3:08

si quieres acelerar tu modelo

3:10

entrega a producción por favor tome unos

3:12

minutos y haga clic en el primer enlace a continuación

3:14

para comprobar lo que ofrecen como estoy seguro de que

3:16

valdrá la pena gracias a cualquiera

3:18

echando un vistazo y apoyándome a mí y a mi

3:20

amigos en quack

3:23

¿Cómo pueden estos poderosos modelos de difusión

3:25

ser computacionalmente eficiente por

3:27

transformándolos en difusión latente

3:30

modelos esto significa que robin rumback y

3:32

sus colegas implementaron esto

3:34

enfoque de difusión que acabamos de cubrir

3:36

dentro de una representación de imagen comprimida

3:38

en lugar de la imagen en sí y luego

3:41

trabajaron para reconstruir la imagen para que

3:43

no están trabajando con el espacio de píxeles o

3:45

las imágenes normales ya no funcionan de tal

3:48

el espacio comprimido no sólo permite

3:50

generaciones más eficientes y rápidas como

3:52

el tamaño de los datos es mucho más pequeño pero también

3:54

permite trabajar con diferentes

3:56

modalidades ya que están codificando el

3:58

entradas puedes alimentarlo con cualquier tipo de entrada

4:00

como imágenes o texto y el modelo

4:03

aprender a codificar estas entradas en el mismo

4:05

subespacio que el modelo de difusión

4:07

usar para generar una imagen así que sí solo

4:10

como el modelo de clip, un modelo funcionará

4:13

con texto o imágenes para guiar a las generaciones

4:16

el modelo general se verá así

4:18

tendrás tu imagen inicial aquí x

4:21

y codificarlo en una información entonces

4:23

espacio llamado espacio latente o z este

4:26

es muy similar a una pistola en la que

4:29

use un modelo de codificador para tomar la imagen

4:31

y extraer lo más relevante

4:32

información sobre él en un subespacio que

4:35

se puede ver como una tarea de muestreo descendente

4:37

reduciendo su tamaño manteniendo tanto

4:39

información posible en la que ahora se encuentra

4:42

el espacio latente con tu condensado

4:44

ingresa y luego haz lo mismo con

4:46

su condición ingresa ya sea imágenes de texto

4:49

o cualquier otra cosa y fusionarlos con

4:50

su representación de imagen actual usando

4:53

atención que describí en otro

4:55

video de este mecanismo de atención

4:57

aprender la mejor manera de combinar la entrada

4:59

y acondicionado entradas en este latente

5:01

espacio agregando atención un transformador

5:04

característica a los modelos de difusión estos combinados

5:07

las entradas son ahora su ruido inicial para

5:09

el proceso de difusión

5:11

entonces tienes el mismo modelo de difusión i

5:13

cubierto en mi imagen y video pero aún así

5:16

en este subespacio finalmente reconstruyes

5:19

la imagen usando un decodificador que puede

5:21

ver como el paso inverso de su inicial

5:23

codificador tomando este modificado y

5:25

entrada sin ruido en el espacio latente para

5:28

construir una imagen final de alta resolución

5:31

básicamente sobremuestreando sus resultados y

5:34

listo, así es como puedes usar la difusión

5:36

modelos para una amplia variedad de tareas como

5:39

súper resolución en pintura e incluso

5:41

texto a imagen con el establo reciente

5:44

modelo de código abierto de difusión a través del

5:46

proceso de acondicionamiento siendo mucho

5:49

más eficiente y permitiéndole ejecutar

5:51

en su gpus en lugar de requerir

5:54

cientos de ellos escuchaste bien

5:56

para todos los desarrolladores que quieran tener

5:58

su propio texto a la imagen y la imagen

6:00

modelo de síntesis funcionando por su cuenta

6:02

gpus el código está disponible con

6:04

modelos pre-torneados todos los enlaces son

6:06

a continuación si usa el modelo, por favor

6:08

comparta sus identificaciones de pruebas y resultados o cualquier

6:10

comentarios que tienes conmigo me encantaría

6:13

charlar sobre eso, por supuesto, esto era solo

6:15

una visión general de la difusión latente

6:17

modelo y te invito a leer su

6:19

gran artículo vinculado a continuación también a

6:21

obtener más información sobre el modelo y el enfoque

6:24

muchísimas gracias a mis amigos de quack por

6:26

patrocinando este video y aun mas grande

6:28

gracias a ti por ver todo

6:30

video te veré la próxima semana con

6:33

otro papel increíble

Tailscale

L O A D I N G
. . . comments & more!

About Author

Louis Bouchard@whatsai

I explain Artificial Intelligence terms and news to non-experts.

Read my stories Watch more on YouTube: https://www.youtube.com/c/WhatsAI

Topics

#ai #artificial-intelligence #diffusion #technology #innovation #tech #machine-learning #hackernoon-top-story #web-monetization

Languages

hackernoon-top-story

hackernoon-fr

hackernoon-zh

hackernoon-hi

हिंदी

hackernoon-es

hackernoon-ja

hackernoon-vi

hackernoon-pt

Around The Web...

Permanent on Arweave

Read on Terminal Reader

Read this story w/o Javascript

Join HackerNoon

Latest technology trends. Customized Experience. Curated Stories. Publish Your Ideas