¿Qué tienen en común todos los modelos de imagen superpoderosos recientes como DALLE , Imagen o Midjourney ? Aparte de sus altos costes informáticos, su enorme tiempo de formación y su entusiasmo compartido, todos se basan en el mismo mecanismo: la difusión.
Los modelos de difusión lograron recientemente resultados de última generación para la mayoría de las tareas de imágenes, incluida la conversión de texto a imagen con DALLE, pero también para muchas otras tareas relacionadas con la generación de imágenes, como la pintura de imágenes, la transferencia de estilos o la superresolución de imágenes. Pero, como trabajan? Conoce más en el vídeo...
►Lea el artículo completo: https://www.louisbouchard.ai/latent-diffusion-models/
►Rombach, R., Blattmann, A., Lorenz, D., Esser, P. y Ommer, B., 2022.
Síntesis de imágenes de alta resolución con modelos de difusión latente. En
Actas de la Conferencia IEEE/CVF sobre Visión por Computador y Patrones
Reconocimiento (págs. 10684–10695), https://arxiv.org/pdf/2112.10752.pdf
►Código de difusión latente: https://github.com/CompVis/latent-diffusion
►Código de difusión estable (texto a imagen basado en LD): https://github.com/CompVis/stable-diffusion
►Pruébelo usted mismo: https://huggingface.co/spaces/stabilityai/stable-diffusion
►Aplicación web:
https://stabilityai.us.auth0.com/u/login?state=hKFo2SA4MFJLR1M4cVhJcllLVmlsSV9vcXNYYy11Q25rRkVzZaFur3VuaXZlcnNhbC1sb2dpbqN0aWTZIFRjV2p5dHkzNGQzdkFKZUdyUEprRnhGeFl6ZVdVUDRZo2NpZNkgS3ZZWkpLU2htVW9PalhwY2xRbEtZVXh1Y0FWZXNsSE4
►My Newsletter (¡Una nueva aplicación de IA explicada semanalmente en sus correos electrónicos!): https://www.louisbouchard.ai/newsletter/
0:00
¿Qué significan todas las imágenes súper poderosas recientes?
0:02
modelos como delhi imagine o mid journey
0:05
tienen en común además de la alta computación
0:08
cuesta mucho tiempo de entrenamiento y entusiasmo compartido
0:10
todos se basan en el mismo mecanismo
0:13
difusión los modelos de fusión recientemente
0:15
logrado resultados de última generación para
0:17
la mayoría de las tareas de imagen, incluido texto a imagen
0:19
con delhi pero muchas otras imágenes
0:21
tareas relacionadas con la generación como imagen y
0:23
transferencia de estilo de pintura o super imagen
0:25
resolución aunque hay algunos
0:27
desventajas trabajan secuencialmente en el
0:30
imagen completa, lo que significa que tanto la
0:31
los tiempos de entrenamiento e inferencia son súper
0:34
caro es por eso que necesitas cientos
0:36
de gpus para entrenar tal modelo y por qué
0:38
esperas unos minutos para obtener tu
0:40
resultados, no es de extrañar que sólo el
0:42
empresas más grandes como google o openai
0:45
están lanzando esos modelos
0:47
pero que son he cubierto la difusión
0:49
modelos en un par de videos que yo
0:51
te invito a comprobar por una mejor
0:52
entendiendo que son modelos iterativos
0:55
que toman ruido aleatorio como entradas que
0:57
se puede condicionar con un texto o un
0:59
imagen para que no sea completamente aleatoria
1:02
aprende iterativamente a eliminar este ruido
1:04
aprendiendo qué parámetros los modelos
1:06
debe aplicar a este ruido para terminar
1:08
con una imagen final asi que la basica
1:10
los modelos de difusión tomarán una posición aleatoria
1:12
ruido con el tamaño de la imagen y
1:14
aprenda a aplicar aún más ruido hasta que
1:17
volvemos a una imagen real esta es
1:19
posible porque el modelo tendrá
1:21
acceso a las imágenes reales durante
1:23
formación y será capaz de aprender la
1:25
parámetros correctos aplicando dicho ruido
1:27
a la imagen iterativamente hasta que
1:29
alcanza el ruido completo y es
1:31
irreconocible
1:33
entonces cuando estemos satisfechos con el
1:35
ruido que obtenemos de todas nuestras imágenes significado
1:37
que son similares y generan ruido
1:40
de una distribución similar estamos listos
1:42
para usar nuestro modelo en reversa y alimentarlo
1:45
ruido similar en el orden inverso a
1:48
esperar una imagen similar a las utilizadas
1:50
durante el entrenamiento por lo que el principal problema aquí
1:53
es que estás trabajando directamente con
1:54
los píxeles y la gran entrada de datos como
1:57
imágenes vamos a ver cómo podemos solucionar esto
1:59
problema de cálculo mientras se mantiene el
2:02
la calidad de los resultados es la misma que se muestra
2:04
aqui comparado con delhi pero primero dale
2:07
Dame unos segundos para presentarte a mi
2:09
amigos de quack patrocinando este video
2:11
como sin duda conoces a la mayoría
2:13
de las empresas ahora reportan ai y ml
2:15
adopción en sus procesos pero compleja
2:18
operaciones como el despliegue modal
2:20
prueba de entrenamiento y tienda de características
2:22
la gerencia parece interponerse en el camino de
2:24
La implementación del modelo de progreso ml es uno de
2:26
los procesos más complejos es tal
2:29
proceso riguroso que el científico de datos
2:31
los equipos dedican demasiado tiempo a resolver
2:33
tareas de back-end e ingeniería antes
2:35
ser capaz de empujar el modelo en
2:37
producción algo que yo personalmente
2:39
experimentado también requiere muy
2:42
diferentes conjuntos de habilidades que a menudo requieren dos
2:44
diferentes equipos trabajando en estrecha colaboración
2:46
afortunadamente para nosotros quack ofrece un
2:48
plataforma totalmente administrada que unifica ml
2:50
ingeniería y operaciones de datos
2:53
proporcionando una infraestructura ágil que
2:55
permite la producción continua de
2:57
ml modelos a escala que no tienes que
2:59
aprender a hacer todo de principio a fin
3:01
mas gracias a ellos quack empodera
3:04
organizaciones para entregar máquinas
3:06
modelos de aprendizaje en producción a escala
3:08
si quieres acelerar tu modelo
3:10
entrega a producción por favor tome unos
3:12
minutos y haga clic en el primer enlace a continuación
3:14
para comprobar lo que ofrecen como estoy seguro de que
3:16
valdrá la pena gracias a cualquiera
3:18
echando un vistazo y apoyándome a mí y a mi
3:20
amigos en quack
3:23
¿Cómo pueden estos poderosos modelos de difusión
3:25
ser computacionalmente eficiente por
3:27
transformándolos en difusión latente
3:30
modelos esto significa que robin rumback y
3:32
sus colegas implementaron esto
3:34
enfoque de difusión que acabamos de cubrir
3:36
dentro de una representación de imagen comprimida
3:38
en lugar de la imagen en sí y luego
3:41
trabajaron para reconstruir la imagen para que
3:43
no están trabajando con el espacio de píxeles o
3:45
las imágenes normales ya no funcionan de tal
3:48
el espacio comprimido no sólo permite
3:50
generaciones más eficientes y rápidas como
3:52
el tamaño de los datos es mucho más pequeño pero también
3:54
permite trabajar con diferentes
3:56
modalidades ya que están codificando el
3:58
entradas puedes alimentarlo con cualquier tipo de entrada
4:00
como imágenes o texto y el modelo
4:03
aprender a codificar estas entradas en el mismo
4:05
subespacio que el modelo de difusión
4:07
usar para generar una imagen así que sí solo
4:10
como el modelo de clip, un modelo funcionará
4:13
con texto o imágenes para guiar a las generaciones
4:16
el modelo general se verá así
4:18
tendrás tu imagen inicial aquí x
4:21
y codificarlo en una información entonces
4:23
espacio llamado espacio latente o z este
4:26
es muy similar a una pistola en la que
4:29
use un modelo de codificador para tomar la imagen
4:31
y extraer lo más relevante
4:32
información sobre él en un subespacio que
4:35
se puede ver como una tarea de muestreo descendente
4:37
reduciendo su tamaño manteniendo tanto
4:39
información posible en la que ahora se encuentra
4:42
el espacio latente con tu condensado
4:44
ingresa y luego haz lo mismo con
4:46
su condición ingresa ya sea imágenes de texto
4:49
o cualquier otra cosa y fusionarlos con
4:50
su representación de imagen actual usando
4:53
atención que describí en otro
4:55
video de este mecanismo de atención
4:57
aprender la mejor manera de combinar la entrada
4:59
y acondicionado entradas en este latente
5:01
espacio agregando atención un transformador
5:04
característica a los modelos de difusión estos combinados
5:07
las entradas son ahora su ruido inicial para
5:09
el proceso de difusión
5:11
entonces tienes el mismo modelo de difusión i
5:13
cubierto en mi imagen y video pero aún así
5:16
en este subespacio finalmente reconstruyes
5:19
la imagen usando un decodificador que puede
5:21
ver como el paso inverso de su inicial
5:23
codificador tomando este modificado y
5:25
entrada sin ruido en el espacio latente para
5:28
construir una imagen final de alta resolución
5:31
básicamente sobremuestreando sus resultados y
5:34
listo, así es como puedes usar la difusión
5:36
modelos para una amplia variedad de tareas como
5:39
súper resolución en pintura e incluso
5:41
texto a imagen con el establo reciente
5:44
modelo de código abierto de difusión a través del
5:46
proceso de acondicionamiento siendo mucho
5:49
más eficiente y permitiéndole ejecutar
5:51
en su gpus en lugar de requerir
5:54
cientos de ellos escuchaste bien
5:56
para todos los desarrolladores que quieran tener
5:58
su propio texto a la imagen y la imagen
6:00
modelo de síntesis funcionando por su cuenta
6:02
gpus el código está disponible con
6:04
modelos pre-torneados todos los enlaces son
6:06
a continuación si usa el modelo, por favor
6:08
comparta sus identificaciones de pruebas y resultados o cualquier
6:10
comentarios que tienes conmigo me encantaría
6:13
charlar sobre eso, por supuesto, esto era solo
6:15
una visión general de la difusión latente
6:17
modelo y te invito a leer su
6:19
gran artículo vinculado a continuación también a
6:21
obtener más información sobre el modelo y el enfoque
6:24
muchísimas gracias a mis amigos de quack por
6:26
patrocinando este video y aun mas grande
6:28
gracias a ti por ver todo
6:30
video te veré la próxima semana con
6:33
otro papel increíble