¿Qué tienen en común todos los modelos de imagen superpoderosos recientes como , o ? Aparte de sus altos costes informáticos, su enorme tiempo de formación y su entusiasmo compartido, todos se basan en el mismo mecanismo: la difusión. DALLE Imagen Midjourney Los modelos de difusión lograron recientemente resultados de última generación para la mayoría de las tareas de imágenes, incluida la conversión de texto a imagen con DALLE, pero también para muchas otras tareas relacionadas con la generación de imágenes, como la pintura de imágenes, la transferencia de estilos o la superresolución de imágenes. Pero, como trabajan? Conoce más en el vídeo... Referencias ►Lea el artículo completo: https://www.louisbouchard.ai/latent-diffusion-models/ ►Rombach, R., Blattmann, A., Lorenz, D., Esser, P. y Ommer, B., 2022. Síntesis de imágenes de alta resolución con modelos de difusión latente. En Actas de la Conferencia IEEE/CVF sobre Visión por Computador y Patrones Reconocimiento (págs. 10684–10695), https://arxiv.org/pdf/2112.10752.pdf ►Código de difusión latente: https://github.com/CompVis/latent-diffusion ►Código de difusión estable (texto a imagen basado en LD): https://github.com/CompVis/stable-diffusion ►Pruébelo usted mismo: https://huggingface.co/spaces/stabilityai/stable-diffusion ►Aplicación web: https://stabilityai.us.auth0.com/u/login?state=hKFo2SA4MFJLR1M4cVhJcllLVmlsSV9vcXNYYy11Q25rRkVzZaFur3VuaXZlcnNhbC1sb2dpbqN0aWTZIFRjV2p5dHkzNGQzdkFKZUdyUEprRnhGeFl6ZVdVUDRZo2NpZNkgS3ZZWkpLU2htVW9PalhwY2xRbEtZVXh1Y0FWZXNsSE4 ►My Newsletter (¡Una nueva aplicación de IA explicada semanalmente en sus correos electrónicos!): https://www.louisbouchard.ai/newsletter/ Transcripción del vídeo 0:00 ¿Qué significan todas las imágenes súper poderosas recientes? 0:02 modelos como delhi imagine o mid journey 0:05 tienen en común además de la alta computación 0:08 cuesta mucho tiempo de entrenamiento y entusiasmo compartido 0:10 todos se basan en el mismo mecanismo 0:13 difusión los modelos de fusión recientemente 0:15 logrado resultados de última generación para 0:17 la mayoría de las tareas de imagen, incluido texto a imagen 0:19 con delhi pero muchas otras imágenes 0:21 tareas relacionadas con la generación como imagen y 0:23 transferencia de estilo de pintura o super imagen 0:25 resolución aunque hay algunos 0:27 desventajas trabajan secuencialmente en el 0:30 imagen completa, lo que significa que tanto la 0:31 los tiempos de entrenamiento e inferencia son súper 0:34 caro es por eso que necesitas cientos 0:36 de gpus para entrenar tal modelo y por qué 0:38 esperas unos minutos para obtener tu 0:40 resultados, no es de extrañar que sólo el 0:42 empresas más grandes como google o openai 0:45 están lanzando esos modelos 0:47 pero que son he cubierto la difusión 0:49 modelos en un par de videos que yo 0:51 te invito a comprobar por una mejor 0:52 entendiendo que son modelos iterativos 0:55 que toman ruido aleatorio como entradas que 0:57 se puede condicionar con un texto o un 0:59 imagen para que no sea completamente aleatoria 1:02 aprende iterativamente a eliminar este ruido 1:04 aprendiendo qué parámetros los modelos 1:06 debe aplicar a este ruido para terminar 1:08 con una imagen final asi que la basica 1:10 los modelos de difusión tomarán una posición aleatoria 1:12 ruido con el tamaño de la imagen y 1:14 aprenda a aplicar aún más ruido hasta que 1:17 volvemos a una imagen real esta es 1:19 posible porque el modelo tendrá 1:21 acceso a las imágenes reales durante 1:23 formación y será capaz de aprender la 1:25 parámetros correctos aplicando dicho ruido 1:27 a la imagen iterativamente hasta que 1:29 alcanza el ruido completo y es 1:31 irreconocible 1:33 entonces cuando estemos satisfechos con el 1:35 ruido que obtenemos de todas nuestras imágenes significado 1:37 que son similares y generan ruido 1:40 de una distribución similar estamos listos 1:42 para usar nuestro modelo en reversa y alimentarlo 1:45 ruido similar en el orden inverso a 1:48 esperar una imagen similar a las utilizadas 1:50 durante el entrenamiento por lo que el principal problema aquí 1:53 es que estás trabajando directamente con 1:54 los píxeles y la gran entrada de datos como 1:57 imágenes vamos a ver cómo podemos solucionar esto 1:59 problema de cálculo mientras se mantiene el 2:02 la calidad de los resultados es la misma que se muestra 2:04 aqui comparado con delhi pero primero dale 2:07 Dame unos segundos para presentarte a mi 2:09 amigos de quack patrocinando este video 2:11 como sin duda conoces a la mayoría 2:13 de las empresas ahora reportan ai y ml 2:15 adopción en sus procesos pero compleja 2:18 operaciones como el despliegue modal 2:20 prueba de entrenamiento y tienda de características 2:22 la gerencia parece interponerse en el camino de 2:24 La implementación del modelo de progreso ml es uno de 2:26 los procesos más complejos es tal 2:29 proceso riguroso que el científico de datos 2:31 los equipos dedican demasiado tiempo a resolver 2:33 tareas de back-end e ingeniería antes 2:35 ser capaz de empujar el modelo en 2:37 producción algo que yo personalmente 2:39 experimentado también requiere muy 2:42 diferentes conjuntos de habilidades que a menudo requieren dos 2:44 diferentes equipos trabajando en estrecha colaboración 2:46 afortunadamente para nosotros quack ofrece un 2:48 plataforma totalmente administrada que unifica ml 2:50 ingeniería y operaciones de datos 2:53 proporcionando una infraestructura ágil que 2:55 permite la producción continua de 2:57 ml modelos a escala que no tienes que 2:59 aprender a hacer todo de principio a fin 3:01 mas gracias a ellos quack empodera 3:04 organizaciones para entregar máquinas 3:06 modelos de aprendizaje en producción a escala 3:08 si quieres acelerar tu modelo 3:10 entrega a producción por favor tome unos 3:12 minutos y haga clic en el primer enlace a continuación 3:14 para comprobar lo que ofrecen como estoy seguro de que 3:16 valdrá la pena gracias a cualquiera 3:18 echando un vistazo y apoyándome a mí y a mi 3:20 amigos en quack 3:23 ¿Cómo pueden estos poderosos modelos de difusión 3:25 ser computacionalmente eficiente por 3:27 transformándolos en difusión latente 3:30 modelos esto significa que robin rumback y 3:32 sus colegas implementaron esto 3:34 enfoque de difusión que acabamos de cubrir 3:36 dentro de una representación de imagen comprimida 3:38 en lugar de la imagen en sí y luego 3:41 trabajaron para reconstruir la imagen para que 3:43 no están trabajando con el espacio de píxeles o 3:45 las imágenes normales ya no funcionan de tal 3:48 el espacio comprimido no sólo permite 3:50 generaciones más eficientes y rápidas como 3:52 el tamaño de los datos es mucho más pequeño pero también 3:54 permite trabajar con diferentes 3:56 modalidades ya que están codificando el 3:58 entradas puedes alimentarlo con cualquier tipo de entrada 4:00 como imágenes o texto y el modelo 4:03 aprender a codificar estas entradas en el mismo 4:05 subespacio que el modelo de difusión 4:07 usar para generar una imagen así que sí solo 4:10 como el modelo de clip, un modelo funcionará 4:13 con texto o imágenes para guiar a las generaciones 4:16 el modelo general se verá así 4:18 tendrás tu imagen inicial aquí x 4:21 y codificarlo en una información entonces 4:23 espacio llamado espacio latente o z este 4:26 es muy similar a una pistola en la que 4:29 use un modelo de codificador para tomar la imagen 4:31 y extraer lo más relevante 4:32 información sobre él en un subespacio que 4:35 se puede ver como una tarea de muestreo descendente 4:37 reduciendo su tamaño manteniendo tanto 4:39 información posible en la que ahora se encuentra 4:42 el espacio latente con tu condensado 4:44 ingresa y luego haz lo mismo con 4:46 su condición ingresa ya sea imágenes de texto 4:49 o cualquier otra cosa y fusionarlos con 4:50 su representación de imagen actual usando 4:53 atención que describí en otro 4:55 video de este mecanismo de atención 4:57 aprender la mejor manera de combinar la entrada 4:59 y acondicionado entradas en este latente 5:01 espacio agregando atención un transformador 5:04 característica a los modelos de difusión estos combinados 5:07 las entradas son ahora su ruido inicial para 5:09 el proceso de difusión 5:11 entonces tienes el mismo modelo de difusión i 5:13 cubierto en mi imagen y video pero aún así 5:16 en este subespacio finalmente reconstruyes 5:19 la imagen usando un decodificador que puede 5:21 ver como el paso inverso de su inicial 5:23 codificador tomando este modificado y 5:25 entrada sin ruido en el espacio latente para 5:28 construir una imagen final de alta resolución 5:31 básicamente sobremuestreando sus resultados y 5:34 listo, así es como puedes usar la difusión 5:36 modelos para una amplia variedad de tareas como 5:39 súper resolución en pintura e incluso 5:41 texto a imagen con el establo reciente 5:44 modelo de código abierto de difusión a través del 5:46 proceso de acondicionamiento siendo mucho 5:49 más eficiente y permitiéndole ejecutar 5:51 en su gpus en lugar de requerir 5:54 cientos de ellos escuchaste bien 5:56 para todos los desarrolladores que quieran tener 5:58 su propio texto a la imagen y la imagen 6:00 modelo de síntesis funcionando por su cuenta 6:02 gpus el código está disponible con 6:04 modelos pre-torneados todos los enlaces son 6:06 a continuación si usa el modelo, por favor 6:08 comparta sus identificaciones de pruebas y resultados o cualquier 6:10 comentarios que tienes conmigo me encantaría 6:13 charlar sobre eso, por supuesto, esto era solo 6:15 una visión general de la difusión latente 6:17 modelo y te invito a leer su 6:19 gran artículo vinculado a continuación también a 6:21 obtener más información sobre el modelo y el enfoque 6:24 muchísimas gracias a mis amigos de quack por 6:26 patrocinando este video y aun mas grande 6:28 gracias a ti por ver todo 6:30 video te veré la próxima semana con 6:33 otro papel increíble