¿Qué tienen en común todos los modelos de imagen superpoderosos recientes como   ,   o   ? Aparte de sus altos costes informáticos, su enorme tiempo de formación y su entusiasmo compartido, todos se basan en el mismo mecanismo: la difusión. DALLE Imagen Midjourney  Los modelos de difusión lograron recientemente resultados de última generación para la mayoría de las tareas de imágenes, incluida la conversión de texto a imagen con DALLE, pero también para muchas otras tareas relacionadas con la generación de imágenes, como la pintura de imágenes, la transferencia de estilos o la superresolución de imágenes. Pero, como trabajan? Conoce más en el vídeo...   Referencias  ►Lea el artículo completo: https://www.louisbouchard.ai/latent-diffusion-models/  ►Rombach, R., Blattmann, A., Lorenz, D., Esser, P. y Ommer, B., 2022.  Síntesis de imágenes de alta resolución con modelos de difusión latente. En  Actas de la Conferencia IEEE/CVF sobre Visión por Computador y Patrones  Reconocimiento (págs. 10684–10695), https://arxiv.org/pdf/2112.10752.pdf  ►Código de difusión latente: https://github.com/CompVis/latent-diffusion  ►Código de difusión estable (texto a imagen basado en LD): https://github.com/CompVis/stable-diffusion  ►Pruébelo usted mismo: https://huggingface.co/spaces/stabilityai/stable-diffusion  ►Aplicación web:  https://stabilityai.us.auth0.com/u/login?state=hKFo2SA4MFJLR1M4cVhJcllLVmlsSV9vcXNYYy11Q25rRkVzZaFur3VuaXZlcnNhbC1sb2dpbqN0aWTZIFRjV2p5dHkzNGQzdkFKZUdyUEprRnhGeFl6ZVdVUDRZo2NpZNkgS3ZZWkpLU2htVW9PalhwY2xRbEtZVXh1Y0FWZXNsSE4  ►My Newsletter (¡Una nueva aplicación de IA explicada semanalmente en sus correos electrónicos!): https://www.louisbouchard.ai/newsletter/  Transcripción del vídeo  0:00  ¿Qué significan todas las imágenes súper poderosas recientes?  0:02  modelos como delhi imagine o mid journey  0:05  tienen en común además de la alta computación  0:08  cuesta mucho tiempo de entrenamiento y entusiasmo compartido  0:10  todos se basan en el mismo mecanismo  0:13  difusión los modelos de fusión recientemente  0:15  logrado resultados de última generación para  0:17  la mayoría de las tareas de imagen, incluido texto a imagen  0:19  con delhi pero muchas otras imágenes  0:21  tareas relacionadas con la generación como imagen y  0:23  transferencia de estilo de pintura o super imagen  0:25  resolución aunque hay algunos  0:27  desventajas trabajan secuencialmente en el  0:30  imagen completa, lo que significa que tanto la  0:31  los tiempos de entrenamiento e inferencia son súper  0:34  caro es por eso que necesitas cientos  0:36  de gpus para entrenar tal modelo y por qué  0:38  esperas unos minutos para obtener tu  0:40  resultados, no es de extrañar que sólo el  0:42  empresas más grandes como google o openai  0:45  están lanzando esos modelos  0:47  pero que son he cubierto la difusión  0:49  modelos en un par de videos que yo  0:51  te invito a comprobar por una mejor  0:52  entendiendo que son modelos iterativos  0:55  que toman ruido aleatorio como entradas que  0:57  se puede condicionar con un texto o un  0:59  imagen para que no sea completamente aleatoria  1:02  aprende iterativamente a eliminar este ruido  1:04  aprendiendo qué parámetros los modelos  1:06  debe aplicar a este ruido para terminar  1:08  con una imagen final asi que la basica  1:10  los modelos de difusión tomarán una posición aleatoria  1:12  ruido con el tamaño de la imagen y  1:14  aprenda a aplicar aún más ruido hasta que  1:17  volvemos a una imagen real esta es  1:19  posible porque el modelo tendrá  1:21  acceso a las imágenes reales durante  1:23  formación y será capaz de aprender la  1:25  parámetros correctos aplicando dicho ruido  1:27  a la imagen iterativamente hasta que  1:29  alcanza el ruido completo y es  1:31  irreconocible  1:33  entonces cuando estemos satisfechos con el  1:35  ruido que obtenemos de todas nuestras imágenes significado  1:37  que son similares y generan ruido  1:40  de una distribución similar estamos listos  1:42  para usar nuestro modelo en reversa y alimentarlo  1:45  ruido similar en el orden inverso a  1:48  esperar una imagen similar a las utilizadas  1:50  durante el entrenamiento por lo que el principal problema aquí  1:53  es que estás trabajando directamente con  1:54  los píxeles y la gran entrada de datos como  1:57  imágenes vamos a ver cómo podemos solucionar esto  1:59  problema de cálculo mientras se mantiene el  2:02  la calidad de los resultados es la misma que se muestra  2:04  aqui comparado con delhi pero primero dale  2:07  Dame unos segundos para presentarte a mi  2:09  amigos de quack patrocinando este video  2:11  como sin duda conoces a la mayoría  2:13  de las empresas ahora reportan ai y ml  2:15  adopción en sus procesos pero compleja  2:18  operaciones como el despliegue modal  2:20  prueba de entrenamiento y tienda de características  2:22  la gerencia parece interponerse en el camino de  2:24  La implementación del modelo de progreso ml es uno de  2:26  los procesos más complejos es tal  2:29  proceso riguroso que el científico de datos  2:31  los equipos dedican demasiado tiempo a resolver  2:33  tareas de back-end e ingeniería antes  2:35  ser capaz de empujar el modelo en  2:37  producción algo que yo personalmente  2:39  experimentado también requiere muy  2:42  diferentes conjuntos de habilidades que a menudo requieren dos  2:44  diferentes equipos trabajando en estrecha colaboración  2:46  afortunadamente para nosotros quack ofrece un  2:48  plataforma totalmente administrada que unifica ml  2:50  ingeniería y operaciones de datos  2:53  proporcionando una infraestructura ágil que  2:55  permite la producción continua de  2:57  ml modelos a escala que no tienes que  2:59  aprender a hacer todo de principio a fin  3:01  mas gracias a ellos quack empodera  3:04  organizaciones para entregar máquinas  3:06  modelos de aprendizaje en producción a escala  3:08  si quieres acelerar tu modelo  3:10  entrega a producción por favor tome unos  3:12  minutos y haga clic en el primer enlace a continuación  3:14  para comprobar lo que ofrecen como estoy seguro de que  3:16  valdrá la pena gracias a cualquiera  3:18  echando un vistazo y apoyándome a mí y a mi  3:20  amigos en quack  3:23  ¿Cómo pueden estos poderosos modelos de difusión  3:25  ser computacionalmente eficiente por  3:27  transformándolos en difusión latente  3:30  modelos esto significa que robin rumback y  3:32  sus colegas implementaron esto  3:34  enfoque de difusión que acabamos de cubrir  3:36  dentro de una representación de imagen comprimida  3:38  en lugar de la imagen en sí y luego  3:41  trabajaron para reconstruir la imagen para que  3:43  no están trabajando con el espacio de píxeles o  3:45  las imágenes normales ya no funcionan de tal  3:48  el espacio comprimido no sólo permite  3:50  generaciones más eficientes y rápidas como  3:52  el tamaño de los datos es mucho más pequeño pero también  3:54  permite trabajar con diferentes  3:56  modalidades ya que están codificando el  3:58  entradas puedes alimentarlo con cualquier tipo de entrada  4:00  como imágenes o texto y el modelo  4:03  aprender a codificar estas entradas en el mismo  4:05  subespacio que el modelo de difusión  4:07  usar para generar una imagen así que sí solo  4:10  como el modelo de clip, un modelo funcionará  4:13  con texto o imágenes para guiar a las generaciones  4:16  el modelo general se verá así  4:18  tendrás tu imagen inicial aquí x  4:21  y codificarlo en una información entonces  4:23  espacio llamado espacio latente o z este  4:26  es muy similar a una pistola en la que  4:29  use un modelo de codificador para tomar la imagen  4:31  y extraer lo más relevante  4:32  información sobre él en un subespacio que  4:35  se puede ver como una tarea de muestreo descendente  4:37  reduciendo su tamaño manteniendo tanto  4:39  información posible en la que ahora se encuentra  4:42  el espacio latente con tu condensado  4:44  ingresa y luego haz lo mismo con  4:46  su condición ingresa ya sea imágenes de texto  4:49  o cualquier otra cosa y fusionarlos con  4:50  su representación de imagen actual usando  4:53  atención que describí en otro  4:55  video de este mecanismo de atención  4:57  aprender la mejor manera de combinar la entrada  4:59  y acondicionado entradas en este latente  5:01  espacio agregando atención un transformador  5:04  característica a los modelos de difusión estos combinados  5:07  las entradas son ahora su ruido inicial para  5:09  el proceso de difusión  5:11  entonces tienes el mismo modelo de difusión i  5:13  cubierto en mi imagen y video pero aún así  5:16  en este subespacio finalmente reconstruyes  5:19  la imagen usando un decodificador que puede  5:21  ver como el paso inverso de su inicial  5:23  codificador tomando este modificado y  5:25  entrada sin ruido en el espacio latente para  5:28  construir una imagen final de alta resolución  5:31  básicamente sobremuestreando sus resultados y  5:34  listo, así es como puedes usar la difusión  5:36  modelos para una amplia variedad de tareas como  5:39  súper resolución en pintura e incluso  5:41  texto a imagen con el establo reciente  5:44  modelo de código abierto de difusión a través del  5:46  proceso de acondicionamiento siendo mucho  5:49  más eficiente y permitiéndole ejecutar  5:51  en su gpus en lugar de requerir  5:54  cientos de ellos escuchaste bien  5:56  para todos los desarrolladores que quieran tener  5:58  su propio texto a la imagen y la imagen  6:00  modelo de síntesis funcionando por su cuenta  6:02  gpus el código está disponible con  6:04  modelos pre-torneados todos los enlaces son  6:06  a continuación si usa el modelo, por favor  6:08  comparta sus identificaciones de pruebas y resultados o cualquier  6:10  comentarios que tienes conmigo me encantaría  6:13  charlar sobre eso, por supuesto, esto era solo  6:15  una visión general de la difusión latente  6:17  modelo y te invito a leer su  6:19  gran artículo vinculado a continuación también a  6:21  obtener más información sobre el modelo y el enfoque  6:24  muchísimas gracias a mis amigos de quack por  6:26  patrocinando este video y aun mas grande  6:28  gracias a ti por ver todo  6:30  video te veré la próxima semana con  6:33  otro papel increíble

Google

Super

Watch more on YouTube: https://www.youtube.com/c/WhatsAI

I explain Artificial Intelligence terms and news to non-experts.

2021 - HackerNoon Contributor of the Year - FACEBOOK

2022 - Best Data Science Newsletter

2022 - HackerNoon Contributor of the Year - Artificial Intelligence

2022 - HackerNoon Contributor of the Year - Computer Vision

2022 - HackerNoon Contributor of the Year - Data Science

2022 - HackerNoon Contributor of the Year - Google

2022 - HackerNoon Contributor of the Year - Innovation

2022 - HackerNoon Contributor of the Year - Machine Learning

2022 - HackerNoon Contributor of the Year - Natural Language Processing

2022 - Top Tech Youtuber

2021 - HackerNoon Contributor of the Year - DEEP-LEARNING

Nominated for 2022 - Best Data Science Newsletter

Nominated for 2022 - HackerNoon Contributor of the Year - Artificial Intelligence

Nominated for 2022 - Top Tech Youtuber

Nominated for 2022 - HackerNoon Contributor of the Year - Innovation

Nominated for 2022 - HackerNoon Contributor of the Year - Data Science

Nominated for 2022 - HackerNoon Contributor of the Year - Natural Language Processing

Nominated for 2022 - HackerNoon Contributor of the Year - Computer Vision

Nominated for 2022 - HackerNoon Contributor of the Year - Google

Nominated for 2022 - HackerNoon Contributor of the Year - Machine Learning

Este audio es producido en el idioma original de la historia!

Demasiado Largo; Para Leer

¿Qué son los modelos de difusión latente? La arquitectura detrás de la difusión estable

¿Qué son los modelos de difusión latente? La arquitectura detrás de la difusión estable

About Author

COMENTARIOS

ETIQUETAS

ESTE ARTÍCULO FUE PRESENTADO EN

Related Stories

Telegram: el puente de Crypto Island hacia el continente

Las capas invisibles: por qué las entrevistas con los usuarios son un activo irremplazable

Cómo mejorar su flujo de trabajo 10 veces: 17 aplicaciones esenciales

Aumente su productividad con estas 18 herramientas para desarrolladores 🚀🔥

Telegram: el puente de Crypto Island hacia el continente

Las capas invisibles: por qué las entrevistas con los usuarios son un activo irremplazable

Cómo mejorar su flujo de trabajo 10 veces: 17 aplicaciones esenciales

Aumente su productividad con estas 18 herramientas para desarrolladores 🚀🔥

Light-Mode

Classic

Newspaper

Minty

Dark-Mode

Neon Noir

Minty

HN StartUps