paint-brush
"Es como si Midjourney tuviera una API": una mirada a Kandinsky 2.2por@mikeyoung44
2,545 lecturas
2,545 lecturas

"Es como si Midjourney tuviera una API": una mirada a Kandinsky 2.2

por Mike Young9m2023/08/24
Read on Terminal Reader

Demasiado Largo; Para Leer

Kandinsky v2.2 es una alternativa de Midjourney que produce imágenes de alta calidad a partir de texto a través de una API de JavaScript.
featured image - "Es como si Midjourney tuviera una API": una mirada a Kandinsky 2.2
Mike Young HackerNoon profile picture
0-item

Los modelos de generación de imágenes impulsados por IA están revolucionando el panorama creativo. La plataforma Midjourney ha sido un actor clave en este campo innovador con su creación de imágenes basada en texto. Sin embargo, su interfaz basada en Discord presentaba algunas limitaciones para un uso profesional.


En su lugar, echemos un vistazo a un nuevo modelo de IA llamado Kandinsky 2.2, un modelo de conversión de texto a imagen más fácil de usar y disponible a través de una API versátil.


A diferencia de Midjourney, que opera a través de Discord, Kandinsky permite a los desarrolladores integrar la generación de imágenes de IA en varios lenguajes de programación como Python, Node.js y cURL.


Esto significa que con sólo unas pocas líneas de código, Kandinsky puede automatizar el proceso de generación de imágenes, convirtiéndola en una herramienta más eficiente para los profesionales creativos. Y con la nueva versión v2.2, la calidad de imagen de Kandinsky nunca ha sido tan alta.


Suscribir o sígueme en Gorjeo ¡Para más contenido como este!


Kandinsky 2.2 aporta un nuevo nivel de accesibilidad y flexibilidad a la generación de imágenes con IA. Se integra perfectamente con múltiples lenguajes y herramientas de programación, ofreciendo un nivel de flexibilidad que supera la plataforma Midjourney.


Además, las avanzadas técnicas de difusión de Kandinsky dan como resultado imágenes impresionantemente fotorrealistas. Su enfoque basado en API hace que sea más fácil para los profesionales incorporar visualización impulsada por IA en su pila tecnológica existente.


Ejemplo de generaciones de imágenes de Kandinsky v2.2


En esta guía, exploraremos el potencial de Kandinsky para la escalabilidad, la automatización y la integración, y discutiremos cómo puede contribuir al futuro de la creatividad.


Únase a nosotros mientras profundizamos en las herramientas y técnicas necesarias para incorporar impresionantes obras de arte de IA en sus productos utilizando este asistente avanzado de IA.

Beneficios clave de Kandinsky 2.2

  • Código abierto : Kandinsky es totalmente de código abierto. Utilice el código directamente o acceda a él a través de la API flexible de Replicate.
  • Acceso API : integre Kandinsky en sus flujos de trabajo en Python, Node.js, cURL y más a través de Replicate API.
  • Automatización : modifique las imágenes mediante programación modificando las indicaciones de texto en el código para una iteración rápida.
  • Escalabilidad : genere miles de imágenes con simples llamadas API. Cree guiones gráficos y visualice conceptos a escala.
  • Integración personalizada : incorpore Kandinsky a sus propias herramientas y productos gracias a su diseño basado en API.
  • ControlNet : obtenga control granular sobre las propiedades de la imagen, como la iluminación y el ángulo, a través de indicaciones de texto.
  • Multilingüe : comprende indicaciones en inglés, chino, japonés, coreano, francés y más.
  • Alta resolución : imágenes nítidas y detalladas de 1024 x 1024, listas para cualquier caso de uso.
  • Fotorrealismo : las técnicas de difusión de última generación producen imágenes impresionantes y realistas a la par de Midjourney.

¿Cómo trabaja Kandinsky?

Kandinsky 2.2 es un modelo de difusión de texto a imagen que genera imágenes a partir de mensajes de texto. Consta de varios componentes clave:


  • Codificador de texto: el mensaje de texto pasa a través de un codificador XLM-Roberta-Large-Vit-L-14 para extraer características semánticas y codificar el texto en un espacio latente. Esto produce un vector de incrustación de texto.


  • Codificador de imágenes: un modelo CLIP-ViT-G previamente entrenado codifica imágenes en el mismo espacio latente que las incrustaciones de texto. Esto permite hacer coincidir las representaciones de texto e imagen.


  • Difusión previa: un transformador se asigna entre el texto que incorpora el espacio latente y la imagen que incorpora el espacio latente. Esto establece una difusión previa que vincula probabilísticamente texto e imágenes.


  • UNet: Un UNet de difusión latente de parámetro 1.22B sirve como red troncal. Toma una imagen incrustada como entrada y genera muestras de imágenes desde ruidosas hasta limpias mediante la eliminación iterativa de ruido.


  • ControlNet: una red neuronal adicional que condiciona la generación de imágenes en entradas auxiliares como mapas de profundidad. Esto permite una síntesis de imágenes controlable.


  • Codificador/Decodificador MoVQ: un VAE discreto que comprime incrustaciones de imágenes como códigos latentes discretos para un muestreo más eficiente.


Durante el entrenamiento, los pares texto-imagen se codifican en incrustaciones vinculadas. La difusión UNet está entrenada para invertir estas incrustaciones en imágenes mediante la eliminación de ruido.


A modo de inferencia, el texto se codifica en una incrustación, se asigna a través de la difusión antes de la incrustación de una imagen, se comprime mediante MoVQ y la UNet lo invierte para generar imágenes de forma iterativa. El ControlNet adicional permite controlar atributos como la profundidad.

Mejoras clave con respecto a versiones anteriores de Kandinsky

Imagen que muestra la evolución de la plataforma Kandinsky.

Un ejemplo que muestra la evolución de Kandinsky de la v2.0 a la v2.1 a la v2.2. ¡El realismo!

Las principales mejoras de Kandinsky 2.2 incluyen:


  1. Nuevo codificador de imágenes: CLIP-ViT-G : una de las actualizaciones clave es la integración del codificador de imágenes CLIP-ViT-G. Esta actualización refuerza significativamente la capacidad del modelo para generar imágenes estéticamente agradables. Al utilizar un codificador de imágenes más potente, Kandinsky 2.2 puede interpretar mejor las descripciones de texto y traducirlas en imágenes visualmente cautivadoras.


  2. Compatibilidad con ControlNet : Kandinsky 2.2 introduce el mecanismo ControlNet, una característica que permite un control preciso sobre el proceso de generación de imágenes. Esta adición mejora la precisión y el atractivo de los resultados generados. Con ControlNet, el modelo obtiene la capacidad de manipular imágenes basándose en guía de texto, abriendo nuevas vías para la exploración creativa.

¿Cómo puedo utilizar Kandinsky para crear imágenes?

¿Listo para empezar a crear con este potente modelo de IA? Aquí hay una guía paso a paso para usar la API Replicate para interactuar con Kandinsky 2.2. En un nivel alto, necesitarás:


  1. Autenticar : obtenga su clave API replicada y autentíquese en su entorno.


  2. Enviar un mensaje : pase su descripción textual en el parámetro prompt . Puede especificarlo en varios idiomas.


  3. Personalice los parámetros : modifique las dimensiones de la imagen, el número de salidas, etc. según sea necesario. Referirse a especificación del modelo para obtener más detalles o siga leyendo.


  4. Procese la respuesta : Kandinsky 2.2 genera una URL a la imagen generada. Descargue esta imagen para usarla en su proyecto.


Para su comodidad, es posible que también desee probar esto demo en vivo para tener una idea de las capacidades del modelo antes de trabajar en su código.

Guía paso a paso para utilizar Kandinsky 2.2 a través de la API replicada

En este ejemplo, usaremos Node para trabajar con el modelo. Por lo tanto, primero deberá instalar el cliente Node.js.


 npm install replicate


Luego, copie su token API y configúrelo como una variable de entorno:

 export REPLICATE_API_TOKEN=r8_*************************************


A continuación, ejecute el modelo utilizando el script Node.js:

 import Replicate from "replicate"; const replicate = new Replicate({ auth: process.env.REPLICATE_API_TOKEN, }); const output = await replicate.run( "ai-forever/kandinsky-2.2:ea1addaab376f4dc227f5368bbd8eff901820fd1cc14ed8cad63b29249e9d463", { input: { prompt: "A moss covered astronaut with a black background" } } );


También puede configurar un webhook para que las predicciones reciban actualizaciones cuando se complete el proceso.


 const prediction = await replicate.predictions.create({ version: "ea1addaab376f4dc227f5368bbd8eff901820fd1cc14ed8cad63b29249e9d463", input: { prompt: "A moss covered astronaut with a black background" }, webhook: "https://example.com/your-webhook", webhook_events_filter: ["completed"] });


A medida que incorpora este código en su aplicación, querrá experimentar con los parámetros del modelo. Echemos un vistazo a las entradas y salidas de Kandinsky.

Un ejemplo de la generación Kandinsky 2.2, desde el mensaje: una foto de un gato rojo, 8k


Entradas y salidas de Kandinsky 2.2

El mensaje de texto es el elemento central que guía la generación de imágenes de Kandinsky. Al modificar su mensaje, puede dar forma a la salida.


  • Mensaje : la descripción textual, como "Un astronauta jugando al ajedrez en Marte". Esto es requerido.


  • Mensaje negativo : especifica los elementos que se excluirán, como "sin casco espacial". Opcional.


  • Ancho y alto : dimensiones de la imagen en píxeles, de 384 a 2048. El valor predeterminado es 512 x 512.


  • Número de pasos de inferencia : número de pasos de eliminación de ruido durante la difusión; cuanto mayor sea, más lento pero potencialmente de mayor calidad. El valor predeterminado es 75.


  • Num Outputs : número de imágenes a generar por mensaje, el valor predeterminado es 1.


  • Semilla : semilla entera para aleatorización. Déjelo en blanco para que sea aleatorio.


La combinación de indicaciones creativas con estos parámetros de ajuste le permite lograr la imagen perfecta.

Resultados del modelo de Kandinsky

Kandinsky genera una o más URL de imágenes según sus entradas. Las URL apuntan a imágenes JPG de 1024x1024 alojadas en el backend. Puede descargar estas imágenes para utilizarlas en sus proyectos creativos. El número de salidas depende del parámetro "num_outputs".


El formato de salida se ve así:


 { "type": "array", "items": { "type": "string", "format": "uri" }, "title": "Output" }


Al generar variaciones, puedes elegir el mejor resultado o encontrar direcciones inspiradoras.

¿Qué tipos de aplicaciones o productos puedo crear con Kandinsky?

La capacidad de convertir texto en imágenes es una innovación notable y Kandinsky 2.2 está a la vanguardia de esta tecnología. Exploremos algunas formas prácticas en las que se podría utilizar este modelo.


En diseño, por ejemplo, la rápida conversión de ideas textuales en conceptos visuales podría agilizar significativamente el proceso creativo.


En lugar de depender de largas discusiones y bocetos manuales, los diseñadores podrían utilizar Kandinsky para visualizar instantáneamente sus ideas, acelerando las aprobaciones y revisiones de los clientes.


En educación, la transformación de descripciones textuales complejas en diagramas visuales podría hacer que el aprendizaje sea más atractivo y accesible. Los profesores podrían ilustrar conceptos desafiantes sobre la marcha, mejorando la comprensión y el interés de los estudiantes en materias como biología o física.

Ejemplo de la generación Kandinsky 2.2, a partir del mensaje: obra maestra de técnica mixta en acuarela, hermosa casa blanca y acogedora con chimeneas, una puerta morada, ricamente decorada con altramuces, macetas cubiertas de musgo, Provenza, detalles dorados, estilo shabby chic, aislado en blanco, extremadamente fotorrealista Detalles, alto detalle realista, alta resolución.


El mundo del cine y el diseño web también podría beneficiarse de Kandinsky 2.2. Al convertir guiones y conceptos escritos en imágenes, los directores y diseñadores pueden obtener una vista previa de su trabajo en tiempo real.


Esta visualización inmediata podría simplificar la etapa de planificación y fomentar la colaboración entre los miembros del equipo.


Además, la capacidad de Kandinsky para producir imágenes de alta calidad podría abrir puertas a nuevas formas de expresión artística y aplicaciones profesionales. Desde galerías de arte digitales hasta medios impresos, los usos potenciales son amplios y apasionantes.


Pero no perdamos de vista las limitaciones prácticas. Si bien el concepto es prometedor, la integración en el mundo real enfrentará desafíos y la calidad de las imágenes generadas puede variar o requerir supervisión humana.


Como cualquier tecnología emergente, Kandinsky 2.2 probablemente necesitará refinamiento y adaptación para satisfacer sus necesidades.

Llevándolo más allá: descubra modelos similares con AIModels.fyi

AIModels.fyi es un recurso valioso para descubrir modelos de IA adaptados a necesidades creativas específicas. Puedes explorar varios tipos de modelos, compararlos e incluso ordenarlos por precio. Es una plataforma gratuita que ofrece resúmenes de correos electrónicos para mantenerlo informado sobre nuevos modelos.


Para encontrar modelos similares a Kandinsky-2.2:


  1. Visita AIModels.fyi .


  2. Utilice la barra de búsqueda para ingresar una descripción de su caso de uso. Por ejemplo, " retratos realistas " o " Generador de texto a imagen de alta calidad . "


  3. Vea las tarjetas de modelo para cada modelo y elija la mejor para su caso de uso.


  4. Consulte la página de detalles del modelo para cada modelo y compare para encontrar sus favoritos.

Conclusión

En esta guía, exploramos las capacidades innovadoras de Kandinsky-2.2, un modelo multilingüe de difusión latente de texto a imagen.


Desde comprender su implementación técnica hasta utilizarla mediante instrucciones paso a paso, ahora está equipado para aprovechar el poder de la IA en sus esfuerzos creativos.


Además, AIModels.fyi abre las puertas a un mundo de posibilidades al ayudarle a descubrir y comparar modelos similares. Aproveche el potencial de la creación de contenido impulsada por IA y suscríbase para recibir más tutoriales, actualizaciones e inspiración en AIModels.fyi. ¡Feliz exploración y creación!


Suscribir o sígueme en Gorjeo ¡Para más contenido como este!

Lectura adicional: Exploración de modelos y aplicaciones de IA

Para aquellos intrigados por las capacidades de los modelos de IA y sus diversas aplicaciones, aquí hay algunos artículos relevantes que profundizan en varios aspectos de la generación y manipulación de contenido impulsada por IA:


  1. Generador de logotipos de IA: Erlich : Descubra cómo AI Logo Generator Erlich aprovecha la IA para crear logotipos únicos y visualmente atractivos, ampliando su comprensión del potencial creativo de la IA.


  2. Mejores escaladores : Descubra una descripción general completa de los mejores modelos de IA mejorados, que proporciona información sobre cómo mejorar la resolución y la calidad de la imagen.


  3. Cómo mejorar a mitad de camino: una guía paso a paso : Explore una guía detallada sobre cómo mejorar imágenes de manera efectiva utilizando el modelo de IA de Midjourney, enriqueciendo su conocimiento de las técnicas de mejora de imágenes.


  4. Diga adiós al ruido de la imagen: cómo mejorar imágenes antiguas con ScuNet GAN : Sumérgete en el ámbito de la eliminación de ruido y la restauración de imágenes utilizando ScuNet GAN, obteniendo información sobre cómo preservar la calidad de la imagen a lo largo del tiempo.


  5. Dale nueva vida a fotos antiguas con IA: una guía para principiantes de Gfpgan : Descubra cómo el modelo de IA de Gfpgan da nueva vida a fotografías antiguas, proporcionándole una guía para principiantes para revitalizar recuerdos preciados.


  6. Comparación de Gfpgan y Codeformer: una inmersión profunda en la restauración facial con IA : Obtenga información sobre los matices de la restauración facial basada en IA comparando los modelos Gfpgan y Codeformer.


  7. NightmareAI: modelos de IA en su máxima expresión : Vea los mejores modelos del equipo de Nightmare AI.


  8. ESRGAN versus Real-ESRGAN: de la súper resolución teórica a la del mundo real con IA : Comprenda los matices entre los modelos de IA ESRGAN y Real-ESRGAN, arrojando luz sobre las técnicas de superresolución.


  9. Real-ESRGAN vs. SwinIR: modelos de IA para restauración y ampliación : Compare los modelos Real-ESRGAN y SwinIR y obtenga información sobre su eficacia en la restauración y ampliación de imágenes.


También publicado aquí