paint-brush
"É como se Midjourney tivesse uma API" - Dando uma olhada em Kandinsky 2.2por@mikeyoung44
2,545 leituras
2,545 leituras

"É como se Midjourney tivesse uma API" - Dando uma olhada em Kandinsky 2.2

por Mike Young9m2023/08/24
Read on Terminal Reader

Muito longo; Para ler

Kandinsky v2.2 é uma alternativa ao Midjourney que produz imagens de texto de alta qualidade por meio de uma API javascript.
featured image - "É como se Midjourney tivesse uma API" - Dando uma olhada em Kandinsky 2.2
Mike Young HackerNoon profile picture
0-item

Os modelos de geração de imagens alimentados por IA estão revolucionando o cenário criativo. A plataforma Midjourney tem sido um ator chave neste campo inovador com a criação de imagens baseadas em texto. Porém, sua interface baseada no Discord apresentava algumas limitações para uso profissional.


Vamos dar uma olhada em um novo modelo de IA chamado Kandinsky 2.2, um modelo de texto para imagem mais fácil de construir, disponível por meio de uma API versátil.


Ao contrário do Midjourney, que opera através do Discord, Kandinsky permite que os desenvolvedores integrem a geração de imagens de IA em várias linguagens de programação, como Python, Node.js e cURLs.


Isso significa que com apenas algumas linhas de código, Kandinsky pode automatizar o processo de geração de imagens, tornando-se uma ferramenta mais eficiente para profissionais criativos. E com a nova versão v2.2, a qualidade da imagem de Kandinsky nunca foi tão alta.


Se inscrever ou siga-me Twitter para mais conteúdos como este!


Kandinsky 2.2 traz um novo nível de acessibilidade e flexibilidade para geração de imagens de IA. Integra-se perfeitamente com múltiplas linguagens e ferramentas de programação, oferecendo um nível de flexibilidade que supera a plataforma Midjourney.


Além disso, as técnicas avançadas de difusão de Kandinsky resultam em imagens impressionantemente fotorrealistas. Sua abordagem API-first torna mais fácil para os profissionais incorporarem a visualização baseada em IA em sua pilha de tecnologia existente.


Exemplo de gerações de imagens Kandinsky v2.2


Neste guia, exploraremos o potencial de Kandinsky em escalabilidade, automação e integração e discutiremos como ele pode contribuir para o futuro da criatividade.


Junte-se a nós enquanto nos aprofundamos nas ferramentas e técnicas necessárias para incorporar arte impressionante de IA em seus produtos usando este assistente avançado de IA.

Principais benefícios do Kandinsky 2.2

  • Código aberto - Kandinsky é totalmente de código aberto. Use o código diretamente ou acesse-o por meio da API flexível do Replicate.
  • Acesso à API - integre Kandinsky aos seus fluxos de trabalho em Python, Node.js, cURLs e muito mais por meio da API Replicate.
  • Automação - Ajuste imagens programaticamente, modificando prompts de texto no código para iteração rápida.
  • Escalabilidade – Gere milhares de imagens com chamadas simples de API. Crie storyboards e visualize conceitos em escala.
  • Integração personalizada - incorpore Kandinsky em suas próprias ferramentas e produtos graças ao seu design API-first.
  • ControlNet - Obtenha controle granular sobre as propriedades da imagem, como iluminação e ângulo, por meio de prompts de texto.
  • Multilíngue - Compreende instruções em inglês, chinês, japonês, coreano, francês e muito mais.
  • Alta resolução - Imagens nítidas e detalhadas de 1024x1024, prontas para qualquer caso de uso.
  • Fotorrealismo - Técnicas de difusão de última geração produzem imagens impressionantes e realistas, equivalentes a Midjourney.

Como funciona Kandinsky?

Kandinsky 2.2 é um modelo de difusão de texto para imagem que gera imagens a partir de prompts de texto. Consiste em vários componentes principais:


  • Codificador de texto: o prompt de texto é passado por um codificador XLM-Roberta-Large-Vit-L-14 para extrair recursos semânticos e codificar o texto em um espaço latente. Isso produz um vetor de incorporação de texto.


  • Codificador de imagem: um modelo CLIP-ViT-G pré-treinado codifica imagens no mesmo espaço latente que os embeddings de texto. Isso permite a correspondência entre representações de texto e imagem.


  • Difusão anterior: um transformador mapeia entre o texto que incorpora o espaço latente e a imagem que incorpora o espaço latente. Isso estabelece uma difusão anterior que liga texto e imagens de forma probabilística.


  • UNet: Uma UNet de Difusão Latente de parâmetro 1.22B serve como rede backbone. É necessária uma incorporação de imagem como entrada e saída de amostras de imagem de ruidosas para limpas por meio de remoção de ruído iterativa.


  • ControlNet: Uma rede neural adicional que condiciona a geração de imagens em entradas auxiliares como mapas de profundidade. Isso permite a síntese de imagem controlável.


  • Codificador/Decodificador MoVQ: Um VAE discreto que compacta incorporações de imagens como códigos latentes discretos para uma amostragem mais eficiente.


Durante o treinamento, os pares texto-imagem são codificados em embeddings vinculados. A difusão UNet é treinada para inverter esses embeddings de volta às imagens por meio da remoção de ruído.


Para inferência, o texto é codificado para uma incorporação, mapeado através da difusão antes da incorporação de uma imagem, compactado pelo MoVQ e invertido pela UNet para gerar imagens iterativamente. O ControlNet adicional permite controlar atributos como profundidade.

Principais melhorias em relação às versões anteriores do Kandinsky

Imagem mostrando a evolução da plataforma Kandinsky.

Um exemplo que mostra a evolução de Kandinsky de v2.0 para v2.1 e v2.2. O realismo!

As principais melhorias no Kandinsky 2.2 incluem:


  1. Novo codificador de imagem - CLIP-ViT-G : Uma das principais atualizações é a integração do codificador de imagem CLIP-ViT-G. Esta atualização reforça significativamente a capacidade do modelo de gerar imagens esteticamente agradáveis. Ao utilizar um codificador de imagem mais poderoso, o Kandinsky 2.2 pode interpretar melhor as descrições de texto e traduzi-las em imagens visualmente cativantes.


  2. Suporte ControlNet : Kandinsky 2.2 introduz o mecanismo ControlNet, um recurso que permite controle preciso sobre o processo de geração de imagens. Esta adição aumenta a precisão e o apelo dos resultados gerados. Com o ControlNet, o modelo ganha a capacidade de manipular imagens com base na orientação de texto, abrindo novos caminhos para a exploração criativa.

Como posso usar Kandinsky para criar imagens?

Pronto para começar a criar com este poderoso modelo de IA? Aqui está um guia passo a passo para usar a API Replicate para interagir com Kandinsky 2.2. Em um nível alto, você precisará:


  1. Autenticar – Obtenha sua chave de API de replicação e autentique em seu ambiente.


  2. Enviar um prompt - Passe sua descrição textual no parâmetro prompt . Você pode especificá-lo em vários idiomas.


  3. Personalize parâmetros - ajuste as dimensões da imagem, o número de saídas, etc., conforme necessário. Consulte o especificação do modelo para obter mais detalhes ou continue lendo.


  4. Processe a resposta - Kandinsky 2.2 gera uma URL para a imagem gerada. Baixe esta imagem para usar em seu projeto.


Por conveniência, você também pode experimentar este demonstração ao vivo para ter uma ideia dos recursos do modelo antes de trabalhar em seu código.

Guia passo a passo para usar o Kandinsky 2.2 por meio da API Replicate

Neste exemplo, usaremos Node para trabalhar com o modelo. Portanto, você precisará primeiro instalar o cliente Node.js.


 npm install replicate


Em seguida, copie o token da API e defina-o como uma variável de ambiente:

 export REPLICATE_API_TOKEN=r8_*************************************


A seguir, execute o modelo usando o script Node.js:

 import Replicate from "replicate"; const replicate = new Replicate({ auth: process.env.REPLICATE_API_TOKEN, }); const output = await replicate.run( "ai-forever/kandinsky-2.2:ea1addaab376f4dc227f5368bbd8eff901820fd1cc14ed8cad63b29249e9d463", { input: { prompt: "A moss covered astronaut with a black background" } } );


Você também pode configurar um webhook para que as previsões recebam atualizações quando o processo for concluído.


 const prediction = await replicate.predictions.create({ version: "ea1addaab376f4dc227f5368bbd8eff901820fd1cc14ed8cad63b29249e9d463", input: { prompt: "A moss covered astronaut with a black background" }, webhook: "https://example.com/your-webhook", webhook_events_filter: ["completed"] });


À medida que você trabalha esse código em seu aplicativo, você desejará experimentar os parâmetros do modelo. Vamos dar uma olhada nas entradas e saídas de Kandinsky.

Um exemplo da geração Kandinsky 2.2, a partir do prompt: uma foto de gato vermelho, 8k


Entradas e saídas do Kandinsky 2.2

O prompt de texto é a entrada principal que orienta a geração de imagens de Kandinsky. Ajustando seu prompt, você pode moldar a saída.


  • Prompt - A descrição textual, como "Um astronauta jogando xadrez em Marte". Isto é necessário.


  • Prompt Negativo - Especifica elementos a serem excluídos, como "sem capacete espacial". Opcional.


  • Largura e Altura – Dimensões da imagem em pixels, de 384 a 2048. O padrão é 512 x 512.


  • Número de etapas de inferência - Número de etapas de remoção de ruído durante a difusão; quanto maior, mais lento, mas com qualidade potencialmente maior. O padrão é 75.


  • Num Outputs - Número de imagens a serem geradas por prompt, o padrão é 1.


  • Seed - Semente inteira para randomização. Deixe em branco para aleatório.


Combinar prompts criativos com esses parâmetros de ajuste permite que você obtenha a imagem perfeita.

Resultados do modelo Kandinsky

Kandinsky gera um ou mais URLs de imagem com base em suas entradas. Os URLs apontam para imagens JPG de 1024x1024 hospedadas no back-end. Você pode baixar essas imagens para usar em seus projetos criativos. O número de saídas depende do parâmetro "num_outputs".


O formato de saída é assim:


 { "type": "array", "items": { "type": "string", "format": "uri" }, "title": "Output" }


Ao gerar variações, você pode escolher o melhor resultado ou encontrar orientações inspiradoras.

Que tipos de aplicativos ou produtos posso construir com Kandinsky?

A capacidade de transformar texto em imagens é uma inovação notável e o Kandinsky 2.2 está na vanguarda desta tecnologia. Vamos explorar algumas maneiras práticas pelas quais esse modelo poderia ser usado.


No design, por exemplo, a rápida conversão de ideias textuais em conceitos visuais poderia agilizar significativamente o processo criativo.


Em vez de depender de longas discussões e esboços manuais, os designers poderiam usar Kandinsky para visualizar instantaneamente suas ideias, acelerando as aprovações e revisões dos clientes.


Na educação, a transformação de descrições textuais complexas em diagramas visuais poderia tornar a aprendizagem mais envolvente e acessível. Os professores poderiam ilustrar conceitos desafiadores rapidamente, aumentando a compreensão e o interesse dos alunos em assuntos como biologia ou física.

Exemplo da geração Kandinsky 2.2, a partir do prompt: obra-prima em aquarela de mídia mista, linda casa branca e aconchegante com chaminés, porta roxa, ricamente decorada com tremoço, vasos de flores cobertos de musgo, Provença, detalhes dourados, estilo shabby chic, isolado em branco, extremamente fotorrealista detalhes, alto detalhe realista, alta resolução


O mundo do cinema e do web design também poderia se beneficiar do Kandinsky 2.2. Ao transformar roteiros e conceitos escritos em recursos visuais, diretores e designers podem visualizar seu trabalho em tempo real.


Esta visualização imediata poderia simplificar a fase de planejamento e promover a colaboração entre os membros da equipe.


Além disso, a capacidade de Kandinsky de produzir imagens de alta qualidade poderá abrir portas para novas formas de expressão artística e aplicações profissionais. Das galerias de arte digital à mídia impressa, os usos potenciais são amplos e estimulantes.


Mas não percamos de vista as limitações práticas. Embora o conceito seja promissor, a integração no mundo real enfrentará desafios e a qualidade das imagens geradas pode variar ou exigir supervisão humana.


Como qualquer tecnologia emergente, o Kandinsky 2.2 provavelmente precisará de refinamento e adaptação para atender às suas necessidades.

Indo além - Descubra modelos semelhantes com AIModels.fyi

AIModels.fyi é um recurso valioso para descobrir modelos de IA adaptados a necessidades criativas específicas. Você pode explorar vários tipos de modelos, compará-los e até mesmo classificá-los por preço. É uma plataforma gratuita que oferece e-mails de resumo para mantê-lo informado sobre novos modelos.


Para encontrar modelos semelhantes ao Kandinsky-2.2:


  1. Visita AIModels.fyi .


  2. Use a barra de pesquisa para inserir uma descrição do seu caso de uso. Por exemplo, " retratos realistas " ou " gerador de texto para imagem de alta qualidade . "


  3. Visualize os cartões de modelo de cada modelo e escolha o melhor para seu caso de uso.


  4. Confira a página de detalhes de cada modelo e compare para encontrar seus favoritos.

Conclusão

Neste guia, exploramos os recursos inovadores do Kandinsky-2.2, um modelo multilíngue de difusão latente de texto para imagem.


Desde a compreensão de sua implementação técnica até sua utilização por meio de instruções passo a passo, agora você está equipado para aproveitar o poder da IA em seus empreendimentos criativos.


Além disso, AIModels.fyi abre portas para um mundo de possibilidades, ajudando você a descobrir e comparar modelos semelhantes. Aproveite o potencial da criação de conteúdo baseado em IA e inscreva-se para obter mais tutoriais, atualizações e inspiração em AIModels.fyi. Feliz exploração e criação!


Se inscrever ou siga-me Twitter para mais conteúdos como este!

Leitura adicional: Explorando modelos e aplicações de IA

Para aqueles intrigados com as capacidades dos modelos de IA e suas diversas aplicações, aqui estão alguns artigos relevantes que se aprofundam em vários aspectos da geração e manipulação de conteúdo com tecnologia de IA:


  1. Gerador de logotipo AI: Erlich : Descubra como o AI Logo Generator Erlich aproveita a IA para criar logotipos exclusivos e visualmente atraentes, expandindo sua compreensão do potencial criativo da IA.


  2. Melhores upscalers : Descubra uma visão geral abrangente dos melhores modelos de IA de upscaling, fornecendo insights sobre como melhorar a resolução e a qualidade da imagem.


  3. Como fazer upscale no meio da jornada: um guia passo a passo : explore um guia detalhado sobre como aprimorar imagens de maneira eficaz usando o modelo Midjourney AI, enriquecendo seu conhecimento sobre técnicas de aprimoramento de imagem.


  4. Diga adeus ao ruído da imagem: como aprimorar imagens antigas com ScuNet GAN : Mergulhe no domínio da remoção de ruído e restauração de imagens usando o ScuNet GAN, obtendo insights sobre como preservar a qualidade da imagem ao longo do tempo.


  5. Dê nova vida a fotos antigas com IA: um guia para iniciantes em Gfpgan : Aprenda como o modelo Gfpgan AI dá nova vida a fotos antigas, fornecendo um guia para iniciantes para revitalizar memórias queridas.


  6. Comparando Gfpgan e Codeformer: um mergulho profundo na restauração facial de IA : Obtenha insights sobre as nuances da restauração facial baseada em IA comparando os modelos Gfpgan e Codeformer.


  7. NightmareAI: modelos de IA no seu melhor : Veja os melhores modelos da equipe Nightmare AI.


  8. ESRGAN vs. Real-ESRGAN: da super-resolução teórica à super-resolução do mundo real com IA : Entenda as nuances entre os modelos ESRGAN e Real-ESRGAN AI, esclarecendo técnicas de super-resolução.


  9. Real-ESRGAN vs. SwinIR: modelos de IA para restauração e aumento de escala : Compare os modelos Real-ESRGAN e SwinIR, obtendo insights sobre sua eficácia na restauração e aumento de escala de imagens.


Também publicado aqui