O jornal desta semana pode ser apenas o seu próximo modelo favorito até hoje.  Se você acha que os modelos recentes de geração de imagens como   ou   são legais, você simplesmente não vai acreditar como este é incrível. DALLE Stable Diffusion  "Este" é Imagic.  Imagic pega um modelo baseado em difusão capaz de pegar texto e gerar imagens a partir dele e adapta o modelo para editar as imagens. Olha só... Você pode gerar uma imagem e depois ensinar o modelo a editá-la do jeito que você quiser.  Saiba mais no vídeo abaixo...   Referências:  ►Leia o artigo completo:   ►Kawar, B., Zada, S., Lang, O., Tov, O., Chang, H., Dekel, T., Mosseri, I. e Irani, M., 2022. Imagic: Imagem real baseada em texto Edição com modelos de difusão. pré-impressão arXiv arXiv:2210.09276.  ► Use-o com difusão estável:   ►Meu boletim informativo (um novo aplicativo de IA explicado semanalmente para seus e-mails!):  https://www.louisbouchard.ai/imagic/ https://github.com/justinpinkney/stable-diffusion/blob/main/notebooks/imagic.ipynb https://www.louisbouchard.ai/newsletter/  Transcrição de vídeo ﻿0:24  veja que você pode gerar uma imagem  0:26  e então ensine o modelo a editá-lo qualquer  0:29  do jeito que você quer, este é um grande passo  0:31  para ter seu próprio Photoshop  0:33  designer de graça o modelo não só  0:36  entende o que você quer mostrar, mas  0:38  também é capaz de permanecer realista também  0:41  como manter as propriedades do inicial  0:43  imagens olha só como fica o cachorro  0:46  o mesmo em todas as imagens aqui esta tarefa é  0:49  chamada edição de imagem condicionada por texto  0:51  isso significa editar imagens usando apenas  0:54  texto e uma imagem inicial que foi  0:57  praticamente impossível nem mesmo um ano  0:59  atrás agora veja o que ele pode fazer sim isso  1:03  é tudo feito a partir de uma única imagem de entrada  1:05  e uma frase curta onde você vê o que  1:07  você gostaria de ter o quão incrível é isso  1:09  a única coisa ainda mais legal é como  1:12  funciona, vamos mergulhar nisso, mas primeiro se  1:15  você está aprendendo IA ou quer  1:17  comece a aprender você vai adorar isso  1:19  oportunidade, eu sei o quão difícil pode ser  1:22  faça um progresso real ao aprender IA  1:24  às vezes estrutura extra e  1:26  responsabilidade pode ser o que te propõe a  1:29  o próximo nível, se isso soa como você  1:31  junte-se ao patrocinador deste vídeo Delta  1:33  Academia na Delta Academy você aprende  1:36  aprendizagem por reforço construindo jogo  1:38  AIS em uma coorte ao vivo vão de zero a  1:41  alphago através da exportação trabalhada  1:43  tutoriais interativos discussões ao vivo  1:46  com esses especialistas e IA semanal  1:48  construir competições não é apenas  1:51  outro curso site de spam é intenso  1:53  prático e focado em alta qualidade  1:56  projetado por especialistas da deepmind Oxford  1:58  e Cambridge é onde os codificadores vão  2:01  Proteja sua operadora para o futuro a partir do  2:03  avanço da IA e divirta-se mais com um  2:06  comunidade ao vivo de colegas e especialistas para  2:08  empurre você para frente, você escreverá icônico  2:10  algoritmos em Python variando de dqn a  2:13  alphago um dos programas mais legais de todos os tempos  2:16  fez se juntar a eles agora através do meu link abaixo  2:18  e use o código promocional what's AI to get  2:21  10% de desconto  2:23  então, como o iMagic funciona como dissemos  2:26  pega uma imagem e uma legenda para editar o  2:29  definir a imagem e você pode até gerar  2:31  múltiplas variações deste modelo  2:33  como a grande maioria dos jornais  2:35  que são lançados hoje em dia é baseado em  2:38  modelos de difusão mais especificamente  2:41  pega um modelo de gerador de imagem que foi  2:43  já treinados para gerar imagens de  2:45  texto e adapta-o à edição de imagens em  2:48  o caso deles usa Imogen que eu  2:51  coberto em um vídeo anterior é um  2:53  modelo generativo baseado em difusão capaz de  2:55  criar imagens de alta definição depois  2:57  sendo treinado em um enorme conjunto de dados de  3:00  pares de legendas de imagem no caso de  3:02  iMagic eles simplesmente levam isso pré-treinado  3:05  modele a imagem como uma linha de base e faça  3:08  modificações a fim de editar o  3:10  imagens enviadas como entrada mantendo a imagem  3:13  aparência específica, como a do cão  3:16  raça e identidade e editá-lo  3:18  seguindo nosso texto então para começar temos  3:21  para codificar o texto e a inicial  3:23  borda da imagem para que possa ser entendida  3:25  pelo nosso modelo de imagem quando isso é feito  3:28  otimizamos nossas codificações de texto nosso texto  3:31  embeddings para melhor ajustar a nossa inicial  3:33  imagem basicamente pegando nosso texto  3:35  representação e otimizá-la para o nosso  3:38  imagem inicial chamada e otimizar para ser  3:41  certeza de que entende que neste exemplo  3:43  queremos gerar o mesmo tipo de  3:45  imagem com um pássaro de aparência semelhante e  3:48  fundo, então tomamos nosso pré-treinado  3:51  gerador de imagem para afinar o significado  3:53  que vamos treinar novamente a imagem e o modelo  3:55  mantendo as incorporações de texto otimizadas que  3:58  acabou de produzir o mesmo, então esses dois  4:01  etapas são usadas para obter a incorporação de texto  4:03  mais perto da incorporação de imagem por  4:06  congelando um dos dois e pegando o  4:08  outro mais próximo, o que garantirá que  4:10  otimizar tanto para o texto quanto para a inicial  4:12  imagem não apenas um dos dois agora que  4:15  nosso modelo entende a imagem inicial  4:17  em nosso texto e entende que eles  4:19  são semelhantes, precisamos ensiná-lo a  4:21  gerar novas variações de imagem para isso  4:24  texto esta faísca é super simples nosso texto  4:27  incorporações e imagens otimizadas  4:29  as incorporações são muito semelhantes, mas ainda assim  4:32  não é exatamente o mesmo a única coisa que fazemos  4:34  aqui é que pegamos a incorporação de imagem  4:36  em nosso espaço codificado e mova-o um pouco  4:39  para a incorporação de texto neste momento  4:42  se você pedir ao modelo iMagic para gerar  4:45  uma imagem usando o texto otimizado  4:47  deve dar-lhe a mesma imagem que o seu  4:49  imagem de entrada, então se você mover a incorporação  4:52  um pouco em direção ao seu texto incorporando-o  4:55  também irá editar a imagem um pouco para  4:58  o que você quer quanto mais você o move  5:00  esse espaço mais a edição vai ser grande  5:02  e quanto mais longe você chegar de  5:05  sua imagem inicial, então a única coisa que você  5:07  precisa descobrir agora é o tamanho de  5:10  este passo que você quer dar em direção ao seu  5:12  texto e pronto quando você encontrar o seu  5:15  equilíbrio perfeito você tem um novo modelo  5:17  capaz de gerar tantas variações quanto  5:20  você quer conservar a imagem importante  5:22  exibições de atributo ao editar o caminho  5:25  você quer, claro, os resultados não são  5:27  perfeito ainda como você pode ver aqui onde  5:30  o modelo não edita corretamente  5:32  ou faz modificações aleatórias na imagem para  5:35  a imagem inicial como corte ou  5:37  zoom inapropriadamente ainda permanece  5:40  bastante impressionante se você me perguntar eu acho  5:42  o ritmo da geração da imagem  5:44  progresso incrível e isso é tanto  5:47  incrível e assustador ao mesmo tempo eu  5:50  adoro saber sua opinião sobre esses tipos  5:52  de geração e edição de imagens  5:54  modelos você acha que eles são bons ou  5:57  coisa ruim que tipo de consequências você  5:59  pode pensar em tais modelos tornando-se  6:02  mais e mais poderoso você pode encontrar mais  6:04  detalhes sobre os parâmetros específicos que eles  6:06  usam para alcançar esses resultados em seus  6:08  papel que eu definitivamente convido você para  6:10  leia também convido você a assistir minha imagem  6:13  e vídeo se você quiser mais informações  6:14  sobre a parte de geração de imagens e  6:17  entender como funciona enorme graças a  6:20  meus amigos da Delta Academy por trabalhar  6:22  em tornar o aprendizado de IA divertido algo que eu sou  6:26  apaixonado por por favor, experimente  6:28  e deixe-me saber o que você acha que eu  6:30  pessoalmente amo esta forma de ensinar e  6:33  Tenho certeza que você também vai agradecer por  6:35  apoiando meu trabalho, verificando seus  6:37  site e assistindo ao vídeo inteiro  6:39  e espero que tenham gostado vejo vocês  6:42  semana que vem com outro paper incrível

YouTube

Watch more on YouTube: https://www.youtube.com/c/WhatsAI

I explain Artificial Intelligence terms and news to non-experts.

2021 - HackerNoon Contributor of the Year - FACEBOOK

2022 - Best Data Science Newsletter

2022 - HackerNoon Contributor of the Year - Artificial Intelligence

2022 - HackerNoon Contributor of the Year - Computer Vision

2022 - HackerNoon Contributor of the Year - Data Science

2022 - HackerNoon Contributor of the Year - Google

2022 - HackerNoon Contributor of the Year - Innovation

2022 - HackerNoon Contributor of the Year - Machine Learning

2022 - HackerNoon Contributor of the Year - Natural Language Processing

2022 - Top Tech Youtuber

2021 - HackerNoon Contributor of the Year - DEEP-LEARNING

Nominated for 2022 - Best Data Science Newsletter

Nominated for 2022 - HackerNoon Contributor of the Year - Artificial Intelligence

Nominated for 2022 - Top Tech Youtuber

Nominated for 2022 - HackerNoon Contributor of the Year - Innovation

Nominated for 2022 - HackerNoon Contributor of the Year - Data Science

Nominated for 2022 - HackerNoon Contributor of the Year - Natural Language Processing

Imagic: edição de imagem AI a partir de comandos de texto

About Author

COMENTARIOS

Rótulos

ESTE ARTIGO FOI APRESENTADO EM

Related Stories

Navegando pelas águas: desenvolvendo aplicações RAG de nível de produção com data lakes

Digital Nomads Ouçam: O que você precisa saber sobre o novo visto DTV da Tailândia

Vazamento do prompt do sistema Claude Sonnet 3.5: uma análise forense

Toque para ganhar: Telegram pode integrar os próximos 10 bilhões de usuários criptográficos antes de Solana

Navegando pelas águas: desenvolvendo aplicações RAG de nível de produção com data lakes

Digital Nomads Ouçam: O que você precisa saber sobre o novo visto DTV da Tailândia

Vazamento do prompt do sistema Claude Sonnet 3.5: uma análise forense

Toque para ganhar: Telegram pode integrar os próximos 10 bilhões de usuários criptográficos antes de Solana

Light-Mode

Classic

Newspaper

Minty

Dark-Mode

Neon Noir

Minty

HN StartUps