eDiffi, o modelo mais recente da NVIDIA, gera imagens de melhor aparência e mais precisas do que todas as abordagens anteriores, como DALLE 2 ou Stable Diffusion. O eDiffi entende melhor o texto que você envia e é mais personalizável, adicionando um recurso que vimos em um artigo anterior da NVIDIA: a ferramenta Painter. Saiba mais no vídeo...   Referências ﻿►Leia o artigo completo:   ► Balaji, Y. et al., 2022, eDiffi: Text-to-Image Diffusion Models with an Ensemble of Expert Denoisers,   ►Página do projeto:   ►Meu boletim informativo (um novo aplicativo de IA explicado semanalmente para seus e-mails!):  https://www.louisbouchard.ai/ediffi/ https://arxiv.org/abs/2211.01324 https://deepimagination.cc/eDiffi/ https://www.louisbouchard.ai/newsletter/  Transcrição de vídeo  0:06  a nova abordagem de ponta para  0:08  síntese de imagem que gera melhor  0:10  olhando e imagens mais precisas do que  0:13  todas as abordagens anteriores, como Delhi 2 ou  0:15  difusão estável ou se ele melhor  0:17  entende o texto que você envia e é  0:19  mais personalizável adicionando um novo recurso  0:21  vimos em um artigo anterior da Nvidia  0:23  a ferramenta do pintor como eles veem que você pode  0:26  pintar com palavras em resumo, isso significa você  0:29  pode inserir alguns assuntos e pintar  0:32  a imagem o que deve aparecer aqui e  0:34  permitindo que você crie muito mais  0:36  imagens personalizadas em comparação com um aleatório  0:39  geração seguindo um prompt isso é  0:41  o próximo nível permitindo que você fique bonita  0:43  obter a imagem exata que você tem em  0:45  mente simplesmente desenhando um rápido horrível  0:47  esboce algo que até eu posso fazer como eu  0:50  mencionou os resultados não são apenas Sota  0:52  e mais bonito do que a difusão estável  0:55  mas eles também são muito mais controláveis  0:57  é claro que é um caso de uso diferente, pois  0:59  ele precisa de um pouco mais de trabalho e um mais claro  1:02  ID em mente para criar tal rascunho, mas  1:04  é definitivamente super emocionante e  1:06  interessante é também por isso que eu queria  1:08  cobrir no meu canal já que não é  1:11  apenas um modelo melhor, mas também um  1:13  abordagem diferente com muito mais  1:15  controle sobre a saída da ferramenta não é  1:17  disponível ainda, infelizmente, mas tenho certeza  1:19  espero que seja em breve pelo jeito que você  1:22  definitivamente deveria se inscrever no  1:23  canal e siga-me no Twitter em que  1:25  diga oi se você gosta desse tipo de vídeo  1:27  e gostaria de ter acesso a facilmente  1:30  notícias digeríveis sobre isso fortemente  1:32  campo complicado outra vitória que eles  1:34  permitem que você tenha mais controle neste  1:37  novo modelo é usando o mesmo recurso  1:39  vimos, mas de forma diferente, de fato, o modelo  1:42  gera imagens Guiado por uma frase  1:44  mas também pode ser influenciado usando um  1:47  esboço rápido, então basicamente leva um  1:49  imagem e um texto como entradas isso significa  1:52  você pode fazer outras coisas como ele entende  1:54  imagens aqui eles aproveitam isso  1:56  capacidade desenvolvendo um estilo  1:58  abordagem de transferência onde você pode  2:00  influenciar o estilo da imagem  2:02  processo de geração dando uma imagem com  2:04  um estilo particular bem junto com o seu  2:06  entrada de texto isso é super legal e apenas  2:09  veja os resultados que eles falam  2:11  eles mesmos é incrível vencer ambos  2:14  Modelos e imagem de transferência de estilo Sota  2:16  modelos de síntese com uma única abordagem  2:18  agora a questão é como a Nvidia poderia  2:22  desenvolver um modelo que crie melhores  2:23  olhar imagens permite mais controle sobre  2:26  tanto o estilo quanto a estrutura da imagem  2:29  bem como uma melhor compreensão e  2:31  representando o que você realmente quer em  2:34  seu texto bem, eles mudam o típico  2:36  arquitetura de difusão de duas maneiras primeiro  2:39  eles codificam o texto usando dois  2:41  abordagens que eu já abordei no  2:43  canal que nos referimos como clipe e T5  2:46  codificadores, isso significa que eles usarão  2:48  modelos pré-treinados para receber texto e  2:50  criar várias incorporações com foco em  2:52  recursos diferentes à medida que são treinados  2:55  e se comportou de maneira diferente e os significados são  2:57  apenas representações maximizando o que o  3:00  frase realmente significa para o  3:01  algoritmo ou a máquina para entender  3:04  em relação à imagem de entrada que eles apenas  3:06  use os embeddings de clipes também  3:08  basicamente codificando a imagem para que o  3:11  modelo pode entendê-lo que você pode  3:13  saiba mais sobre em meus outros vídeos  3:14  abrangendo modelos generativos como eles são  3:16  praticamente tudo construído em clipe isso é  3:19  o que lhes permite ter mais controle  3:21  sobre a saída, bem como processado  3:23  texto e imagens em vez de apenas texto  3:25  a segunda modificação está usando um  3:28  Cascata de modelos de difusão em vez de  3:31  reutilizando o mesmo iterativamente como nós  3:33  geralmente fazem com modelos baseados em difusão  3:35  aqui o uso de modelos treinados para o  3:38  parte específica do processo generativo  3:39  o que significa que cada modelo não precisa  3:42  ser tão geral quanto a difusão regular  3:44  denoiser já que cada modelo tem que se concentrar  3:46  em uma parte específica do processo pode  3:49  ser muito melhor nisso eles usam isso  3:51  abordagem porque observaram que o  3:52  modelos de redução de ruído pareciam usar o texto  3:55  embeddings muito mais para orientar sua  3:57  geração no início do  3:59  processo e, em seguida, usá-lo cada vez menos para  4:02  foco na qualidade de saída e Fidelidade o  4:05  isso naturalmente traz a hipótese  4:07  que reutilizar o mesmo modelo de redução de ruído  4:09  ao longo de todo o processo pode não  4:11  ser o melhor ID, pois automaticamente  4:13  se concentra em diferentes tarefas e sabemos  4:15  que um generalista está longe de ser um especialista  4:18  nível em todas as tarefas, por que não usar alguns  4:20  especialistas em vez de um generalista para obter  4:23  resultados muito melhores, então é isso que eles  4:25  fizeram e por que eles os chamam de denoising  4:28  especialistas e a principal razão para isso  4:30  melhora o desempenho em qualidade e  4:32  fidelidade o resto do  4:34  A arquitetura é bem parecida com outras  4:36  abordagens de dimensionamento dos resultados finais  4:38  com outros modelos para obter uma alta  4:40  definição imagem final a imagem e  4:43  campos de síntese de vídeo estão ficando  4:45  louco hoje em dia e estamos vendo  4:47  resultados impressionantes saindo toda semana  4:49  Estou super ansiosa pelos próximos lançamentos  4:51  e adoro ver abordagens diferentes  4:53  com ambas as formas inovadoras de lidar  4:55  o problema e também indo para diferentes  4:57  casos de uso como uma grande pessoa disse uma vez  5:01  que hora de estar vivo espero que gostem  5:04  esta rápida visão geral da abordagem a  5:06  nível um pouco mais alto do que eu normalmente  5:08  faça o que for preciso a maioria das peças eu já  5:10  coberto em vários vídeos e alterado  5:12  a agirem de forma diferente, convido você a  5:15  assista ao meu vídeo de difusão estável para aprender  5:17  um pouco mais sobre a abordagem de difusão  5:19  em si e leia o papel da nvidia para  5:21  saiba mais sobre essa abordagem específica  5:23  e sua implementação nos vemos  5:26  semana que vem com outro paper incrível  5:32  estrangeiro  5:36  [Música]﻿

Watch more on YouTube: https://www.youtube.com/c/WhatsAI

I explain Artificial Intelligence terms and news to non-experts.

2021 - HackerNoon Contributor of the Year - FACEBOOK

2022 - Best Data Science Newsletter

2022 - HackerNoon Contributor of the Year - Artificial Intelligence

2022 - HackerNoon Contributor of the Year - Computer Vision

2022 - HackerNoon Contributor of the Year - Data Science

2022 - HackerNoon Contributor of the Year - Google

2022 - HackerNoon Contributor of the Year - Innovation

2022 - HackerNoon Contributor of the Year - Machine Learning

2022 - HackerNoon Contributor of the Year - Natural Language Processing

2022 - Top Tech Youtuber

2021 - HackerNoon Contributor of the Year - DEEP-LEARNING

Nominated for 2022 - Best Data Science Newsletter

Nominated for 2022 - HackerNoon Contributor of the Year - Artificial Intelligence

Nominated for 2022 - Top Tech Youtuber

Nominated for 2022 - HackerNoon Contributor of the Year - Innovation

Nominated for 2022 - HackerNoon Contributor of the Year - Data Science

Nominated for 2022 - HackerNoon Contributor of the Year - Natural Language Processing

Uma introdução ao eDiffi: o novo modelo de síntese de imagem SOTA da NVIDIA

About Author

COMENTARIOS

Rótulos

ESTE ARTIGO FOI APRESENTADO EM

Related Stories

Vazamento do prompt do sistema Claude Sonnet 3.5: uma análise forense

Criando produtos criptográficos centrados no usuário: a importância do feedback do cliente

Modelo Bitcoin UTXO, alimentando um ecossistema único

Telegram: a ponte da Crypto Island para o continente

Vazamento do prompt do sistema Claude Sonnet 3.5: uma análise forense

Criando produtos criptográficos centrados no usuário: a importância do feedback do cliente

Modelo Bitcoin UTXO, alimentando um ecossistema único

Telegram: a ponte da Crypto Island para o continente

Light-Mode

Classic

Newspaper

Minty

Dark-Mode

Neon Noir

Minty

HN StartUps