eDiffi, o modelo mais recente da NVIDIA, gera imagens de melhor aparência e mais precisas do que todas as abordagens anteriores, como DALLE 2 ou Stable Diffusion. O eDiffi entende melhor o texto que você envia e é mais personalizável, adicionando um recurso que vimos em um artigo anterior da NVIDIA: a ferramenta Painter. Saiba mais no vídeo... Referências ►Leia o artigo completo: ► Balaji, Y. et al., 2022, eDiffi: Text-to-Image Diffusion Models with an Ensemble of Expert Denoisers, ►Página do projeto: ►Meu boletim informativo (um novo aplicativo de IA explicado semanalmente para seus e-mails!): https://www.louisbouchard.ai/ediffi/ https://arxiv.org/abs/2211.01324 https://deepimagination.cc/eDiffi/ https://www.louisbouchard.ai/newsletter/ Transcrição de vídeo 0:06 a nova abordagem de ponta para 0:08 síntese de imagem que gera melhor 0:10 olhando e imagens mais precisas do que 0:13 todas as abordagens anteriores, como Delhi 2 ou 0:15 difusão estável ou se ele melhor 0:17 entende o texto que você envia e é 0:19 mais personalizável adicionando um novo recurso 0:21 vimos em um artigo anterior da Nvidia 0:23 a ferramenta do pintor como eles veem que você pode 0:26 pintar com palavras em resumo, isso significa você 0:29 pode inserir alguns assuntos e pintar 0:32 a imagem o que deve aparecer aqui e 0:34 permitindo que você crie muito mais 0:36 imagens personalizadas em comparação com um aleatório 0:39 geração seguindo um prompt isso é 0:41 o próximo nível permitindo que você fique bonita 0:43 obter a imagem exata que você tem em 0:45 mente simplesmente desenhando um rápido horrível 0:47 esboce algo que até eu posso fazer como eu 0:50 mencionou os resultados não são apenas Sota 0:52 e mais bonito do que a difusão estável 0:55 mas eles também são muito mais controláveis 0:57 é claro que é um caso de uso diferente, pois 0:59 ele precisa de um pouco mais de trabalho e um mais claro 1:02 ID em mente para criar tal rascunho, mas 1:04 é definitivamente super emocionante e 1:06 interessante é também por isso que eu queria 1:08 cobrir no meu canal já que não é 1:11 apenas um modelo melhor, mas também um 1:13 abordagem diferente com muito mais 1:15 controle sobre a saída da ferramenta não é 1:17 disponível ainda, infelizmente, mas tenho certeza 1:19 espero que seja em breve pelo jeito que você 1:22 definitivamente deveria se inscrever no 1:23 canal e siga-me no Twitter em que 1:25 diga oi se você gosta desse tipo de vídeo 1:27 e gostaria de ter acesso a facilmente 1:30 notícias digeríveis sobre isso fortemente 1:32 campo complicado outra vitória que eles 1:34 permitem que você tenha mais controle neste 1:37 novo modelo é usando o mesmo recurso 1:39 vimos, mas de forma diferente, de fato, o modelo 1:42 gera imagens Guiado por uma frase 1:44 mas também pode ser influenciado usando um 1:47 esboço rápido, então basicamente leva um 1:49 imagem e um texto como entradas isso significa 1:52 você pode fazer outras coisas como ele entende 1:54 imagens aqui eles aproveitam isso 1:56 capacidade desenvolvendo um estilo 1:58 abordagem de transferência onde você pode 2:00 influenciar o estilo da imagem 2:02 processo de geração dando uma imagem com 2:04 um estilo particular bem junto com o seu 2:06 entrada de texto isso é super legal e apenas 2:09 veja os resultados que eles falam 2:11 eles mesmos é incrível vencer ambos 2:14 Modelos e imagem de transferência de estilo Sota 2:16 modelos de síntese com uma única abordagem 2:18 agora a questão é como a Nvidia poderia 2:22 desenvolver um modelo que crie melhores 2:23 olhar imagens permite mais controle sobre 2:26 tanto o estilo quanto a estrutura da imagem 2:29 bem como uma melhor compreensão e 2:31 representando o que você realmente quer em 2:34 seu texto bem, eles mudam o típico 2:36 arquitetura de difusão de duas maneiras primeiro 2:39 eles codificam o texto usando dois 2:41 abordagens que eu já abordei no 2:43 canal que nos referimos como clipe e T5 2:46 codificadores, isso significa que eles usarão 2:48 modelos pré-treinados para receber texto e 2:50 criar várias incorporações com foco em 2:52 recursos diferentes à medida que são treinados 2:55 e se comportou de maneira diferente e os significados são 2:57 apenas representações maximizando o que o 3:00 frase realmente significa para o 3:01 algoritmo ou a máquina para entender 3:04 em relação à imagem de entrada que eles apenas 3:06 use os embeddings de clipes também 3:08 basicamente codificando a imagem para que o 3:11 modelo pode entendê-lo que você pode 3:13 saiba mais sobre em meus outros vídeos 3:14 abrangendo modelos generativos como eles são 3:16 praticamente tudo construído em clipe isso é 3:19 o que lhes permite ter mais controle 3:21 sobre a saída, bem como processado 3:23 texto e imagens em vez de apenas texto 3:25 a segunda modificação está usando um 3:28 Cascata de modelos de difusão em vez de 3:31 reutilizando o mesmo iterativamente como nós 3:33 geralmente fazem com modelos baseados em difusão 3:35 aqui o uso de modelos treinados para o 3:38 parte específica do processo generativo 3:39 o que significa que cada modelo não precisa 3:42 ser tão geral quanto a difusão regular 3:44 denoiser já que cada modelo tem que se concentrar 3:46 em uma parte específica do processo pode 3:49 ser muito melhor nisso eles usam isso 3:51 abordagem porque observaram que o 3:52 modelos de redução de ruído pareciam usar o texto 3:55 embeddings muito mais para orientar sua 3:57 geração no início do 3:59 processo e, em seguida, usá-lo cada vez menos para 4:02 foco na qualidade de saída e Fidelidade o 4:05 isso naturalmente traz a hipótese 4:07 que reutilizar o mesmo modelo de redução de ruído 4:09 ao longo de todo o processo pode não 4:11 ser o melhor ID, pois automaticamente 4:13 se concentra em diferentes tarefas e sabemos 4:15 que um generalista está longe de ser um especialista 4:18 nível em todas as tarefas, por que não usar alguns 4:20 especialistas em vez de um generalista para obter 4:23 resultados muito melhores, então é isso que eles 4:25 fizeram e por que eles os chamam de denoising 4:28 especialistas e a principal razão para isso 4:30 melhora o desempenho em qualidade e 4:32 fidelidade o resto do 4:34 A arquitetura é bem parecida com outras 4:36 abordagens de dimensionamento dos resultados finais 4:38 com outros modelos para obter uma alta 4:40 definição imagem final a imagem e 4:43 campos de síntese de vídeo estão ficando 4:45 louco hoje em dia e estamos vendo 4:47 resultados impressionantes saindo toda semana 4:49 Estou super ansiosa pelos próximos lançamentos 4:51 e adoro ver abordagens diferentes 4:53 com ambas as formas inovadoras de lidar 4:55 o problema e também indo para diferentes 4:57 casos de uso como uma grande pessoa disse uma vez 5:01 que hora de estar vivo espero que gostem 5:04 esta rápida visão geral da abordagem a 5:06 nível um pouco mais alto do que eu normalmente 5:08 faça o que for preciso a maioria das peças eu já 5:10 coberto em vários vídeos e alterado 5:12 a agirem de forma diferente, convido você a 5:15 assista ao meu vídeo de difusão estável para aprender 5:17 um pouco mais sobre a abordagem de difusão 5:19 em si e leia o papel da nvidia para 5:21 saiba mais sobre essa abordagem específica 5:23 e sua implementação nos vemos 5:26 semana que vem com outro paper incrível 5:32 estrangeiro 5:36 [Música]