Make-A-Scene não é “apenas outro Dalle”. O objetivo deste novo modelo não é permitir que os usuários gerem imagens aleatórias seguindo o prompt de texto como dalle faz — o que é muito legal — mas restringe o controle do usuário sobre as gerações. Em vez disso, a Meta queria impulsionar a expressão criativa, mesclando essa tendência de texto para imagem com modelos anteriores de esboço para imagem, levando a “Make-A-Scene”: uma mistura fantástica entre texto e geração de imagem condicionada por esboço. Saiba mais no vídeo... Referências ►Leia o artigo completo: ►Postagem do blog de Meta: ►Papel: Gafni, O., Polyak, A., Ashual, O., Sheynin, S., Parikh, D. e Taigman, Y., 2022. Make-a-scene: geração de texto para imagem baseada em cena com antecedentes humanos. ►Meu boletim informativo (um novo aplicativo de IA explicado semanalmente para seus e-mails!): https://www.louisbouchard.ai/make-a-scene/ https://ai.facebook.com/blog/greater-creative-control-for-ai-image-generation https://www.louisbouchard.ai/newsletter/ Transcrição de vídeo 0:00 [Música] 0:06 isso é fazer uma cena não é apenas 0:08 mais uma delicatessen o objetivo desse novo modelo 0:11 não é para permitir que os usuários gerem dados aleatórios 0:13 imagens seguindo o prompt de texto como dali 0:15 faz o que é muito legal, mas restringe 0:17 o controle do usuário nas gerações 0:20 em vez disso, a meta queria enviar o criativo 0:22 expressão encaminhar mesclando este texto para 0:25 tendência de imagem com esboço anterior para 0:27 modelos de imagem que levam a fazer de uma cena uma 0:30 mistura fantástica entre texto e esboço 0:32 geração de imagem condicionada simplesmente 0:35 significa que usando esta nova abordagem você 0:37 pode rapidamente esboçar um gato e escrever 0:40 que tipo de imagem você gostaria e 0:42 o processo de geração da imagem seguirá 0:43 tanto o esboço quanto a orientação de seu 0:45 texto nos deixa ainda mais perto de ser 0:48 capaz de gerar o perfeito 0:49 ilustração que queremos em alguns segundos 0:52 você pode ver este generativo multimodal 0:54 método ai como um modelo diário com um pouco 0:57 mais controle sobre as gerações desde 0:59 ele também pode levar em um esboço rápido como 1:01 entrada é por isso que chamamos de multimodal 1:04 uma vez que pode assumir várias modalidades como 1:07 entradas como texto e uma imagem um esboço 1:10 neste caso, em comparação com Deli, que 1:12 leva apenas texto para gerar uma imagem 1:14 modelos multimodais são algo super 1:17 promissor, especialmente se combinarmos o 1:19 qualidade dos resultados que vemos online 1:21 uma vez que temos mais controle sobre o 1:23 resultados se aproximando muito 1:25 objetivo final interessante de gerar o 1:27 imagem perfeita que temos em mente sem 1:30 qualquer habilidade de design é claro que isso é 1:32 ainda no estado de pesquisa e é um 1:34 conceito de pesquisa exploratória ai 1:37 não significa que o que vemos não é 1:38 alcançável, significa apenas que levará um 1:41 um pouco mais de tempo para chegar ao público o 1:43 o progresso é extremamente rápido no campo 1:45 e eu não ficaria surpreso em vê-lo 1:47 viver muito em breve ou um modelo semelhante 1:49 de outras pessoas para brincar eu acredito 1:52 tais esboços e modelos baseados em texto são 1:54 ainda mais interessante especialmente para o 1:56 indústria e é por isso que eu queria cobrir 1:58 no meu canal mesmo que os resultados 2:00 estão um pouco atrás dos diários 2 que vemos 2:03 online e não é apenas interessante para 2:05 a indústria, mas também para os artistas, alguns 2:08 use o recurso de esboço para gerar mesmo 2:10 resultados mais inesperados do que o que delhi 2:13 poderíamos fazer, podemos pedir para gerar 2:14 algo e desenhar uma forma que não 2:17 representam a coisa específica como 2:18 desenhando uma água-viva em forma de flor 2:21 que pode não ser impossível ter com 2:23 dali, mas muito mais complicado sem 2:25 orientação de esboço, pois o modelo só 2:27 reproduzir o que aprende com o qual 2:29 vem de imagens do mundo real e 2:32 ilustrações, então a questão principal é 2:34 como eles podem guiar as gerações com 2:36 entrada de texto como delhi e um esboço 2:39 simultaneamente e fazer com que o modelo siga 2:41 ambas as diretrizes bem, é muito, muito 2:44 semelhante a como Deli funciona, então não vou 2:47 entrar muito nos detalhes de um 2:49 modelo generativo como eu cobri pelo menos 2:51 cinco abordagens diferentes no passado 2:53 dois meses que você definitivamente deveria 2:55 assista se ainda não assistiu como esses modelos 2:57 como dali 2 ou imogen são bastante 2:59 fantástico 3:00 normalmente, esses modelos levarão 3:02 milhões de exemplos de treinamento para aprender 3:04 como gerar imagens a partir de texto com 3:07 dados na forma de imagens e seus 3:09 legendas retiradas da internet aqui 3:12 durante o treinamento em vez de apenas confiar 3:14 na legenda gerando o primeiro 3:17 versão da imagem e comparando-a com 3:19 a imagem real e repetindo isso 3:21 processo inúmeras vezes com todos os nossos 3:23 imagens também iremos alimentá-lo com um esboço 3:26 o que é legal é que os esboços são 3:28 bastante fácil de produzir para treinamento 3:30 simplesmente pegue uma rede pré-treinada que você 3:32 pode baixar online e executar instância 3:35 segmentação para quem quer o 3:37 detalhes eles usam um vgg pré-treinado gratuito 3:40 modelo na imagenet, portanto, um tamanho bem pequeno 3:42 rede em comparação com aqueles hoje super 3:44 resultados precisos e rápidos, como 3:47 isso é chamado de mapa de segmentação que eles 3:49 simplesmente processe todas as suas imagens uma vez e 3:52 obtenha esses mapas para treinar o modelo 3:55 em seguida, use este mapa, bem como a legenda 3:58 para orientar o modelo para gerar o 4:00 imagem inicial no momento da inferência ou quando 4:02 um de nós vai usá-lo, nosso esboço vai 4:05 substitua esses mapas como eu disse que eles usaram um 4:08 modelo chamado vgg para criar esboços falsos 4:11 para treinamento eles usam um transformador 4:13 arquitetura para geração de imagens 4:15 processo que é diferente de dolly para 4:17 e eu convido você a assistir o vídeo que eu 4:19 feito introduzindo transformadores para visão 4:21 aplicativos se você quiser mais detalhes 4:23 sobre como ele pode processar e gerar 4:25 imagens deste transformador guiado por esboço é 4:28 a principal diferença com a revista junto 4:30 sem usar um classificador de texto de imagem como 4:33 clipe para medir pares de texto e imagem 4:36 sobre o qual você também pode aprender no meu 4:37 vídeo diário 4:39 em vez disso, todo o texto codificado e 4:41 mapas de segmentação são enviados para o 4:43 modelo do transformador o modelo então 4:45 gera os tokens de imagem relevantes 4:48 codificado e decodificado pelo correspondente 4:50 redes principalmente para produzir a imagem que o 4:53 codificador é usado durante o treinamento para 4:55 calcule a diferença entre 4:57 imagem produzida e inicial, mas apenas a 4:59 decodificador é necessário para tirar isso 5:01 saída do transformador e transformá-lo em 5:04 uma imagem 5:05 e pronto, é assim que o novo modelo do meta 5:08 é capaz de fazer um esboço e entradas de texto 5:11 e gerar uma imagem de alta definição 5:13 permitindo maior controle sobre o 5:16 resultados com muita qualidade 5:18 e como dizem é só o começo 5:20 deste novo tipo de modelo de IA, o 5:22 abordagens continuarão melhorando tanto 5:24 em termos de qualidade e disponibilidade para 5:27 o público que é super empolgante muitos 5:30 artistas já estão usando o modelo para 5:32 seu próprio trabalho, conforme descrito no meta's 5:34 postagem no blog e estou animado sobre quando nós 5:37 será capaz de usá-lo também seus 5:39 abordagem não requer nenhuma codificação 5:41 conhecimento apenas uma boa mão de desenho e 5:43 alguma engenharia imediata, o que significa 5:45 tentativa e erro com as entradas de texto 5:48 ajustando as formulações e palavras usadas 5:50 produzir resultados diferentes e melhores 5:53 claro que isso foi apenas uma visão geral 5:55 o novo fazer uma abordagem de cena e eu 5:57 convido você a ler o artigo completo link 5:59 abaixo para uma visão geral completa de como 6:02 funciona, espero que você tenha gostado deste vídeo 6:04 e eu vou te ver na próxima semana com 6:06 outro papel incrível 6:09 [Música]