Make-A-Scene não é “apenas outro Dalle”. O objetivo deste novo modelo não é permitir que os usuários gerem imagens aleatórias seguindo o prompt de texto como dalle faz — o que é muito legal — mas restringe o controle do usuário sobre as gerações.
Em vez disso, a Meta queria impulsionar a expressão criativa, mesclando essa tendência de texto para imagem com modelos anteriores de esboço para imagem, levando a “Make-A-Scene”: uma mistura fantástica entre texto e geração de imagem condicionada por esboço. Saiba mais no vídeo...
►Leia o artigo completo: https://www.louisbouchard.ai/make-a-scene/
►Postagem do blog de Meta: https://ai.facebook.com/blog/greater-creative-control-for-ai-image-generation
►Papel: Gafni, O., Polyak, A., Ashual, O., Sheynin, S., Parikh, D. e
Taigman, Y., 2022. Make-a-scene: geração de texto para imagem baseada em cena
com antecedentes humanos.
►Meu boletim informativo (um novo aplicativo de IA explicado semanalmente para seus e-mails!): https://www.louisbouchard.ai/newsletter/
0:00
[Música]
0:06
isso é fazer uma cena não é apenas
0:08
mais uma delicatessen o objetivo desse novo modelo
0:11
não é para permitir que os usuários gerem dados aleatórios
0:13
imagens seguindo o prompt de texto como dali
0:15
faz o que é muito legal, mas restringe
0:17
o controle do usuário nas gerações
0:20
em vez disso, a meta queria enviar o criativo
0:22
expressão encaminhar mesclando este texto para
0:25
tendência de imagem com esboço anterior para
0:27
modelos de imagem que levam a fazer de uma cena uma
0:30
mistura fantástica entre texto e esboço
0:32
geração de imagem condicionada simplesmente
0:35
significa que usando esta nova abordagem você
0:37
pode rapidamente esboçar um gato e escrever
0:40
que tipo de imagem você gostaria e
0:42
o processo de geração da imagem seguirá
0:43
tanto o esboço quanto a orientação de seu
0:45
texto nos deixa ainda mais perto de ser
0:48
capaz de gerar o perfeito
0:49
ilustração que queremos em alguns segundos
0:52
você pode ver este generativo multimodal
0:54
método ai como um modelo diário com um pouco
0:57
mais controle sobre as gerações desde
0:59
ele também pode levar em um esboço rápido como
1:01
entrada é por isso que chamamos de multimodal
1:04
uma vez que pode assumir várias modalidades como
1:07
entradas como texto e uma imagem um esboço
1:10
neste caso, em comparação com Deli, que
1:12
leva apenas texto para gerar uma imagem
1:14
modelos multimodais são algo super
1:17
promissor, especialmente se combinarmos o
1:19
qualidade dos resultados que vemos online
1:21
uma vez que temos mais controle sobre o
1:23
resultados se aproximando muito
1:25
objetivo final interessante de gerar o
1:27
imagem perfeita que temos em mente sem
1:30
qualquer habilidade de design é claro que isso é
1:32
ainda no estado de pesquisa e é um
1:34
conceito de pesquisa exploratória ai
1:37
não significa que o que vemos não é
1:38
alcançável, significa apenas que levará um
1:41
um pouco mais de tempo para chegar ao público o
1:43
o progresso é extremamente rápido no campo
1:45
e eu não ficaria surpreso em vê-lo
1:47
viver muito em breve ou um modelo semelhante
1:49
de outras pessoas para brincar eu acredito
1:52
tais esboços e modelos baseados em texto são
1:54
ainda mais interessante especialmente para o
1:56
indústria e é por isso que eu queria cobrir
1:58
no meu canal mesmo que os resultados
2:00
estão um pouco atrás dos diários 2 que vemos
2:03
online e não é apenas interessante para
2:05
a indústria, mas também para os artistas, alguns
2:08
use o recurso de esboço para gerar mesmo
2:10
resultados mais inesperados do que o que delhi
2:13
poderíamos fazer, podemos pedir para gerar
2:14
algo e desenhar uma forma que não
2:17
representam a coisa específica como
2:18
desenhando uma água-viva em forma de flor
2:21
que pode não ser impossível ter com
2:23
dali, mas muito mais complicado sem
2:25
orientação de esboço, pois o modelo só
2:27
reproduzir o que aprende com o qual
2:29
vem de imagens do mundo real e
2:32
ilustrações, então a questão principal é
2:34
como eles podem guiar as gerações com
2:36
entrada de texto como delhi e um esboço
2:39
simultaneamente e fazer com que o modelo siga
2:41
ambas as diretrizes bem, é muito, muito
2:44
semelhante a como Deli funciona, então não vou
2:47
entrar muito nos detalhes de um
2:49
modelo generativo como eu cobri pelo menos
2:51
cinco abordagens diferentes no passado
2:53
dois meses que você definitivamente deveria
2:55
assista se ainda não assistiu como esses modelos
2:57
como dali 2 ou imogen são bastante
2:59
fantástico
3:00
normalmente, esses modelos levarão
3:02
milhões de exemplos de treinamento para aprender
3:04
como gerar imagens a partir de texto com
3:07
dados na forma de imagens e seus
3:09
legendas retiradas da internet aqui
3:12
durante o treinamento em vez de apenas confiar
3:14
na legenda gerando o primeiro
3:17
versão da imagem e comparando-a com
3:19
a imagem real e repetindo isso
3:21
processo inúmeras vezes com todos os nossos
3:23
imagens também iremos alimentá-lo com um esboço
3:26
o que é legal é que os esboços são
3:28
bastante fácil de produzir para treinamento
3:30
simplesmente pegue uma rede pré-treinada que você
3:32
pode baixar online e executar instância
3:35
segmentação para quem quer o
3:37
detalhes eles usam um vgg pré-treinado gratuito
3:40
modelo na imagenet, portanto, um tamanho bem pequeno
3:42
rede em comparação com aqueles hoje super
3:44
resultados precisos e rápidos, como
3:47
isso é chamado de mapa de segmentação que eles
3:49
simplesmente processe todas as suas imagens uma vez e
3:52
obtenha esses mapas para treinar o modelo
3:55
em seguida, use este mapa, bem como a legenda
3:58
para orientar o modelo para gerar o
4:00
imagem inicial no momento da inferência ou quando
4:02
um de nós vai usá-lo, nosso esboço vai
4:05
substitua esses mapas como eu disse que eles usaram um
4:08
modelo chamado vgg para criar esboços falsos
4:11
para treinamento eles usam um transformador
4:13
arquitetura para geração de imagens
4:15
processo que é diferente de dolly para
4:17
e eu convido você a assistir o vídeo que eu
4:19
feito introduzindo transformadores para visão
4:21
aplicativos se você quiser mais detalhes
4:23
sobre como ele pode processar e gerar
4:25
imagens deste transformador guiado por esboço é
4:28
a principal diferença com a revista junto
4:30
sem usar um classificador de texto de imagem como
4:33
clipe para medir pares de texto e imagem
4:36
sobre o qual você também pode aprender no meu
4:37
vídeo diário
4:39
em vez disso, todo o texto codificado e
4:41
mapas de segmentação são enviados para o
4:43
modelo do transformador o modelo então
4:45
gera os tokens de imagem relevantes
4:48
codificado e decodificado pelo correspondente
4:50
redes principalmente para produzir a imagem que o
4:53
codificador é usado durante o treinamento para
4:55
calcule a diferença entre
4:57
imagem produzida e inicial, mas apenas a
4:59
decodificador é necessário para tirar isso
5:01
saída do transformador e transformá-lo em
5:04
uma imagem
5:05
e pronto, é assim que o novo modelo do meta
5:08
é capaz de fazer um esboço e entradas de texto
5:11
e gerar uma imagem de alta definição
5:13
permitindo maior controle sobre o
5:16
resultados com muita qualidade
5:18
e como dizem é só o começo
5:20
deste novo tipo de modelo de IA, o
5:22
abordagens continuarão melhorando tanto
5:24
em termos de qualidade e disponibilidade para
5:27
o público que é super empolgante muitos
5:30
artistas já estão usando o modelo para
5:32
seu próprio trabalho, conforme descrito no meta's
5:34
postagem no blog e estou animado sobre quando nós
5:37
será capaz de usá-lo também seus
5:39
abordagem não requer nenhuma codificação
5:41
conhecimento apenas uma boa mão de desenho e
5:43
alguma engenharia imediata, o que significa
5:45
tentativa e erro com as entradas de texto
5:48
ajustando as formulações e palavras usadas
5:50
produzir resultados diferentes e melhores
5:53
claro que isso foi apenas uma visão geral
5:55
o novo fazer uma abordagem de cena e eu
5:57
convido você a ler o artigo completo link
5:59
abaixo para uma visão geral completa de como
6:02
funciona, espero que você tenha gostado deste vídeo
6:04
e eu vou te ver na próxima semana com
6:06
outro papel incrível
6:09
[Música]