Make-A-Scene da Meta AI gera arte com texto e esboços by@whatsai
2,141 leituras

Make-A-Scene da Meta AI gera arte com texto e esboços

2022/07/20
6 min
por @whatsai 2,141 leituras
tldt arrow
PT
Read on Terminal Reader

Muito longo; Para ler

O objetivo deste novo modelo não é permitir que os usuários gerem imagens aleatórias seguindo o prompt de texto como dalle faz. Em vez disso, a Meta queria impulsionar a expressão criativa, mesclando essa tendência de texto para imagem com modelos anteriores de esboço para imagem, levando a “Make-A-Scene”: uma mistura fantástica entre texto e geração de imagem condicionada por esboço. Saiba mais no vídeo...  ‘Make-a-Scene não é ‘apenas mais um Dalle’ – mas restringe o controle do usuário nas gerações.

Companies Mentioned

Mention Thumbnail
Mention Thumbnail
featured image - Make-A-Scene da Meta AI gera arte com texto e esboços
Louis Bouchard HackerNoon profile picture

@whatsai

Louis Bouchard

I explain Artificial Intelligence terms and news to non-experts.

Cerca de @whatsai
LEARN MORE ABOUT @WHATSAI'S EXPERTISE AND PLACE ON THE INTERNET.
react to story with heart

Make-A-Scene não é “apenas outro Dalle”. O objetivo deste novo modelo não é permitir que os usuários gerem imagens aleatórias seguindo o prompt de texto como dalle faz — o que é muito legal — mas restringe o controle do usuário sobre as gerações.

Em vez disso, a Meta queria impulsionar a expressão criativa, mesclando essa tendência de texto para imagem com modelos anteriores de esboço para imagem, levando a “Make-A-Scene”: uma mistura fantástica entre texto e geração de imagem condicionada por esboço. Saiba mais no vídeo...

Referências

►Leia o artigo completo: https://www.louisbouchard.ai/make-a-scene/
►Postagem do blog de Meta: https://ai.facebook.com/blog/greater-creative-control-for-ai-image-generation
►Papel: Gafni, O., Polyak, A., Ashual, O., Sheynin, S., Parikh, D. e
Taigman, Y., 2022. Make-a-scene: geração de texto para imagem baseada em cena
com antecedentes humanos.
►Meu boletim informativo (um novo aplicativo de IA explicado semanalmente para seus e-mails!): https://www.louisbouchard.ai/newsletter/

Transcrição de vídeo

0:00

[Música]

0:06

isso é fazer uma cena não é apenas

0:08

mais uma delicatessen o objetivo desse novo modelo

0:11

não é para permitir que os usuários gerem dados aleatórios

0:13

imagens seguindo o prompt de texto como dali

0:15

faz o que é muito legal, mas restringe

0:17

o controle do usuário nas gerações

0:20

em vez disso, a meta queria enviar o criativo

0:22

expressão encaminhar mesclando este texto para

0:25

tendência de imagem com esboço anterior para

0:27

modelos de imagem que levam a fazer de uma cena uma

0:30

mistura fantástica entre texto e esboço

0:32

geração de imagem condicionada simplesmente

0:35

significa que usando esta nova abordagem você

0:37

pode rapidamente esboçar um gato e escrever

0:40

que tipo de imagem você gostaria e

0:42

o processo de geração da imagem seguirá

0:43

tanto o esboço quanto a orientação de seu

0:45

texto nos deixa ainda mais perto de ser

0:48

capaz de gerar o perfeito

0:49

ilustração que queremos em alguns segundos

0:52

você pode ver este generativo multimodal

0:54

método ai como um modelo diário com um pouco

0:57

mais controle sobre as gerações desde

0:59

ele também pode levar em um esboço rápido como

1:01

entrada é por isso que chamamos de multimodal

1:04

uma vez que pode assumir várias modalidades como

1:07

entradas como texto e uma imagem um esboço

1:10

neste caso, em comparação com Deli, que

1:12

leva apenas texto para gerar uma imagem

1:14

modelos multimodais são algo super

1:17

promissor, especialmente se combinarmos o

1:19

qualidade dos resultados que vemos online

1:21

uma vez que temos mais controle sobre o

1:23

resultados se aproximando muito

1:25

objetivo final interessante de gerar o

1:27

imagem perfeita que temos em mente sem

1:30

qualquer habilidade de design é claro que isso é

1:32

ainda no estado de pesquisa e é um

1:34

conceito de pesquisa exploratória ai

1:37

não significa que o que vemos não é

1:38

alcançável, significa apenas que levará um

1:41

um pouco mais de tempo para chegar ao público o

1:43

o progresso é extremamente rápido no campo

1:45

e eu não ficaria surpreso em vê-lo

1:47

viver muito em breve ou um modelo semelhante

1:49

de outras pessoas para brincar eu acredito

1:52

tais esboços e modelos baseados em texto são

1:54

ainda mais interessante especialmente para o

1:56

indústria e é por isso que eu queria cobrir

1:58

no meu canal mesmo que os resultados

2:00

estão um pouco atrás dos diários 2 que vemos

2:03

online e não é apenas interessante para

2:05

a indústria, mas também para os artistas, alguns

2:08

use o recurso de esboço para gerar mesmo

2:10

resultados mais inesperados do que o que delhi

2:13

poderíamos fazer, podemos pedir para gerar

2:14

algo e desenhar uma forma que não

2:17

representam a coisa específica como

2:18

desenhando uma água-viva em forma de flor

2:21

que pode não ser impossível ter com

2:23

dali, mas muito mais complicado sem

2:25

orientação de esboço, pois o modelo só

2:27

reproduzir o que aprende com o qual

2:29

vem de imagens do mundo real e

2:32

ilustrações, então a questão principal é

2:34

como eles podem guiar as gerações com

2:36

entrada de texto como delhi e um esboço

2:39

simultaneamente e fazer com que o modelo siga

2:41

ambas as diretrizes bem, é muito, muito

2:44

semelhante a como Deli funciona, então não vou

2:47

entrar muito nos detalhes de um

2:49

modelo generativo como eu cobri pelo menos

2:51

cinco abordagens diferentes no passado

2:53

dois meses que você definitivamente deveria

2:55

assista se ainda não assistiu como esses modelos

2:57

como dali 2 ou imogen são bastante

2:59

fantástico

3:00

normalmente, esses modelos levarão

3:02

milhões de exemplos de treinamento para aprender

3:04

como gerar imagens a partir de texto com

3:07

dados na forma de imagens e seus

3:09

legendas retiradas da internet aqui

3:12

durante o treinamento em vez de apenas confiar

3:14

na legenda gerando o primeiro

3:17

versão da imagem e comparando-a com

3:19

a imagem real e repetindo isso

3:21

processo inúmeras vezes com todos os nossos

3:23

imagens também iremos alimentá-lo com um esboço

3:26

o que é legal é que os esboços são

3:28

bastante fácil de produzir para treinamento

3:30

simplesmente pegue uma rede pré-treinada que você

3:32

pode baixar online e executar instância

3:35

segmentação para quem quer o

3:37

detalhes eles usam um vgg pré-treinado gratuito

3:40

modelo na imagenet, portanto, um tamanho bem pequeno

3:42

rede em comparação com aqueles hoje super

3:44

resultados precisos e rápidos, como

3:47

isso é chamado de mapa de segmentação que eles

3:49

simplesmente processe todas as suas imagens uma vez e

3:52

obtenha esses mapas para treinar o modelo

3:55

em seguida, use este mapa, bem como a legenda

3:58

para orientar o modelo para gerar o

4:00

imagem inicial no momento da inferência ou quando

4:02

um de nós vai usá-lo, nosso esboço vai

4:05

substitua esses mapas como eu disse que eles usaram um

4:08

modelo chamado vgg para criar esboços falsos

4:11

para treinamento eles usam um transformador

4:13

arquitetura para geração de imagens

4:15

processo que é diferente de dolly para

4:17

e eu convido você a assistir o vídeo que eu

4:19

feito introduzindo transformadores para visão

4:21

aplicativos se você quiser mais detalhes

4:23

sobre como ele pode processar e gerar

4:25

imagens deste transformador guiado por esboço é

4:28

a principal diferença com a revista junto

4:30

sem usar um classificador de texto de imagem como

4:33

clipe para medir pares de texto e imagem

4:36

sobre o qual você também pode aprender no meu

4:37

vídeo diário

4:39

em vez disso, todo o texto codificado e

4:41

mapas de segmentação são enviados para o

4:43

modelo do transformador o modelo então

4:45

gera os tokens de imagem relevantes

4:48

codificado e decodificado pelo correspondente

4:50

redes principalmente para produzir a imagem que o

4:53

codificador é usado durante o treinamento para

4:55

calcule a diferença entre

4:57

imagem produzida e inicial, mas apenas a

4:59

decodificador é necessário para tirar isso

5:01

saída do transformador e transformá-lo em

5:04

uma imagem

5:05

e pronto, é assim que o novo modelo do meta

5:08

é capaz de fazer um esboço e entradas de texto

5:11

e gerar uma imagem de alta definição

5:13

permitindo maior controle sobre o

5:16

resultados com muita qualidade

5:18

e como dizem é só o começo

5:20

deste novo tipo de modelo de IA, o

5:22

abordagens continuarão melhorando tanto

5:24

em termos de qualidade e disponibilidade para

5:27

o público que é super empolgante muitos

5:30

artistas já estão usando o modelo para

5:32

seu próprio trabalho, conforme descrito no meta's

5:34

postagem no blog e estou animado sobre quando nós

5:37

será capaz de usá-lo também seus

5:39

abordagem não requer nenhuma codificação

5:41

conhecimento apenas uma boa mão de desenho e

5:43

alguma engenharia imediata, o que significa

5:45

tentativa e erro com as entradas de texto

5:48

ajustando as formulações e palavras usadas

5:50

produzir resultados diferentes e melhores

5:53

claro que isso foi apenas uma visão geral

5:55

o novo fazer uma abordagem de cena e eu

5:57

convido você a ler o artigo completo link

5:59

abaixo para uma visão geral completa de como

6:02

funciona, espero que você tenha gostado deste vídeo

6:04

e eu vou te ver na próxima semana com

6:06

outro papel incrível

6:09

[Música]



HISTÓRIAS RELACIONADAS

L O A D I N G
. . . comments & more!
Hackernoon hq - po box 2206, edwards, colorado 81632, usa