paint-brush
O novo modelo de imagem do Google Brain é ainda mais impressionante que o Dall-E 2por@whatsai
3,159 leituras
3,159 leituras

O novo modelo de imagem do Google Brain é ainda mais impressionante que o Dall-E 2

por Louis Bouchard4m2022/05/24
Read on Terminal Reader
Read this story w/o Javascript

Muito longo; Para ler

Se você achou que o Dall-e 2 teve ótimos resultados, espere até ver o que esse novo modelo do Google Brain pode fazer. Dalle-e é incrível, mas geralmente carece de realismo, e foi isso que a equipe atacou com um novo modelo chamado Imagen. O Imagen pode não apenas entender o texto, mas também as imagens, mas também as imagens que gera. Saiba mais no vídeo...  Leia o artigo completo: https://www.louisbouchard.ai/Google-brain-imagen/

Companies Mentioned

Mention Thumbnail
Mention Thumbnail
featured image - O novo modelo de imagem do Google Brain é ainda mais impressionante que o Dall-E 2
Louis Bouchard HackerNoon profile picture

Se você achou que o teve ótimos resultados, espere até ver o que esse novo modelo do Google Brain pode fazer.

Dalle-e é incrível, mas muitas vezes carece de realismo, e foi isso que a equipe atacou com este novo modelo chamado Imagen.

Eles compartilham muitos resultados em sua página de projeto, bem como uma referência, que introduziram para comparar modelos de texto para imagem, onde superam claramente o e as abordagens de geração de imagem anteriores. Saiba mais no vídeo...

Referências

►Leia o artigo completo: https://www.louisbouchard.ai/google-brain-imagen/
►Paper: Saharia et al., 2022, Imagen - Google Brain, https://gweb-research-imagen.appspot.com/paper.pdf
►Link do projeto: https://gweb-research-imagen.appspot.com/
►Meu boletim informativo (um novo aplicativo de IA explicado semanalmente para seus e-mails!): https://www.louisbouchard.ai/newsletter/

Transcrição do vídeo

0:00

se você pensou que dali 2 teve ótimos resultados

0:02

espere até ver o que esse novo modelo

0:04

do google brain can do delhi é

0:07

incrível, mas muitas vezes carece de realismo e isso

0:10

é o que a equipe atacou com este novo

0:12

modelo chamado imogen eles compartilham um monte de

0:14

resultados na página do projeto, bem como

0:16

um benchmark que eles introduziram para

0:18

comparando texto com modelos de imagem onde

0:20

eles claramente superaram diariamente2 e

0:23

abordagens anteriores de geração de imagens

0:25

esse benchmark também é super legal porque nós

0:27

veja mais e mais modelos de texto para imagem

0:29

e é muito difícil comparar o

0:31

resultados, a menos que assumamos que os resultados são

0:34

muito ruim, o que costumamos fazer, mas isso

0:36

model e le2 definitivamente desafiaram as probabilidades

0:40

tldr é um novo modelo de texto para imagem que

0:43

você pode comparar com dali com mais

0:45

realismo de acordo com os testadores humanos, então apenas

0:48

como dali que eu cobri nem um

0:50

mês atrás, este modelo leva textos como um

0:53

cachorro golden retriever vestindo um azul

0:56

presilha xadrez e um vermelho pontilhado

0:58

gola alta e tenta gerar um

1:00

imagem fotorrealista deste estranho

1:02

frase o ponto principal aqui é que

1:05

imogen não só pode entender o texto, mas

1:08

ele também pode entender as imagens que

1:10

gera, pois são mais realistas

1:12

do que todas as abordagens anteriores, é claro

1:15

quando digo entender, quero dizer o seu próprio

1:17

tipo de compreensão que é realmente

1:20

diferente do nosso o modal não

1:22

realmente entender o texto ou a imagem

1:24

ele gera definitivamente tem algum tipo

1:27

de conhecimento sobre isso, mas principalmente

1:28

entende como esse tipo particular de

1:31

sentença com esses objetos deve ser

1:33

representado usando pixels em uma imagem, mas

1:36

eu vou admitir que com certeza parece que sim

1:38

entende o que enviamos quando vemos

1:41

esses resultados, obviamente, você pode enganá-lo

1:43

com algumas frases muito estranhas que

1:45

não poderia parecer realista como este

1:48

mas às vezes supera até o seu próprio

1:50

imaginação e apenas cria algo

1:53

incrível ainda o que é ainda mais incrível

1:56

é assim que funciona usando algo que eu nunca

1:58

discutido no canal uma difusão

2:00

modelo, mas antes de usar esta difusão

2:03

modelo, primeiro precisamos entender o

2:05

entrada de texto e esta também é a principal

2:07

diferença com dali eles usaram um enorme

2:10

modelo de texto semelhante ao gpt3 para entender

2:13

o texto da melhor forma que um sistema de inteligência artificial pode

2:16

em vez de treinar um modelo de texto junto

2:18

com o modelo de geração de imagem que eles

2:21

basta usar um grande modelo pré-treinado e

2:23

Congele-o para que não mude

2:25

durante o treinamento da imagem

2:27

modelo de geração de seu estudo este

2:30

levou a resultados muito melhores e parecia

2:32

como o modelo entendeu o texto melhor então

2:35

este módulo de texto é como o modelo

2:37

entende o texto e essa compreensão

2:40

é representado no que chamamos de codificações

2:42

que é o que o modelo foi treinado

2:44

fazer em grandes conjuntos de dados para transferir texto

2:47

entradas em um espaço de informações que

2:50

ele pode usar e entender

2:52

agora precisamos usar este texto de transformação

2:54

dados para gerar a imagem e como eu disse

2:57

eles usaram um modelo de difusão para alcançar

3:00

isso mas o que é um modelo de difusão

3:02

modelos de difusão são modelos generativos

3:04

que convertem ruído gaussiano aleatório como

3:07

isso em imagens aprendendo a

3:10

ruído gaussiano reverso iterativamente eles

3:13

são modelos poderosos para super resolução

3:15

ou outras traduções de imagem para imagem e

3:18

neste caso, use uma unidade modificada

3:20

arquitetura que eu cobri numerosos

3:22

vezes em vídeos anteriores, então não vou

3:24

entrar nos detalhes arquitetônicos

3:26

aqui basicamente o modelo é treinado para

3:29

denoise uma imagem de ruído puro que

3:31

o oriente usando as codificações de texto e

3:34

uma técnica chamada classificador livre

3:36

orientação que dizem ser essencial e

3:38

explicado claramente em seu papel eu vou

3:40

deixá-lo lê-lo para obter mais informações sobre

3:42

esta técnica, agora temos um modelo

3:45

capaz de tomar ruído gaussiano aleatório e

3:47

nossa codificação de texto e reduza o ruído com

3:49

orientação das codificações de texto para

3:51

gerar nossa imagem, mas como você vê aqui

3:54

não é tão simples quanto parece

3:56

a imagem que acabamos de gerar é muito pequena

3:58

imagem, pois uma imagem maior exigirá

4:00

muito mais computação e muito maior

4:02

modelo que não são viáveis, em vez disso,

4:05

primeiro gere uma imagem fotorrealista

4:07

usando o modelo de difusão que acabamos de

4:09

discutido e, em seguida, usar outra difusão

4:12

modelos para melhorar a qualidade do

4:14

imagem iterativamente eu já cobri

4:16

modelos de super resolução em vídeos anteriores

4:19

então não vou entrar em detalhes aqui

4:21

mas vamos fazer uma visão geral mais uma vez

4:24

queremos ruído e não imagem

4:26

então nós encobrimos isso inicialmente gerado

4:28

imagem de baixa resolução com novamente alguns

4:31

ruído gaussiano e treinamos nosso segundo

4:33

modelo de difusão para levar este modificado

4:35

imagem e melhorá-la, então repetimos

4:38

essas duas etapas com outro modelo mas

4:40

desta vez usando apenas patches do

4:43

imagem em vez da imagem completa para fazer

4:45

a mesma taxa de upscaling e permanecer

4:47

computacionalmente viável e pronto, terminamos

4:51

com nossa alta fotorrealista

4:53

imagem de resolução

4:55

claro que isso foi apenas uma visão geral

4:56

este novo modelo emocionante com muito legal

4:59

resultados eu definitivamente convido você a ler

5:01

seu grande papel para um profundo

5:03

compreensão de sua abordagem e uma

5:05

análise detalhada dos resultados

5:07

e você acha que os resultados são

5:09

comparável a delhi também são melhores

5:12

ou pior, com certeza acho que é o principal do Dally

5:15

concorrente a partir de agora deixe-me saber o que

5:17

você pensa neste novo cérebro do google

5:19

publicação e a explicação espero

5:21

você gostou deste vídeo e se gostou

5:24

por favor, tire um segundo para deixar um like e

5:26

inscreva-se para ficar atualizado com

5:27

notícias emocionantes sobre ai se você se inscreveu i

5:30

Vejo você na próxima semana com outro

papel incrível