Uma introdução ao eDiffi: o novo modelo de síntese de imagem SOTA da NVIDIA by@whatsai
2,164 leituras

Uma introdução ao eDiffi: o novo modelo de síntese de imagem SOTA da NVIDIA

2022/11/05
5 min
por @whatsai 2,164 leituras
tldt arrow
PT
Read on Terminal Reader

Muito longo; Para ler

eDiffi, o modelo mais recente da NVIDIA, gera imagens de melhor aparência e mais precisas do que todas as abordagens anteriores, como DALLE 2 ou Stable Diffusion. O eDiffi entende melhor o texto que você envia e é mais personalizável, adicionando um recurso que vimos em um artigo anterior da NVIDIA: a ferramenta Painter. Saiba mais no vídeo...
featured image - Uma introdução ao eDiffi: o novo modelo de síntese de imagem SOTA da NVIDIA
Louis Bouchard HackerNoon profile picture

@whatsai

Louis Bouchard

I explain Artificial Intelligence terms and news to non-experts.

Cerca de @whatsai
LEARN MORE ABOUT @WHATSAI'S EXPERTISE AND PLACE ON THE INTERNET.
react to story with heart

eDiffi, o modelo mais recente da NVIDIA, gera imagens de melhor aparência e mais precisas do que todas as abordagens anteriores, como DALLE 2 ou Stable Diffusion. O eDiffi entende melhor o texto que você envia e é mais personalizável, adicionando um recurso que vimos em um artigo anterior da NVIDIA: a ferramenta Painter. Saiba mais no vídeo...

Referências

►Leia o artigo completo: https://www.louisbouchard.ai/ediffi/
► Balaji, Y. et al., 2022, eDiffi: Text-to-Image Diffusion Models with an Ensemble of Expert Denoisers, https://arxiv.org/abs/2211.01324
►Página do projeto: https://deepimagination.cc/eDiffi/
►Meu boletim informativo (um novo aplicativo de IA explicado semanalmente para seus e-mails!): https://www.louisbouchard.ai/newsletter/

Transcrição de vídeo

0:06

a nova abordagem de ponta para

0:08

síntese de imagem que gera melhor

0:10

olhando e imagens mais precisas do que

0:13

todas as abordagens anteriores, como Delhi 2 ou

0:15

difusão estável ou se ele melhor

0:17

entende o texto que você envia e é

0:19

mais personalizável adicionando um novo recurso

0:21

vimos em um artigo anterior da Nvidia

0:23

a ferramenta do pintor como eles veem que você pode

0:26

pintar com palavras em resumo, isso significa você

0:29

pode inserir alguns assuntos e pintar

0:32

a imagem o que deve aparecer aqui e

0:34

permitindo que você crie muito mais

0:36

imagens personalizadas em comparação com um aleatório

0:39

geração seguindo um prompt isso é

0:41

o próximo nível permitindo que você fique bonita

0:43

obter a imagem exata que você tem em

0:45

mente simplesmente desenhando um rápido horrível

0:47

esboce algo que até eu posso fazer como eu

0:50

mencionou os resultados não são apenas Sota

0:52

e mais bonito do que a difusão estável

0:55

mas eles também são muito mais controláveis

0:57

é claro que é um caso de uso diferente, pois

0:59

ele precisa de um pouco mais de trabalho e um mais claro

1:02

ID em mente para criar tal rascunho, mas

1:04

é definitivamente super emocionante e

1:06

interessante é também por isso que eu queria

1:08

cobrir no meu canal já que não é

1:11

apenas um modelo melhor, mas também um

1:13

abordagem diferente com muito mais

1:15

controle sobre a saída da ferramenta não é

1:17

disponível ainda, infelizmente, mas tenho certeza

1:19

espero que seja em breve pelo jeito que você

1:22

definitivamente deveria se inscrever no

1:23

canal e siga-me no Twitter em que

1:25

diga oi se você gosta desse tipo de vídeo

1:27

e gostaria de ter acesso a facilmente

1:30

notícias digeríveis sobre isso fortemente

1:32

campo complicado outra vitória que eles

1:34

permitem que você tenha mais controle neste

1:37

novo modelo é usando o mesmo recurso

1:39

vimos, mas de forma diferente, de fato, o modelo

1:42

gera imagens Guiado por uma frase

1:44

mas também pode ser influenciado usando um

1:47

esboço rápido, então basicamente leva um

1:49

imagem e um texto como entradas isso significa

1:52

você pode fazer outras coisas como ele entende

1:54

imagens aqui eles aproveitam isso

1:56

capacidade desenvolvendo um estilo

1:58

abordagem de transferência onde você pode

2:00

influenciar o estilo da imagem

2:02

processo de geração dando uma imagem com

2:04

um estilo particular bem junto com o seu

2:06

entrada de texto isso é super legal e apenas

2:09

veja os resultados que eles falam

2:11

eles mesmos é incrível vencer ambos

2:14

Modelos e imagem de transferência de estilo Sota

2:16

modelos de síntese com uma única abordagem

2:18

agora a questão é como a Nvidia poderia

2:22

desenvolver um modelo que crie melhores

2:23

olhar imagens permite mais controle sobre

2:26

tanto o estilo quanto a estrutura da imagem

2:29

bem como uma melhor compreensão e

2:31

representando o que você realmente quer em

2:34

seu texto bem, eles mudam o típico

2:36

arquitetura de difusão de duas maneiras primeiro

2:39

eles codificam o texto usando dois

2:41

abordagens que eu já abordei no

2:43

canal que nos referimos como clipe e T5

2:46

codificadores, isso significa que eles usarão

2:48

modelos pré-treinados para receber texto e

2:50

criar várias incorporações com foco em

2:52

recursos diferentes à medida que são treinados

2:55

e se comportou de maneira diferente e os significados são

2:57

apenas representações maximizando o que o

3:00

frase realmente significa para o

3:01

algoritmo ou a máquina para entender

3:04

em relação à imagem de entrada que eles apenas

3:06

use os embeddings de clipes também

3:08

basicamente codificando a imagem para que o

3:11

modelo pode entendê-lo que você pode

3:13

saiba mais sobre em meus outros vídeos

3:14

abrangendo modelos generativos como eles são

3:16

praticamente tudo construído em clipe isso é

3:19

o que lhes permite ter mais controle

3:21

sobre a saída, bem como processado

3:23

texto e imagens em vez de apenas texto

3:25

a segunda modificação está usando um

3:28

Cascata de modelos de difusão em vez de

3:31

reutilizando o mesmo iterativamente como nós

3:33

geralmente fazem com modelos baseados em difusão

3:35

aqui o uso de modelos treinados para o

3:38

parte específica do processo generativo

3:39

o que significa que cada modelo não precisa

3:42

ser tão geral quanto a difusão regular

3:44

denoiser já que cada modelo tem que se concentrar

3:46

em uma parte específica do processo pode

3:49

ser muito melhor nisso eles usam isso

3:51

abordagem porque observaram que o

3:52

modelos de redução de ruído pareciam usar o texto

3:55

embeddings muito mais para orientar sua

3:57

geração no início do

3:59

processo e, em seguida, usá-lo cada vez menos para

4:02

foco na qualidade de saída e Fidelidade o

4:05

isso naturalmente traz a hipótese

4:07

que reutilizar o mesmo modelo de redução de ruído

4:09

ao longo de todo o processo pode não

4:11

ser o melhor ID, pois automaticamente

4:13

se concentra em diferentes tarefas e sabemos

4:15

que um generalista está longe de ser um especialista

4:18

nível em todas as tarefas, por que não usar alguns

4:20

especialistas em vez de um generalista para obter

4:23

resultados muito melhores, então é isso que eles

4:25

fizeram e por que eles os chamam de denoising

4:28

especialistas e a principal razão para isso

4:30

melhora o desempenho em qualidade e

4:32

fidelidade o resto do

4:34

A arquitetura é bem parecida com outras

4:36

abordagens de dimensionamento dos resultados finais

4:38

com outros modelos para obter uma alta

4:40

definição imagem final a imagem e

4:43

campos de síntese de vídeo estão ficando

4:45

louco hoje em dia e estamos vendo

4:47

resultados impressionantes saindo toda semana

4:49

Estou super ansiosa pelos próximos lançamentos

4:51

e adoro ver abordagens diferentes

4:53

com ambas as formas inovadoras de lidar

4:55

o problema e também indo para diferentes

4:57

casos de uso como uma grande pessoa disse uma vez

5:01

que hora de estar vivo espero que gostem

5:04

esta rápida visão geral da abordagem a

5:06

nível um pouco mais alto do que eu normalmente

5:08

faça o que for preciso a maioria das peças eu já

5:10

coberto em vários vídeos e alterado

5:12

a agirem de forma diferente, convido você a

5:15

assista ao meu vídeo de difusão estável para aprender

5:17

um pouco mais sobre a abordagem de difusão

5:19

em si e leia o papel da nvidia para

5:21

saiba mais sobre essa abordagem específica

5:23

e sua implementação nos vemos

5:26

semana que vem com outro paper incrível

5:32

estrangeiro

5:36

[Música]

HISTÓRIAS RELACIONADAS

L O A D I N G
. . . comments & more!
Hackernoon hq - po box 2206, edwards, colorado 81632, usa