paint-brush
O que são modelos de difusão latente? A arquitetura por trás da difusão estávelpor@whatsai
11,809 leituras
11,809 leituras

O que são modelos de difusão latente? A arquitetura por trás da difusão estável

por Louis Bouchard6m2022/08/29
Read on Terminal Reader
Read this story w/o Javascript

Muito longo; Para ler

O que todos os modelos de imagem superpoderosos recentes como DALLE, Imagen ou Midjourney têm em comum? Além de seus altos custos de computação, enorme tempo de treinamento e hype compartilhado, todos eles são baseados no mesmo mecanismo: difusão. Os modelos de difusão alcançaram recentemente resultados de ponta para a maioria das tarefas de imagem, incluindo conversão de texto em imagem com DALLE, mas também muitas outras tarefas relacionadas à geração de imagem, como pintura interna de imagem, transferência de estilo ou super-resolução de imagem. Mas como eles funcionam? Saiba mais no vídeo...

Companies Mentioned

Mention Thumbnail
Mention Thumbnail
featured image - O que são modelos de difusão latente? A arquitetura por trás da difusão estável
Louis Bouchard HackerNoon profile picture

O que todos os modelos de imagem superpoderosos recentes como DALLE , Imagen ou Midjourney têm em comum? Além de seus altos custos de computação, enorme tempo de treinamento e hype compartilhado, todos eles são baseados no mesmo mecanismo: difusão.

Os modelos de difusão alcançaram recentemente resultados de ponta para a maioria das tarefas de imagem, incluindo conversão de texto em imagem com DALLE, mas também muitas outras tarefas relacionadas à geração de imagem, como pintura interna de imagem, transferência de estilo ou super-resolução de imagem. Mas como eles funcionam? Saiba mais no vídeo...

Referências

►Leia o artigo completo: https://www.louisbouchard.ai/latent-diffusion-models/
►Rombach, R., Blattmann, A., Lorenz, D., Esser, P. e Ommer, B., 2022.
Síntese de imagens de alta resolução com modelos de difusão latente. Dentro
Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern
Reconhecimento (pp. 10684–10695), https://arxiv.org/pdf/2112.10752.pdf
►Código de difusão latente: https://github.com/CompVis/latent-diffusion
►Código de difusão estável (texto para imagem baseado em LD): https://github.com/CompVis/stable-diffusion
►Experimente você mesmo: https://huggingface.co/spaces/stabilityai/stable-diffusion
►Aplicativo web:
https://stabilityai.us.auth0.com/u/login?state=hKFo2SA4MFJLR1M4cVhJcllLVmlsSV9vcXNYYy11Q25rRkVzZaFur3VuaXZlcnNhbC1sb2dpbqN0aWTZIFRjV2p5dHkzNGQzdkFKZUdyUEprRnhGeFl6ZVdVUDRZo2NpZNkgS3ZZWkpLU2htVW9PalhwY2xRbEtZVXh1Y0FWZXNsSE4
►Meu boletim informativo (um novo aplicativo de IA explicado semanalmente para seus e-mails!): https://www.louisbouchard.ai/newsletter/

Transcrição de vídeo

0:00

o que todas as imagens super poderosas recentes

0:02

modelos como delhi imagine ou mid journey

0:05

têm em comum além da alta computação

0:08

custou muito tempo de treinamento e entusiasmo compartilhado

0:10

todos eles são baseados no mesmo mecanismo

0:13

difusão dos modelos de fusão recentemente

0:15

alcançou resultados de ponta para

0:17

a maioria das tarefas de imagem, incluindo texto para imagem

0:19

com delhi, mas muitas outras imagens

0:21

tarefas relacionadas à geração, como imagem e

0:23

transferência de estilo de pintura ou imagem super

0:25

resolução embora existam alguns

0:27

desvantagens eles trabalham sequencialmente no

0:30

imagem inteira, o que significa que tanto o

0:31

tempos de treinamento e inferência são super

0:34

caro é por isso que você precisa de centenas

0:36

de gpus para treinar tal modelo e por que

0:38

você espera alguns minutos para obter o seu

0:40

resultados, não é nenhuma surpresa que apenas o

0:42

maiores empresas como google ou openai

0:45

estão lançando esses modelos

0:47

mas o que são eles eu cobri difusão

0:49

modelos em alguns vídeos que eu

0:51

convidá-lo a verificar um melhor

0:52

entendendo que são modelos iterativos

0:55

que recebem ruído aleatório como entradas que

0:57

pode ser condicionado com um texto ou um

0:59

imagem, então não é completamente aleatório

1:02

aprende iterativamente a remover esse ruído

1:04

aprendendo quais parâmetros os modelos

1:06

deve aplicar a este ruído para acabar

1:08

com uma imagem final para que o básico

1:10

os modelos de difusão terão uma distribuição aleatória

1:12

ruído com o tamanho da imagem e

1:14

aprender a aplicar ainda mais ruído até

1:17

voltamos a uma imagem real, isto é

1:19

possível porque o modelo terá

1:21

acesso às imagens reais durante

1:23

treinamento e será capaz de aprender o

1:25

parâmetros corretos aplicando tal ruído

1:27

à imagem iterativamente até que

1:29

atinge ruído completo e é

1:31

irreconhecível

1:33

então, quando estivermos satisfeitos com o

1:35

ruído que obtemos de todas as nossas imagens significado

1:37

que são semelhantes e geram ruído

1:40

de uma distribuição semelhante estamos prontos

1:42

para usar nosso modelo ao contrário e alimentá-lo

1:45

ruído semelhante na ordem inversa para

1:48

espere uma imagem semelhante às usadas

1:50

durante o treinamento, então o principal problema aqui

1:53

é que você está trabalhando diretamente com

1:54

os pixels e grandes entradas de dados como

1:57

imagens vamos ver como podemos consertar isso

1:59

problema de cálculo, mantendo o

2:02

qualidade dos resultados o mesmo que mostrado

2:04

aqui em comparação com delhi, mas primeiro dê

2:07

me alguns segundos para apresentá-lo ao meu

2:09

amigos da quack patrocinando este vídeo

2:11

como você certamente conhece a maioria

2:13

das empresas agora relatam ai e ml

2:15

adoção em seus processos, mas complexos

2:18

operações como implantação modal

2:20

teste de treinamento e loja de recursos

2:22

gestão parecem estar no caminho de

2:24

a implantação do modelo de ml de progresso é uma das

2:26

os processos mais complexos é tão

2:29

processo rigoroso que o cientista de dados

2:31

as equipes gastam muito tempo resolvendo

2:33

back-end e tarefas de engenharia antes

2:35

ser capaz de empurrar o modelo para dentro

2:37

produção algo que eu pessoalmente

2:39

experiente também requer muito

2:42

conjuntos de habilidades diferentes, muitas vezes exigindo dois

2:44

equipes diferentes trabalhando juntas

2:46

felizmente para nós quack oferece um

2:48

plataforma totalmente gerenciada que unifica ml

2:50

operações de engenharia e dados

2:53

fornecendo uma infraestrutura ágil que

2:55

permite a produção contínua de

2:57

modelos de ml em escala que você não precisa

2:59

aprenda a fazer tudo de ponta a ponta

3:01

mais graças a eles quack empodera

3:04

organizações para entregar máquina

3:06

modelos de aprendizado em produção em escala

3:08

se você quiser acelerar o seu modelo

3:10

entrega para produção por favor, tome alguns

3:12

minutos e clique no primeiro link abaixo

3:14

para verificar o que eles oferecem, pois tenho certeza

3:16

vai valer a pena graças a ninguém

3:18

dando uma olhada e apoiando a mim e ao meu

3:20

amigos do charlatão

3:23

como esses poderosos modelos de difusão

3:25

ser computacionalmente eficiente por

3:27

transformando-os em difusão latente

3:30

modelos, isso significa que robin rumback e

3:32

seus colegas implementaram isso

3:34

abordagem de difusão que acabamos de abordar

3:36

dentro de uma representação de imagem comprimida

3:38

em vez da própria imagem e, em seguida,

3:41

trabalhou para reconstruir a imagem para que eles

3:43

não estão trabalhando com o espaço de pixel ou

3:45

imagens regulares mais trabalhando em tal

3:48

espaço comprimido não só permite

3:50

gerações mais eficientes e rápidas como

3:52

o tamanho dos dados é muito menor, mas também

3:54

permite trabalhar com diferentes

3:56

modalidades, uma vez que estão codificando o

3:58

entradas você pode alimentá-lo com qualquer tipo de entrada

4:00

como imagens ou texto e o modelo irá

4:03

aprender a codificar essas entradas no mesmo

4:05

subespaço que o modelo de difusão irá

4:07

use para gerar uma imagem, então sim, apenas

4:10

como o modelo de clipe, um modelo funcionará

4:13

com texto ou imagens para guiar gerações

4:16

o modelo geral ficará assim

4:18

você terá sua imagem inicial aqui x

4:21

e codificá-lo em uma informação, em seguida,

4:23

espaço chamado de espaço latente ou z isso

4:26

é muito parecido com uma arma onde você vai

4:29

use um modelo de codificador para obter a imagem

4:31

e extrair o mais relevante

4:32

informações sobre ele em um subespaço que

4:35

você pode ver como uma tarefa de amostragem

4:37

reduzindo seu tamanho, mantendo o máximo

4:39

informações possíveis em que você está agora

4:42

o espaço latente com seu condensado

4:44

input você então faça a mesma coisa com

4:46

sua condição insere imagens de texto

4:49

ou qualquer outra coisa e mesclá-los com

4:50

sua representação de imagem atual usando

4:53

atenção que descrevi em outro

4:55

vídeo este mecanismo de atenção irá

4:57

aprender a melhor maneira de combinar a entrada

4:59

e entradas de condicionamento neste latente

5:01

espaço adicionando atenção um transformador

5:04

recurso para modelos de difusão estes mesclados

5:07

as entradas são agora o seu ruído inicial para

5:09

o processo de difusão

5:11

então você tem o mesmo modelo de difusão i

5:13

coberto em minha imagem e vídeo, mas ainda

5:16

neste subespaço finalmente você reconstrói

5:19

a imagem usando um decodificador que você pode

5:21

veja como a etapa inversa de sua inicial

5:23

codificador tomando este modificado e

5:25

entrada denoised no espaço latente para

5:28

construir uma imagem final de alta resolução

5:31

basicamente upsampling seus resultados e

5:34

voila é assim que você pode usar a difusão

5:36

modelos para uma ampla variedade de tarefas, como

5:39

super resolução na pintura e até

5:41

texto para imagem com o estável recente

5:44

difusão do modelo de código aberto através do

5:46

processo de condicionamento ao mesmo tempo em que é muito

5:49

mais eficiente e permitindo que você execute

5:51

-los em seu gpus em vez de exigir

5:54

centenas deles você ouviu certo

5:56

para todos os desenvolvedores que desejam ter

5:58

seu próprio texto para imagem e imagem

6:00

modelo de síntese rodando por conta própria

6:02

gpus o código está disponível com

6:04

modelos pré-tornados todos os links são

6:06

abaixo se você usar o modelo, por favor

6:08

compartilhe seus ids de testes e resultados ou qualquer

6:10

feedback que você tem comigo eu adoraria

6:13

conversar sobre isso é claro que isso era apenas

6:15

uma visão geral da difusão latente

6:17

modelo e eu convido você a ler seus

6:19

grande papel linkado abaixo, bem como para

6:21

saiba mais sobre o modelo e a abordagem

6:24

muito obrigado aos meus amigos da quack por

6:26

patrocinando este vídeo e ainda maior

6:28

obrigado por assistir todo

6:30

vídeo eu vou te ver na próxima semana com

6:33

outro papel incrível