O que todos os modelos de imagem superpoderosos recentes como DALLE , Imagen ou Midjourney têm em comum? Além de seus altos custos de computação, enorme tempo de treinamento e hype compartilhado, todos eles são baseados no mesmo mecanismo: difusão.
Os modelos de difusão alcançaram recentemente resultados de ponta para a maioria das tarefas de imagem, incluindo conversão de texto em imagem com DALLE, mas também muitas outras tarefas relacionadas à geração de imagem, como pintura interna de imagem, transferência de estilo ou super-resolução de imagem. Mas como eles funcionam? Saiba mais no vídeo...
►Leia o artigo completo: https://www.louisbouchard.ai/latent-diffusion-models/
►Rombach, R., Blattmann, A., Lorenz, D., Esser, P. e Ommer, B., 2022.
Síntese de imagens de alta resolução com modelos de difusão latente. Dentro
Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern
Reconhecimento (pp. 10684–10695), https://arxiv.org/pdf/2112.10752.pdf
►Código de difusão latente: https://github.com/CompVis/latent-diffusion
►Código de difusão estável (texto para imagem baseado em LD): https://github.com/CompVis/stable-diffusion
►Experimente você mesmo: https://huggingface.co/spaces/stabilityai/stable-diffusion
►Aplicativo web:
https://stabilityai.us.auth0.com/u/login?state=hKFo2SA4MFJLR1M4cVhJcllLVmlsSV9vcXNYYy11Q25rRkVzZaFur3VuaXZlcnNhbC1sb2dpbqN0aWTZIFRjV2p5dHkzNGQzdkFKZUdyUEprRnhGeFl6ZVdVUDRZo2NpZNkgS3ZZWkpLU2htVW9PalhwY2xRbEtZVXh1Y0FWZXNsSE4
►Meu boletim informativo (um novo aplicativo de IA explicado semanalmente para seus e-mails!): https://www.louisbouchard.ai/newsletter/
0:00
o que todas as imagens super poderosas recentes
0:02
modelos como delhi imagine ou mid journey
0:05
têm em comum além da alta computação
0:08
custou muito tempo de treinamento e entusiasmo compartilhado
0:10
todos eles são baseados no mesmo mecanismo
0:13
difusão dos modelos de fusão recentemente
0:15
alcançou resultados de ponta para
0:17
a maioria das tarefas de imagem, incluindo texto para imagem
0:19
com delhi, mas muitas outras imagens
0:21
tarefas relacionadas à geração, como imagem e
0:23
transferência de estilo de pintura ou imagem super
0:25
resolução embora existam alguns
0:27
desvantagens eles trabalham sequencialmente no
0:30
imagem inteira, o que significa que tanto o
0:31
tempos de treinamento e inferência são super
0:34
caro é por isso que você precisa de centenas
0:36
de gpus para treinar tal modelo e por que
0:38
você espera alguns minutos para obter o seu
0:40
resultados, não é nenhuma surpresa que apenas o
0:42
maiores empresas como google ou openai
0:45
estão lançando esses modelos
0:47
mas o que são eles eu cobri difusão
0:49
modelos em alguns vídeos que eu
0:51
convidá-lo a verificar um melhor
0:52
entendendo que são modelos iterativos
0:55
que recebem ruído aleatório como entradas que
0:57
pode ser condicionado com um texto ou um
0:59
imagem, então não é completamente aleatório
1:02
aprende iterativamente a remover esse ruído
1:04
aprendendo quais parâmetros os modelos
1:06
deve aplicar a este ruído para acabar
1:08
com uma imagem final para que o básico
1:10
os modelos de difusão terão uma distribuição aleatória
1:12
ruído com o tamanho da imagem e
1:14
aprender a aplicar ainda mais ruído até
1:17
voltamos a uma imagem real, isto é
1:19
possível porque o modelo terá
1:21
acesso às imagens reais durante
1:23
treinamento e será capaz de aprender o
1:25
parâmetros corretos aplicando tal ruído
1:27
à imagem iterativamente até que
1:29
atinge ruído completo e é
1:31
irreconhecível
1:33
então, quando estivermos satisfeitos com o
1:35
ruído que obtemos de todas as nossas imagens significado
1:37
que são semelhantes e geram ruído
1:40
de uma distribuição semelhante estamos prontos
1:42
para usar nosso modelo ao contrário e alimentá-lo
1:45
ruído semelhante na ordem inversa para
1:48
espere uma imagem semelhante às usadas
1:50
durante o treinamento, então o principal problema aqui
1:53
é que você está trabalhando diretamente com
1:54
os pixels e grandes entradas de dados como
1:57
imagens vamos ver como podemos consertar isso
1:59
problema de cálculo, mantendo o
2:02
qualidade dos resultados o mesmo que mostrado
2:04
aqui em comparação com delhi, mas primeiro dê
2:07
me alguns segundos para apresentá-lo ao meu
2:09
amigos da quack patrocinando este vídeo
2:11
como você certamente conhece a maioria
2:13
das empresas agora relatam ai e ml
2:15
adoção em seus processos, mas complexos
2:18
operações como implantação modal
2:20
teste de treinamento e loja de recursos
2:22
gestão parecem estar no caminho de
2:24
a implantação do modelo de ml de progresso é uma das
2:26
os processos mais complexos é tão
2:29
processo rigoroso que o cientista de dados
2:31
as equipes gastam muito tempo resolvendo
2:33
back-end e tarefas de engenharia antes
2:35
ser capaz de empurrar o modelo para dentro
2:37
produção algo que eu pessoalmente
2:39
experiente também requer muito
2:42
conjuntos de habilidades diferentes, muitas vezes exigindo dois
2:44
equipes diferentes trabalhando juntas
2:46
felizmente para nós quack oferece um
2:48
plataforma totalmente gerenciada que unifica ml
2:50
operações de engenharia e dados
2:53
fornecendo uma infraestrutura ágil que
2:55
permite a produção contínua de
2:57
modelos de ml em escala que você não precisa
2:59
aprenda a fazer tudo de ponta a ponta
3:01
mais graças a eles quack empodera
3:04
organizações para entregar máquina
3:06
modelos de aprendizado em produção em escala
3:08
se você quiser acelerar o seu modelo
3:10
entrega para produção por favor, tome alguns
3:12
minutos e clique no primeiro link abaixo
3:14
para verificar o que eles oferecem, pois tenho certeza
3:16
vai valer a pena graças a ninguém
3:18
dando uma olhada e apoiando a mim e ao meu
3:20
amigos do charlatão
3:23
como esses poderosos modelos de difusão
3:25
ser computacionalmente eficiente por
3:27
transformando-os em difusão latente
3:30
modelos, isso significa que robin rumback e
3:32
seus colegas implementaram isso
3:34
abordagem de difusão que acabamos de abordar
3:36
dentro de uma representação de imagem comprimida
3:38
em vez da própria imagem e, em seguida,
3:41
trabalhou para reconstruir a imagem para que eles
3:43
não estão trabalhando com o espaço de pixel ou
3:45
imagens regulares mais trabalhando em tal
3:48
espaço comprimido não só permite
3:50
gerações mais eficientes e rápidas como
3:52
o tamanho dos dados é muito menor, mas também
3:54
permite trabalhar com diferentes
3:56
modalidades, uma vez que estão codificando o
3:58
entradas você pode alimentá-lo com qualquer tipo de entrada
4:00
como imagens ou texto e o modelo irá
4:03
aprender a codificar essas entradas no mesmo
4:05
subespaço que o modelo de difusão irá
4:07
use para gerar uma imagem, então sim, apenas
4:10
como o modelo de clipe, um modelo funcionará
4:13
com texto ou imagens para guiar gerações
4:16
o modelo geral ficará assim
4:18
você terá sua imagem inicial aqui x
4:21
e codificá-lo em uma informação, em seguida,
4:23
espaço chamado de espaço latente ou z isso
4:26
é muito parecido com uma arma onde você vai
4:29
use um modelo de codificador para obter a imagem
4:31
e extrair o mais relevante
4:32
informações sobre ele em um subespaço que
4:35
você pode ver como uma tarefa de amostragem
4:37
reduzindo seu tamanho, mantendo o máximo
4:39
informações possíveis em que você está agora
4:42
o espaço latente com seu condensado
4:44
input você então faça a mesma coisa com
4:46
sua condição insere imagens de texto
4:49
ou qualquer outra coisa e mesclá-los com
4:50
sua representação de imagem atual usando
4:53
atenção que descrevi em outro
4:55
vídeo este mecanismo de atenção irá
4:57
aprender a melhor maneira de combinar a entrada
4:59
e entradas de condicionamento neste latente
5:01
espaço adicionando atenção um transformador
5:04
recurso para modelos de difusão estes mesclados
5:07
as entradas são agora o seu ruído inicial para
5:09
o processo de difusão
5:11
então você tem o mesmo modelo de difusão i
5:13
coberto em minha imagem e vídeo, mas ainda
5:16
neste subespaço finalmente você reconstrói
5:19
a imagem usando um decodificador que você pode
5:21
veja como a etapa inversa de sua inicial
5:23
codificador tomando este modificado e
5:25
entrada denoised no espaço latente para
5:28
construir uma imagem final de alta resolução
5:31
basicamente upsampling seus resultados e
5:34
voila é assim que você pode usar a difusão
5:36
modelos para uma ampla variedade de tarefas, como
5:39
super resolução na pintura e até
5:41
texto para imagem com o estável recente
5:44
difusão do modelo de código aberto através do
5:46
processo de condicionamento ao mesmo tempo em que é muito
5:49
mais eficiente e permitindo que você execute
5:51
-los em seu gpus em vez de exigir
5:54
centenas deles você ouviu certo
5:56
para todos os desenvolvedores que desejam ter
5:58
seu próprio texto para imagem e imagem
6:00
modelo de síntese rodando por conta própria
6:02
gpus o código está disponível com
6:04
modelos pré-tornados todos os links são
6:06
abaixo se você usar o modelo, por favor
6:08
compartilhe seus ids de testes e resultados ou qualquer
6:10
feedback que você tem comigo eu adoraria
6:13
conversar sobre isso é claro que isso era apenas
6:15
uma visão geral da difusão latente
6:17
modelo e eu convido você a ler seus
6:19
grande papel linkado abaixo, bem como para
6:21
saiba mais sobre o modelo e a abordagem
6:24
muito obrigado aos meus amigos da quack por
6:26
patrocinando este vídeo e ainda maior
6:28
obrigado por assistir todo
6:30
vídeo eu vou te ver na próxima semana com
6:33
outro papel incrível