O que todos os modelos de imagem superpoderosos recentes como , ou têm em comum? Além de seus altos custos de computação, enorme tempo de treinamento e hype compartilhado, todos eles são baseados no mesmo mecanismo: difusão. DALLE Imagen Midjourney Os modelos de difusão alcançaram recentemente resultados de ponta para a maioria das tarefas de imagem, incluindo conversão de texto em imagem com DALLE, mas também muitas outras tarefas relacionadas à geração de imagem, como pintura interna de imagem, transferência de estilo ou super-resolução de imagem. Mas como eles funcionam? Saiba mais no vídeo... Referências ►Leia o artigo completo: https://www.louisbouchard.ai/latent-diffusion-models/ ►Rombach, R., Blattmann, A., Lorenz, D., Esser, P. e Ommer, B., 2022. Síntese de imagens de alta resolução com modelos de difusão latente. Dentro Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Reconhecimento (pp. 10684–10695), https://arxiv.org/pdf/2112.10752.pdf ►Código de difusão latente: https://github.com/CompVis/latent-diffusion ►Código de difusão estável (texto para imagem baseado em LD): https://github.com/CompVis/stable-diffusion ►Experimente você mesmo: https://huggingface.co/spaces/stabilityai/stable-diffusion ►Aplicativo web: https://stabilityai.us.auth0.com/u/login?state=hKFo2SA4MFJLR1M4cVhJcllLVmlsSV9vcXNYYy11Q25rRkVzZaFur3VuaXZlcnNhbC1sb2dpbqN0aWTZIFRjV2p5dHkzNGQzdkFKZUdyUEprRnhGeFl6ZVdVUDRZo2NpZNkgS3ZZWkpLU2htVW9PalhwY2xRbEtZVXh1Y0FWZXNsSE4 ►Meu boletim informativo (um novo aplicativo de IA explicado semanalmente para seus e-mails!): https://www.louisbouchard.ai/newsletter/ Transcrição de vídeo 0:00 o que todas as imagens super poderosas recentes 0:02 modelos como delhi imagine ou mid journey 0:05 têm em comum além da alta computação 0:08 custou muito tempo de treinamento e entusiasmo compartilhado 0:10 todos eles são baseados no mesmo mecanismo 0:13 difusão dos modelos de fusão recentemente 0:15 alcançou resultados de ponta para 0:17 a maioria das tarefas de imagem, incluindo texto para imagem 0:19 com delhi, mas muitas outras imagens 0:21 tarefas relacionadas à geração, como imagem e 0:23 transferência de estilo de pintura ou imagem super 0:25 resolução embora existam alguns 0:27 desvantagens eles trabalham sequencialmente no 0:30 imagem inteira, o que significa que tanto o 0:31 tempos de treinamento e inferência são super 0:34 caro é por isso que você precisa de centenas 0:36 de gpus para treinar tal modelo e por que 0:38 você espera alguns minutos para obter o seu 0:40 resultados, não é nenhuma surpresa que apenas o 0:42 maiores empresas como google ou openai 0:45 estão lançando esses modelos 0:47 mas o que são eles eu cobri difusão 0:49 modelos em alguns vídeos que eu 0:51 convidá-lo a verificar um melhor 0:52 entendendo que são modelos iterativos 0:55 que recebem ruído aleatório como entradas que 0:57 pode ser condicionado com um texto ou um 0:59 imagem, então não é completamente aleatório 1:02 aprende iterativamente a remover esse ruído 1:04 aprendendo quais parâmetros os modelos 1:06 deve aplicar a este ruído para acabar 1:08 com uma imagem final para que o básico 1:10 os modelos de difusão terão uma distribuição aleatória 1:12 ruído com o tamanho da imagem e 1:14 aprender a aplicar ainda mais ruído até 1:17 voltamos a uma imagem real, isto é 1:19 possível porque o modelo terá 1:21 acesso às imagens reais durante 1:23 treinamento e será capaz de aprender o 1:25 parâmetros corretos aplicando tal ruído 1:27 à imagem iterativamente até que 1:29 atinge ruído completo e é 1:31 irreconhecível 1:33 então, quando estivermos satisfeitos com o 1:35 ruído que obtemos de todas as nossas imagens significado 1:37 que são semelhantes e geram ruído 1:40 de uma distribuição semelhante estamos prontos 1:42 para usar nosso modelo ao contrário e alimentá-lo 1:45 ruído semelhante na ordem inversa para 1:48 espere uma imagem semelhante às usadas 1:50 durante o treinamento, então o principal problema aqui 1:53 é que você está trabalhando diretamente com 1:54 os pixels e grandes entradas de dados como 1:57 imagens vamos ver como podemos consertar isso 1:59 problema de cálculo, mantendo o 2:02 qualidade dos resultados o mesmo que mostrado 2:04 aqui em comparação com delhi, mas primeiro dê 2:07 me alguns segundos para apresentá-lo ao meu 2:09 amigos da quack patrocinando este vídeo 2:11 como você certamente conhece a maioria 2:13 das empresas agora relatam ai e ml 2:15 adoção em seus processos, mas complexos 2:18 operações como implantação modal 2:20 teste de treinamento e loja de recursos 2:22 gestão parecem estar no caminho de 2:24 a implantação do modelo de ml de progresso é uma das 2:26 os processos mais complexos é tão 2:29 processo rigoroso que o cientista de dados 2:31 as equipes gastam muito tempo resolvendo 2:33 back-end e tarefas de engenharia antes 2:35 ser capaz de empurrar o modelo para dentro 2:37 produção algo que eu pessoalmente 2:39 experiente também requer muito 2:42 conjuntos de habilidades diferentes, muitas vezes exigindo dois 2:44 equipes diferentes trabalhando juntas 2:46 felizmente para nós quack oferece um 2:48 plataforma totalmente gerenciada que unifica ml 2:50 operações de engenharia e dados 2:53 fornecendo uma infraestrutura ágil que 2:55 permite a produção contínua de 2:57 modelos de ml em escala que você não precisa 2:59 aprenda a fazer tudo de ponta a ponta 3:01 mais graças a eles quack empodera 3:04 organizações para entregar máquina 3:06 modelos de aprendizado em produção em escala 3:08 se você quiser acelerar o seu modelo 3:10 entrega para produção por favor, tome alguns 3:12 minutos e clique no primeiro link abaixo 3:14 para verificar o que eles oferecem, pois tenho certeza 3:16 vai valer a pena graças a ninguém 3:18 dando uma olhada e apoiando a mim e ao meu 3:20 amigos do charlatão 3:23 como esses poderosos modelos de difusão 3:25 ser computacionalmente eficiente por 3:27 transformando-os em difusão latente 3:30 modelos, isso significa que robin rumback e 3:32 seus colegas implementaram isso 3:34 abordagem de difusão que acabamos de abordar 3:36 dentro de uma representação de imagem comprimida 3:38 em vez da própria imagem e, em seguida, 3:41 trabalhou para reconstruir a imagem para que eles 3:43 não estão trabalhando com o espaço de pixel ou 3:45 imagens regulares mais trabalhando em tal 3:48 espaço comprimido não só permite 3:50 gerações mais eficientes e rápidas como 3:52 o tamanho dos dados é muito menor, mas também 3:54 permite trabalhar com diferentes 3:56 modalidades, uma vez que estão codificando o 3:58 entradas você pode alimentá-lo com qualquer tipo de entrada 4:00 como imagens ou texto e o modelo irá 4:03 aprender a codificar essas entradas no mesmo 4:05 subespaço que o modelo de difusão irá 4:07 use para gerar uma imagem, então sim, apenas 4:10 como o modelo de clipe, um modelo funcionará 4:13 com texto ou imagens para guiar gerações 4:16 o modelo geral ficará assim 4:18 você terá sua imagem inicial aqui x 4:21 e codificá-lo em uma informação, em seguida, 4:23 espaço chamado de espaço latente ou z isso 4:26 é muito parecido com uma arma onde você vai 4:29 use um modelo de codificador para obter a imagem 4:31 e extrair o mais relevante 4:32 informações sobre ele em um subespaço que 4:35 você pode ver como uma tarefa de amostragem 4:37 reduzindo seu tamanho, mantendo o máximo 4:39 informações possíveis em que você está agora 4:42 o espaço latente com seu condensado 4:44 input você então faça a mesma coisa com 4:46 sua condição insere imagens de texto 4:49 ou qualquer outra coisa e mesclá-los com 4:50 sua representação de imagem atual usando 4:53 atenção que descrevi em outro 4:55 vídeo este mecanismo de atenção irá 4:57 aprender a melhor maneira de combinar a entrada 4:59 e entradas de condicionamento neste latente 5:01 espaço adicionando atenção um transformador 5:04 recurso para modelos de difusão estes mesclados 5:07 as entradas são agora o seu ruído inicial para 5:09 o processo de difusão 5:11 então você tem o mesmo modelo de difusão i 5:13 coberto em minha imagem e vídeo, mas ainda 5:16 neste subespaço finalmente você reconstrói 5:19 a imagem usando um decodificador que você pode 5:21 veja como a etapa inversa de sua inicial 5:23 codificador tomando este modificado e 5:25 entrada denoised no espaço latente para 5:28 construir uma imagem final de alta resolução 5:31 basicamente upsampling seus resultados e 5:34 voila é assim que você pode usar a difusão 5:36 modelos para uma ampla variedade de tarefas, como 5:39 super resolução na pintura e até 5:41 texto para imagem com o estável recente 5:44 difusão do modelo de código aberto através do 5:46 processo de condicionamento ao mesmo tempo em que é muito 5:49 mais eficiente e permitindo que você execute 5:51 -los em seu gpus em vez de exigir 5:54 centenas deles você ouviu certo 5:56 para todos os desenvolvedores que desejam ter 5:58 seu próprio texto para imagem e imagem 6:00 modelo de síntese rodando por conta própria 6:02 gpus o código está disponível com 6:04 modelos pré-tornados todos os links são 6:06 abaixo se você usar o modelo, por favor 6:08 compartilhe seus ids de testes e resultados ou qualquer 6:10 feedback que você tem comigo eu adoraria 6:13 conversar sobre isso é claro que isso era apenas 6:15 uma visão geral da difusão latente 6:17 modelo e eu convido você a ler seus 6:19 grande papel linkado abaixo, bem como para 6:21 saiba mais sobre o modelo e a abordagem 6:24 muito obrigado aos meus amigos da quack por 6:26 patrocinando este vídeo e ainda maior 6:28 obrigado por assistir todo 6:30 vídeo eu vou te ver na próxima semana com 6:33 outro papel incrível