O jornal desta semana pode ser apenas o seu próximo modelo favorito até hoje.
Se você acha que os modelos recentes de geração de imagens como DALLE ou Stable Diffusion são legais, você simplesmente não vai acreditar como este é incrível.
"Este" é Imagic.
Imagic pega um modelo baseado em difusão capaz de pegar texto e gerar imagens a partir dele e adapta o modelo para editar as imagens. Olha só... Você pode gerar uma imagem e depois ensinar o modelo a editá-la do jeito que você quiser.
Saiba mais no vídeo abaixo...
►Leia o artigo completo: https://www.louisbouchard.ai/imagic/
►Kawar, B., Zada, S., Lang, O., Tov, O., Chang, H., Dekel, T., Mosseri, I. e Irani, M., 2022. Imagic: Imagem real baseada em texto Edição com modelos de difusão. pré-impressão arXiv arXiv:2210.09276.
► Use-o com difusão estável: https://github.com/justinpinkney/stable-diffusion/blob/main/notebooks/imagic.ipynb
►Meu boletim informativo (um novo aplicativo de IA explicado semanalmente para seus e-mails!): https://www.louisbouchard.ai/newsletter/
0:24
veja que você pode gerar uma imagem
0:26
e então ensine o modelo a editá-lo qualquer
0:29
do jeito que você quer, este é um grande passo
0:31
para ter seu próprio Photoshop
0:33
designer de graça o modelo não só
0:36
entende o que você quer mostrar, mas
0:38
também é capaz de permanecer realista também
0:41
como manter as propriedades do inicial
0:43
imagens olha só como fica o cachorro
0:46
o mesmo em todas as imagens aqui esta tarefa é
0:49
chamada edição de imagem condicionada por texto
0:51
isso significa editar imagens usando apenas
0:54
texto e uma imagem inicial que foi
0:57
praticamente impossível nem mesmo um ano
0:59
atrás agora veja o que ele pode fazer sim isso
1:03
é tudo feito a partir de uma única imagem de entrada
1:05
e uma frase curta onde você vê o que
1:07
você gostaria de ter o quão incrível é isso
1:09
a única coisa ainda mais legal é como
1:12
funciona, vamos mergulhar nisso, mas primeiro se
1:15
você está aprendendo IA ou quer
1:17
comece a aprender você vai adorar isso
1:19
oportunidade, eu sei o quão difícil pode ser
1:22
faça um progresso real ao aprender IA
1:24
às vezes estrutura extra e
1:26
responsabilidade pode ser o que te propõe a
1:29
o próximo nível, se isso soa como você
1:31
junte-se ao patrocinador deste vídeo Delta
1:33
Academia na Delta Academy você aprende
1:36
aprendizagem por reforço construindo jogo
1:38
AIS em uma coorte ao vivo vão de zero a
1:41
alphago através da exportação trabalhada
1:43
tutoriais interativos discussões ao vivo
1:46
com esses especialistas e IA semanal
1:48
construir competições não é apenas
1:51
outro curso site de spam é intenso
1:53
prático e focado em alta qualidade
1:56
projetado por especialistas da deepmind Oxford
1:58
e Cambridge é onde os codificadores vão
2:01
Proteja sua operadora para o futuro a partir do
2:03
avanço da IA e divirta-se mais com um
2:06
comunidade ao vivo de colegas e especialistas para
2:08
empurre você para frente, você escreverá icônico
2:10
algoritmos em Python variando de dqn a
2:13
alphago um dos programas mais legais de todos os tempos
2:16
fez se juntar a eles agora através do meu link abaixo
2:18
e use o código promocional what's AI to get
2:21
10% de desconto
2:23
então, como o iMagic funciona como dissemos
2:26
pega uma imagem e uma legenda para editar o
2:29
definir a imagem e você pode até gerar
2:31
múltiplas variações deste modelo
2:33
como a grande maioria dos jornais
2:35
que são lançados hoje em dia é baseado em
2:38
modelos de difusão mais especificamente
2:41
pega um modelo de gerador de imagem que foi
2:43
já treinados para gerar imagens de
2:45
texto e adapta-o à edição de imagens em
2:48
o caso deles usa Imogen que eu
2:51
coberto em um vídeo anterior é um
2:53
modelo generativo baseado em difusão capaz de
2:55
criar imagens de alta definição depois
2:57
sendo treinado em um enorme conjunto de dados de
3:00
pares de legendas de imagem no caso de
3:02
iMagic eles simplesmente levam isso pré-treinado
3:05
modele a imagem como uma linha de base e faça
3:08
modificações a fim de editar o
3:10
imagens enviadas como entrada mantendo a imagem
3:13
aparência específica, como a do cão
3:16
raça e identidade e editá-lo
3:18
seguindo nosso texto então para começar temos
3:21
para codificar o texto e a inicial
3:23
borda da imagem para que possa ser entendida
3:25
pelo nosso modelo de imagem quando isso é feito
3:28
otimizamos nossas codificações de texto nosso texto
3:31
embeddings para melhor ajustar a nossa inicial
3:33
imagem basicamente pegando nosso texto
3:35
representação e otimizá-la para o nosso
3:38
imagem inicial chamada e otimizar para ser
3:41
certeza de que entende que neste exemplo
3:43
queremos gerar o mesmo tipo de
3:45
imagem com um pássaro de aparência semelhante e
3:48
fundo, então tomamos nosso pré-treinado
3:51
gerador de imagem para afinar o significado
3:53
que vamos treinar novamente a imagem e o modelo
3:55
mantendo as incorporações de texto otimizadas que
3:58
acabou de produzir o mesmo, então esses dois
4:01
etapas são usadas para obter a incorporação de texto
4:03
mais perto da incorporação de imagem por
4:06
congelando um dos dois e pegando o
4:08
outro mais próximo, o que garantirá que
4:10
otimizar tanto para o texto quanto para a inicial
4:12
imagem não apenas um dos dois agora que
4:15
nosso modelo entende a imagem inicial
4:17
em nosso texto e entende que eles
4:19
são semelhantes, precisamos ensiná-lo a
4:21
gerar novas variações de imagem para isso
4:24
texto esta faísca é super simples nosso texto
4:27
incorporações e imagens otimizadas
4:29
as incorporações são muito semelhantes, mas ainda assim
4:32
não é exatamente o mesmo a única coisa que fazemos
4:34
aqui é que pegamos a incorporação de imagem
4:36
em nosso espaço codificado e mova-o um pouco
4:39
para a incorporação de texto neste momento
4:42
se você pedir ao modelo iMagic para gerar
4:45
uma imagem usando o texto otimizado
4:47
deve dar-lhe a mesma imagem que o seu
4:49
imagem de entrada, então se você mover a incorporação
4:52
um pouco em direção ao seu texto incorporando-o
4:55
também irá editar a imagem um pouco para
4:58
o que você quer quanto mais você o move
5:00
esse espaço mais a edição vai ser grande
5:02
e quanto mais longe você chegar de
5:05
sua imagem inicial, então a única coisa que você
5:07
precisa descobrir agora é o tamanho de
5:10
este passo que você quer dar em direção ao seu
5:12
texto e pronto quando você encontrar o seu
5:15
equilíbrio perfeito você tem um novo modelo
5:17
capaz de gerar tantas variações quanto
5:20
você quer conservar a imagem importante
5:22
exibições de atributo ao editar o caminho
5:25
você quer, claro, os resultados não são
5:27
perfeito ainda como você pode ver aqui onde
5:30
o modelo não edita corretamente
5:32
ou faz modificações aleatórias na imagem para
5:35
a imagem inicial como corte ou
5:37
zoom inapropriadamente ainda permanece
5:40
bastante impressionante se você me perguntar eu acho
5:42
o ritmo da geração da imagem
5:44
progresso incrível e isso é tanto
5:47
incrível e assustador ao mesmo tempo eu
5:50
adoro saber sua opinião sobre esses tipos
5:52
de geração e edição de imagens
5:54
modelos você acha que eles são bons ou
5:57
coisa ruim que tipo de consequências você
5:59
pode pensar em tais modelos tornando-se
6:02
mais e mais poderoso você pode encontrar mais
6:04
detalhes sobre os parâmetros específicos que eles
6:06
usam para alcançar esses resultados em seus
6:08
papel que eu definitivamente convido você para
6:10
leia também convido você a assistir minha imagem
6:13
e vídeo se você quiser mais informações
6:14
sobre a parte de geração de imagens e
6:17
entender como funciona enorme graças a
6:20
meus amigos da Delta Academy por trabalhar
6:22
em tornar o aprendizado de IA divertido algo que eu sou
6:26
apaixonado por por favor, experimente
6:28
e deixe-me saber o que você acha que eu
6:30
pessoalmente amo esta forma de ensinar e
6:33
Tenho certeza que você também vai agradecer por
6:35
apoiando meu trabalho, verificando seus
6:37
site e assistindo ao vídeo inteiro
6:39
e espero que tenham gostado vejo vocês
6:42
semana que vem com outro paper incrível