Já vimos modelos antes capazes de pegar uma frase e .
Também vimos outras aprendendo conceitos específicos como um objeto ou estilo particular.
Na semana passada, a Meta publicou o que abordei, que permite gerar um pequeno vídeo também a partir de uma frase de texto. Os resultados ainda não são perfeitos, mas o progresso que fizemos no campo desde o ano passado é simplesmente incrível.
Esta semana damos mais um passo em frente.
Aqui está o DreamFusion, um novo modelo de pesquisa do Google que pode entender uma frase o suficiente para gerar um modelo 3D dela.
Você pode ver isso como um ou , mas em 3D.
Quão legal é isso?! Nós realmente não podemos torná-lo muito mais legal.
Mas o que é ainda mais fascinante é como isso funciona. Vamos mergulhar nisso...
►Leia o artigo completo: https://www.louisbouchard.ai/dreamfusion/
►Poole, B., Jain, A., Barron, JT e Mildenhall, B., 2022. DreamFusion: Text-to-3D using 2D Diffusion. pré-impressão arXiv arXiv:2209.14988.
►Site do projeto: https://dreamfusion3d.github.io/
►Meu boletim informativo (um novo aplicativo de IA explicado semanalmente para seus e-mails!): https://www.louisbouchard.ai/newsletter/
0:02
vimos modelos capazes de tirar uma
0:04
sentença e gerar imagens, em seguida, outros
0:07
abordagens para manipular o gerado
0:09
imagens aprendendo conceitos específicos
0:11
como um objeto ou um estilo particular
0:13
semana passada meta publicou o make a
0:16
modelo de vídeo que abordei que permite
0:18
você para gerar um pequeno vídeo também de
0:20
uma frase de texto, os resultados não são
0:22
perfeito ainda, mas o progresso que fizemos
0:24
no campo desde o ano passado é apenas
0:26
incrível esta semana fazemos outro
0:28
passo em frente aqui está o sonho Fusion um novo
0:32
modelo de pesquisa do Google que pode
0:34
entender uma frase o suficiente para gerar
0:36
um modelo 3D dele, você pode ver isso como
0:39
uma difusão diária ou estável, mas em 3D
0:41
quão legal é que não podemos fazer muito
0:44
mais legal, mas o que é ainda mais fascinante
0:46
é assim que funciona, vamos mergulhar nisso, mas
0:49
primeiro me dê alguns segundos para falar
0:51
sobre um assunto relacionado visão computacional
0:53
você vai querer ouvir isso se você estiver em
0:55
este campo também para este vídeo estou
0:57
parceria com a encord the online
1:00
plataforma de aprendizado para visão computacional
1:01
os dados são uma das partes mais importantes
1:04
de criar visão computacional inovadora
1:06
modelo é por isso que a plataforma encode tem
1:09
foi construído a partir do zero para fazer
1:10
a criação de dados de treinamento e
1:12
teste de modelos de aprendizado de máquina
1:14
mais rápido do que nunca, o encord faz
1:17
isso de duas maneiras primeiro faz isso
1:19
mais fácil de gerenciar anotar e avaliar
1:22
dados de treinamento através de uma variedade de
1:24
ferramentas de anotação colaborativas e
1:25
recursos de automação codificados em segundo lugar
1:28
oferece acesso às suas APIs de fluxos de trabalho de controle de qualidade
1:31
e SDK para que você possa criar seu próprio
1:33
Pipelines de aprendizado ativo acelerando
1:35
desenvolvimento de modelo e usando encode
1:38
você não precisa perder tempo construindo
1:39
suas próprias ferramentas de anotação permitindo que você
1:41
concentre-se em obter os dados certos
1:44
seus modelos se isso soa interessante
1:46
clique no primeiro link abaixo para obter
1:48
um teste gratuito de 28 dias do encode exclusivo
1:51
para nossa comunidade
1:54
se você tem seguido meu sonho de trabalho
1:56
A fusão é bastante simples, basicamente usa
1:59
dois modelos já cobri Nerfs e
2:02
um dos modelos de texto para imagem em seus
2:04
caso seja o modelo Imogen mas e você
2:07
fará como difusão estável ou Dolly
2:09
como você sabe se você tem sido um bom
2:11
aluno e assisti os vídeos anteriores
2:12
Nerfs são um tipo de modelo usado para renderizar
2:15
Cenas 3D gerando Radiância neural
2:18
campo de uma ou mais imagens de um
2:21
objeto, mas então como você pode gerar um
2:23
Renderização 3D de texto se o modelo Nerf
2:26
só funciona com imagens bem que usamos
2:29
imagine a outra IA para gerar a imagem
2:31
variações do que é preciso e por que
2:34
fazemos isso em vez de diretamente
2:36
gerar modelos 3D a partir de texto porque
2:38
exigirá enormes conjuntos de dados de 3D
2:41
dados junto com seus associados
2:43
legendas para o nosso modelo ser treinado
2:46
o que será muito difícil de ter
2:48
em vez disso, usamos um texto pré-treinado para
2:50
modelo de imagem com dados muito menos complexos
2:53
juntos e adaptamos para 3D para que
2:56
não requer nenhum dado 3D para ser
2:57
treinado apenas em uma IA pré-existente para
3:00
gerar imagens é muito legal como
3:03
podemos reutilizar tecnologias poderosas para
3:05
novas tarefas como esta ao interpretar
3:07
o problema de forma diferente, então se começarmos
3:09
desde o início temos um modelo Nerf
3:12
como expliquei em vídeos anteriores este
3:14
tipo de modelo tira imagens para prever
3:17
os pixels em cada visão nova, criando uma
3:20
Modelo 3D aprendendo com pares de imagens de
3:22
o mesmo objeto com diferentes
3:24
pontos de vista no nosso caso não começamos
3:26
com imagens diretamente, começamos com o
3:28
texto e amostra de uma exibição aleatória
3:30
orientação queremos gerar uma imagem
3:33
pois basicamente estamos tentando criar um
3:35
Modelo 3D gerando imagens de todos
3:38
possíveis ângulos que uma câmera poderia cobrir
3:40
olhando ao redor do objeto e adivinhando
3:42
os pixels cores densidades luz
3:45
Reflexões Etc tudo o que é necessário para
3:48
torná-lo realista, então começamos
3:50
com uma legenda e adicione um pequeno ajuste
3:52
dependendo da câmera aleatória
3:54
ponto de vista que queremos gerar para
3:56
exemplo, podemos querer gerar uma frente
3:58
vista para que possamos anexar a vista frontal a
4:01
a legenda do outro lado usamos o
4:03
mesmo ângulo e parâmetros da câmera para
4:05
modelo Nerf inicial não treinado para
4:09
prever a primeira renderização, então nós
4:11
gerar uma versão de imagem Guiado por nosso
4:13
legenda e renderização inicial com adicionado
4:17
ruído usando imagine nosso texto pré-treinado
4:20
ao modelo de imagem que expliquei melhor
4:22
na minha imagem e vídeo se você está curioso
4:24
para ver como ele faz isso para que nossa imagem e
4:26
modelo será guiado pela entrada de texto
4:28
bem como a renderização atual do
4:30
objeto com ruído adicionado aqui nós adicionamos
4:33
ruído porque é isso que a imagem e
4:36
módulo pode receber como entrada, ele precisa ser
4:38
parte de uma distribuição de ruído
4:40
entende que usamos o modelo para gerar
4:43
uma imagem de maior qualidade adicione a imagem
4:45
usado para gerá-lo e remover o ruído
4:48
Adicionamos manualmente para usar este resultado para
4:51
orientar e melhorar nosso modelo Nerf para o
4:54
próximo passo fazemos tudo isso para melhor
4:55
entenda onde na imagem o Nerf
4:57
modelo deve centrar a sua atenção
4:59
produzir melhores resultados para a próxima etapa
5:01
e repetimos isso até que o modelo 3D esteja
5:05
satisfazendo o suficiente, você pode exportar
5:07
este modelo para malhar e usá-lo em uma cena
5:10
de sua escolha e antes de alguns de vocês
5:12
pergunte não, você não precisa treinar novamente o
5:15
modelo de gerador de imagem como eles dizem
5:17
bem no papel ele apenas age como um
5:19
crítico congelado que prevê o espaço da imagem
5:21
edita e voira assim sonha Fusion
5:25
gera renderização 3D a partir de entradas de texto
5:28
se você gostaria de ter um conhecimento mais profundo
5:30
compreensão da abordagem tem um
5:32
veja meus vídeos cobrindo nervos e
5:34
Imogen também convido você a ler seus
5:36
papel para obter mais detalhes sobre este específico
5:39
método obrigado por assistir todo
5:41
vídeo e vejo você na próxima semana com
5:44
outro papel incrível