paint-brush
DreamFusion: uma IA que gera modelos 3D a partir de textopor@whatsai
22,001 leituras
22,001 leituras

DreamFusion: uma IA que gera modelos 3D a partir de texto

por Louis Bouchard6m2022/10/16
Read on Terminal Reader
Read this story w/o Javascript

Muito longo; Para ler

DreamFusion é um novo modelo de pesquisa do Google que pode entender uma frase o suficiente para gerar um modelo 3D dela. Os resultados ainda não são perfeitos, mas o progresso que fizemos no campo desde o ano passado é simplesmente incrível. Não podemos realmente torná-lo muito mais legal, mas o que é ainda mais fascinante é como ele funciona. Vamos mergulhar nisso... aqui está o Dream Fusion, um novo modelo de visão computacional que entende uma frase o suficiente para gerar modelos 3D.

Companies Mentioned

Mention Thumbnail
Mention Thumbnail
featured image - DreamFusion: uma IA que gera modelos 3D a partir de texto
Louis Bouchard HackerNoon profile picture

Já vimos modelos antes capazes de pegar uma frase e .

Também vimos outras aprendendo conceitos específicos como um objeto ou estilo particular.

Na semana passada, a Meta publicou o que abordei, que permite gerar um pequeno vídeo também a partir de uma frase de texto. Os resultados ainda não são perfeitos, mas o progresso que fizemos no campo desde o ano passado é simplesmente incrível.

Esta semana damos mais um passo em frente.

Aqui está o DreamFusion, um novo modelo de pesquisa do Google que pode entender uma frase o suficiente para gerar um modelo 3D dela.

Você pode ver isso como um ou , mas em 3D.

Quão legal é isso?! Nós realmente não podemos torná-lo muito mais legal.

Mas o que é ainda mais fascinante é como isso funciona. Vamos mergulhar nisso...

Referências

►Leia o artigo completo: https://www.louisbouchard.ai/dreamfusion/
►Poole, B., Jain, A., Barron, JT e Mildenhall, B., 2022. DreamFusion: Text-to-3D using 2D Diffusion. pré-impressão arXiv arXiv:2209.14988.
►Site do projeto: https://dreamfusion3d.github.io/
►Meu boletim informativo (um novo aplicativo de IA explicado semanalmente para seus e-mails!): https://www.louisbouchard.ai/newsletter/

Transcrição de vídeo

0:02

vimos modelos capazes de tirar uma

0:04

sentença e gerar imagens, em seguida, outros

0:07

abordagens para manipular o gerado

0:09

imagens aprendendo conceitos específicos

0:11

como um objeto ou um estilo particular

0:13

semana passada meta publicou o make a

0:16

modelo de vídeo que abordei que permite

0:18

você para gerar um pequeno vídeo também de

0:20

uma frase de texto, os resultados não são

0:22

perfeito ainda, mas o progresso que fizemos

0:24

no campo desde o ano passado é apenas

0:26

incrível esta semana fazemos outro

0:28

passo em frente aqui está o sonho Fusion um novo

0:32

modelo de pesquisa do Google que pode

0:34

entender uma frase o suficiente para gerar

0:36

um modelo 3D dele, você pode ver isso como

0:39

uma difusão diária ou estável, mas em 3D

0:41

quão legal é que não podemos fazer muito

0:44

mais legal, mas o que é ainda mais fascinante

0:46

é assim que funciona, vamos mergulhar nisso, mas

0:49

primeiro me dê alguns segundos para falar

0:51

sobre um assunto relacionado visão computacional

0:53

você vai querer ouvir isso se você estiver em

0:55

este campo também para este vídeo estou

0:57

parceria com a encord the online

1:00

plataforma de aprendizado para visão computacional

1:01

os dados são uma das partes mais importantes

1:04

de criar visão computacional inovadora

1:06

modelo é por isso que a plataforma encode tem

1:09

foi construído a partir do zero para fazer

1:10

a criação de dados de treinamento e

1:12

teste de modelos de aprendizado de máquina

1:14

mais rápido do que nunca, o encord faz

1:17

isso de duas maneiras primeiro faz isso

1:19

mais fácil de gerenciar anotar e avaliar

1:22

dados de treinamento através de uma variedade de

1:24

ferramentas de anotação colaborativas e

1:25

recursos de automação codificados em segundo lugar

1:28

oferece acesso às suas APIs de fluxos de trabalho de controle de qualidade

1:31

e SDK para que você possa criar seu próprio

1:33

Pipelines de aprendizado ativo acelerando

1:35

desenvolvimento de modelo e usando encode

1:38

você não precisa perder tempo construindo

1:39

suas próprias ferramentas de anotação permitindo que você

1:41

concentre-se em obter os dados certos

1:44

seus modelos se isso soa interessante

1:46

clique no primeiro link abaixo para obter

1:48

um teste gratuito de 28 dias do encode exclusivo

1:51

para nossa comunidade

1:54

se você tem seguido meu sonho de trabalho

1:56

A fusão é bastante simples, basicamente usa

1:59

dois modelos já cobri Nerfs e

2:02

um dos modelos de texto para imagem em seus

2:04

caso seja o modelo Imogen mas e você

2:07

fará como difusão estável ou Dolly

2:09

como você sabe se você tem sido um bom

2:11

aluno e assisti os vídeos anteriores

2:12

Nerfs são um tipo de modelo usado para renderizar

2:15

Cenas 3D gerando Radiância neural

2:18

campo de uma ou mais imagens de um

2:21

objeto, mas então como você pode gerar um

2:23

Renderização 3D de texto se o modelo Nerf

2:26

só funciona com imagens bem que usamos

2:29

imagine a outra IA para gerar a imagem

2:31

variações do que é preciso e por que

2:34

fazemos isso em vez de diretamente

2:36

gerar modelos 3D a partir de texto porque

2:38

exigirá enormes conjuntos de dados de 3D

2:41

dados junto com seus associados

2:43

legendas para o nosso modelo ser treinado

2:46

o que será muito difícil de ter

2:48

em vez disso, usamos um texto pré-treinado para

2:50

modelo de imagem com dados muito menos complexos

2:53

juntos e adaptamos para 3D para que

2:56

não requer nenhum dado 3D para ser

2:57

treinado apenas em uma IA pré-existente para

3:00

gerar imagens é muito legal como

3:03

podemos reutilizar tecnologias poderosas para

3:05

novas tarefas como esta ao interpretar

3:07

o problema de forma diferente, então se começarmos

3:09

desde o início temos um modelo Nerf

3:12

como expliquei em vídeos anteriores este

3:14

tipo de modelo tira imagens para prever

3:17

os pixels em cada visão nova, criando uma

3:20

Modelo 3D aprendendo com pares de imagens de

3:22

o mesmo objeto com diferentes

3:24

pontos de vista no nosso caso não começamos

3:26

com imagens diretamente, começamos com o

3:28

texto e amostra de uma exibição aleatória

3:30

orientação queremos gerar uma imagem

3:33

pois basicamente estamos tentando criar um

3:35

Modelo 3D gerando imagens de todos

3:38

possíveis ângulos que uma câmera poderia cobrir

3:40

olhando ao redor do objeto e adivinhando

3:42

os pixels cores densidades luz

3:45

Reflexões Etc tudo o que é necessário para

3:48

torná-lo realista, então começamos

3:50

com uma legenda e adicione um pequeno ajuste

3:52

dependendo da câmera aleatória

3:54

ponto de vista que queremos gerar para

3:56

exemplo, podemos querer gerar uma frente

3:58

vista para que possamos anexar a vista frontal a

4:01

a legenda do outro lado usamos o

4:03

mesmo ângulo e parâmetros da câmera para

4:05

modelo Nerf inicial não treinado para

4:09

prever a primeira renderização, então nós

4:11

gerar uma versão de imagem Guiado por nosso

4:13

legenda e renderização inicial com adicionado

4:17

ruído usando imagine nosso texto pré-treinado

4:20

ao modelo de imagem que expliquei melhor

4:22

na minha imagem e vídeo se você está curioso

4:24

para ver como ele faz isso para que nossa imagem e

4:26

modelo será guiado pela entrada de texto

4:28

bem como a renderização atual do

4:30

objeto com ruído adicionado aqui nós adicionamos

4:33

ruído porque é isso que a imagem e

4:36

módulo pode receber como entrada, ele precisa ser

4:38

parte de uma distribuição de ruído

4:40

entende que usamos o modelo para gerar

4:43

uma imagem de maior qualidade adicione a imagem

4:45

usado para gerá-lo e remover o ruído

4:48

Adicionamos manualmente para usar este resultado para

4:51

orientar e melhorar nosso modelo Nerf para o

4:54

próximo passo fazemos tudo isso para melhor

4:55

entenda onde na imagem o Nerf

4:57

modelo deve centrar a sua atenção

4:59

produzir melhores resultados para a próxima etapa

5:01

e repetimos isso até que o modelo 3D esteja

5:05

satisfazendo o suficiente, você pode exportar

5:07

este modelo para malhar e usá-lo em uma cena

5:10

de sua escolha e antes de alguns de vocês

5:12

pergunte não, você não precisa treinar novamente o

5:15

modelo de gerador de imagem como eles dizem

5:17

bem no papel ele apenas age como um

5:19

crítico congelado que prevê o espaço da imagem

5:21

edita e voira assim sonha Fusion

5:25

gera renderização 3D a partir de entradas de texto

5:28

se você gostaria de ter um conhecimento mais profundo

5:30

compreensão da abordagem tem um

5:32

veja meus vídeos cobrindo nervos e

5:34

Imogen também convido você a ler seus

5:36

papel para obter mais detalhes sobre este específico

5:39

método obrigado por assistir todo

5:41

vídeo e vejo você na próxima semana com

5:44

outro papel incrível