paint-brush
NeRFs eficientes para síntese de retrato em tempo real (RAD-NeRF)por@whatsai
2,132 leituras
2,132 leituras

NeRFs eficientes para síntese de retrato em tempo real (RAD-NeRF)

por Louis Bouchard6m2022/12/05
Read on Terminal Reader

Muito longo; Para ler

Já ouvimos falar de deepfakes, ouvimos falar de NeRFs e vimos esses tipos de aplicativos que permitem recriar o rosto de alguém e praticamente fazê-lo dizer o que você quiser. O que você talvez não saiba é o quão ineficientes são esses métodos e quanta computação e tempo eles exigem. Além disso, vemos apenas os melhores resultados. Lembre-se de que o que vemos online são os resultados associados aos rostos dos quais poderíamos encontrar a maioria dos exemplos, então, basicamente, personalidades da Internet e os modelos que produzem esses resultados são treinados usando muita computação, o que significa recursos caros como muitas placas gráficas. Ainda assim, os resultados são realmente impressionantes e estão cada vez melhores.
featured image - NeRFs eficientes para síntese de retrato em tempo real (RAD-NeRF)
Louis Bouchard HackerNoon profile picture

Já ouvimos falar de deepfakes , ouvimos falar de e vimos esses tipos de aplicativos que permitem recriar o rosto de alguém e praticamente fazê-lo dizer o que você quiser.

O que você talvez não saiba é o quão ineficientes são esses métodos e quanta computação e tempo eles exigem. Além disso, vemos apenas os melhores resultados. Lembre-se de que o que vemos online são os resultados associados aos rostos dos quais poderíamos encontrar a maioria dos exemplos, então, basicamente, personalidades da Internet e os modelos que produzem esses resultados são treinados usando muita computação, o que significa recursos caros como muitas placas gráficas. Ainda assim, os resultados são realmente impressionantes e estão cada vez melhores.

Felizmente, algumas pessoas como Jiaxian Tang e colegas estão trabalhando para tornar esses métodos mais disponíveis e eficazes com um novo modelo chamado RAD-NeRF.

A partir de um único vídeo, eles podem sintetizar a pessoa falando praticamente qualquer palavra ou frase em tempo real com melhor qualidade. Você pode animar uma cabeça falante seguindo qualquer faixa de áudio em tempo real. Isso é tão legal e tão assustador ao mesmo tempo...

Saiba mais no vídeo

Referências

►Tang, J., Wang, K., Zhou, H., Chen, X., He, D., Hu, T., Liu, J., Zeng, G. e Wang, J., 2022. Real- Síntese de Retrato Falante de Radiância Neural de tempo via Decomposição Audioespacial. pré-impressão arXiv arXiv:2211.12368 .
►Página de resultados/projeto: https://me.kiui.moe/radnerf/

Transcrição de vídeo

0:02

[Música]

0:07

já ouvimos falar de deep fakes já ouvimos falar

0:09

Nerfs e vimos esses tipos de

0:11

aplicações que lhe permitem recriar

0:13

o rosto de alguém e praticamente torná-lo

0:15

diga o que quiser o que você não pode

0:17

sei é o quão ineficientes esses métodos

0:20

são e quanto de computação e tempo eles

0:22

exigem mais só vemos o melhor

0:24

resultados tenha em mente que o que vemos

0:26

online são os resultados associados a

0:29

os rostos que poderíamos encontrar a maioria dos exemplos de

0:31

então, basicamente, personalidades da internet e

0:34

os modelos que produzem esses resultados são

0:36

treinado usando muito significado de computação

0:38

recursos caros como muitos gráficos

0:41

cartões ainda os resultados são realmente

0:43

impressionante e só melhorando

0:45

felizmente algumas pessoas como Jackson

0:47

Tang e seus colegas estão trabalhando em

0:49

tornar esses métodos mais disponíveis e

0:52

eficaz com um novo modelo chamado vermelho

0:54

Nerf, mas vamos ouvir isso de seus próprios

0:57

modelo olá obrigado por assistir o

0:59

vídeo complementar para o nosso papel

1:00

cabeça falante de radiância neural em tempo real

1:03

síntese via áudio espacial decomposto

1:05

codificação

1:06

nosso método é específico da pessoa e apenas

1:08

precisa de um monocular de três a cinco minutos

1:10

vídeo para treinamento

1:11

após o treinamento, o modelo pode sintetizar

1:14

Talking Heads realistas conduzidos por

1:15

áudio arbitrário em tempo real enquanto

1:17

mantendo a renderização comparável ou melhor

1:19

qualidade em comparação com os métodos anteriores

1:21

você ouviu isso em um único vídeo

1:23

eles podem sintetizar a pessoa falando

1:26

para praticamente qualquer palavra ou frase em

1:28

tempo real com melhor qualidade você pode

1:30

animar uma cabeça falante seguindo qualquer

1:33

faixa de áudio em tempo real isso é tão

1:36

legal e tão assustador ao mesmo tempo

1:39

imagine o que poderia ser feito se pudéssemos

1:40

fazer você dizer qualquer coisa, pelo menos eles

1:43

ainda precisa de acesso a um vídeo seu

1:45

falando na frente da câmera por 5

1:47

minutos, então é difícil conseguir isso

1:48

sem você saber ainda assim que você

1:51

aparecer online qualquer um poderá usar

1:53

tal modelo e criar vídeos infinitos

1:56

de você falando sobre qualquer coisa que eles querem

1:58

eles podem até hospedar transmissões ao vivo com

2:00

este método que é ainda mais perigoso

2:03

e torna ainda mais difícil dizer roupa de mergulho

2:05

ou não, mesmo que isso seja

2:08

interessante e eu adoraria ouvir o seu

2:10

pensamentos nos comentários e manter o

2:11

questão de discussão indo aqui eu queria

2:13

para cobrir algo que é apenas positivo

2:15

e ciência emocionante mais precisamente como

2:19

eles conseguiram animar Talking

2:20

Heads em tempo real a partir de qualquer áudio usando

2:23

apenas um vídeo do rosto como eles afirmam

2:26

seu modelo Nerf vermelho pode rodar 500 vezes

2:29

mais rápido que o anterior funciona com

2:31

melhor qualidade de renderização e mais

2:33

controle você pode perguntar como isso é possível

2:36

geralmente trocamos qualidade por eficiência

2:39

ainda assim, eles conseguem melhorar tanto

2:41

incrivelmente essas imensas melhorias

2:43

são possíveis graças a três pontos principais

2:46

os dois primeiros estão relacionados com o

2:48

arquitetura do modelo mais

2:50

especificamente como eles adaptaram o Nerf

2:52

abordagem para torná-lo mais eficiente e

2:54

com movimentos melhorados do tronco e

2:57

cabeça o primeiro passo é deixar os nervos

2:59

mais eficiente, não vou me aprofundar em como

3:02

Nerfs funcionam desde que cobrimos vários

3:04

tempo, basicamente, é uma abordagem baseada em

3:06

redes neurais para reconstruir 3D

3:09

cenas volumétricas de um monte de 2D em

3:11

imagens, o que significa imagens regulares

3:14

é por isso que eles aceitam um vídeo como entrada

3:17

como basicamente lhe dá um monte de

3:19

imagens de uma pessoa de muitos diferentes

3:21

ângulos, então geralmente usa uma rede para

3:24

prever todas as cores e densidades de pixels

3:26

do ponto de vista da câmera você está

3:28

visualizando e faz isso para todos

3:31

pontos de vista que você deseja mostrar quando

3:32

girando em torno do assunto que é

3:34

extremamente faminto por computação como você

3:37

prever vários parâmetros para cada

3:39

coordenar na imagem toda vez e

3:41

você está aprendendo a prever todos eles

3:43

Além disso, no caso deles, não é apenas um Nerf

3:46

produção ou cena 3D também tem que

3:49

corresponder a uma entrada de áudio e ajustar os lábios

3:51

boca olhos e movimentos com o que

3:53

pessoa diz em vez de prever tudo

3:56

densidades de pixels e cores correspondentes

3:58

áudio para um quadro específico que eles

4:00

trabalhar com dois novos e condensados ​​separados

4:03

espaços chamados espaços de grade ou baseados em grade

4:06

Nerf eles vão traduzir seus

4:08

coordenadas em um espaço de grade 3D menor

4:11

trans colocou seu áudio em um 2D menor

4:13

espaço da grade e, em seguida, enviá-los para renderizar

4:16

a cabeça, isso significa que eles nunca mesclam o

4:19

dados de áudio com os dados espaciais que

4:22

aumentará o tamanho exponencialmente

4:23

adicionando entradas bidimensionais a cada

4:26

coordenar, reduzindo assim o tamanho do

4:29

recursos de áudio, além de manter o

4:31

recursos de áudio e espaciais separados é

4:34

o que torna a abordagem muito mais

4:36

eficiente, mas como os resultados podem ser

4:38

melhor se eles usarem espaços condensados ​​que

4:40

ter menos informações adicionando alguns

4:42

recursos controláveis ​​como um olho

4:44

controle piscando para nossa grade Nerf the

4:47

modelo vai aprender mais realista

4:48

comportamentos para os olhos em comparação com

4:51

anterior aborda algo realmente

4:53

importante para o realismo o segundo

4:55

A melhoria que eles fizeram é modelar o

4:57

Torso com outro Nerf usando o mesmo

5:00

abordagem em vez de tentar modelá-la

5:02

com o mesmo Nerf usado mais cabeça

5:04

que exigirá muito menos parâmetros

5:07

e necessidades diferentes, pois o objetivo aqui é

5:09

para animar cabeças em movimento e não inteiras

5:12

corpos já que o Torso é praticamente

5:14

estáticos nesses casos eles usam muito

5:16

baseado em Nerf mais simples e eficiente

5:18

módulo que só funciona em 2D funcionando em

5:21

o espaço da imagem diretamente em vez de

5:24

usando matrizes de câmeras como costumamos fazer

5:26

com o Nerf para gerar muitos

5:28

ângulos que não são necessários para um torso

5:30

então é basicamente muito mais eficiente

5:32

porque eles modificaram a abordagem para

5:35

este caso de uso muito específico do rígido

5:37

vídeos de torso e cabeça em movimento, eles então

5:40

recompor a cabeça com o tronco para

5:42

produzir o vídeo final e pronto

5:45

é como você produz vídeos de cabeça falante

5:47

sobre qualquer entrada de áudio de forma super eficiente

5:50

claro que isso foi apenas uma visão geral

5:53

esta nova e empolgante publicação de pesquisa

5:55

e eles fazem outras modificações durante

5:57

o treinamento de seu algoritmo para fazer

5:59

é mais eficiente que é o terceiro

6:01

ponto que mencionei no início do

6:03

o vídeo se você estava se perguntando eu convido

6:05

você a ler o jornal deles para saber mais

6:07

informações o link está no

6:09

descrição abaixo antes de sair eu

6:10

só queria agradecer as pessoas que

6:12

recentemente apoiou este canal através

6:14

patreon isso não é necessário e

6:16

estritamente para apoiar o trabalho que faço aqui

6:18

muito obrigado a artem vladiken Leopoldo

6:22

Alta Murano J Cole Michael carichao

6:25

Daniel gimness e alguns Anonymous

6:28

doadores generosos será muito

6:30

apreciado se você também quiser e puder

6:33

pagar para sustentar meu trabalho financeiramente

6:35

o link para minha página patreon está no

6:37

descrição abaixo também, mas não se preocupe

6:39

se não um comentário sincero abaixo disso

6:42

vídeo é tudo que eu preciso para ser mais feliz espero

6:45

você gostou deste vídeo e eu vou ver

6:47

você na próxima semana com outro papel incrível

6:51

[Música]