Já ouvimos falar de deepfakes , ouvimos falar de e vimos esses tipos de aplicativos que permitem recriar o rosto de alguém e praticamente fazê-lo dizer o que você quiser.
O que você talvez não saiba é o quão ineficientes são esses métodos e quanta computação e tempo eles exigem. Além disso, vemos apenas os melhores resultados. Lembre-se de que o que vemos online são os resultados associados aos rostos dos quais poderíamos encontrar a maioria dos exemplos, então, basicamente, personalidades da Internet e os modelos que produzem esses resultados são treinados usando muita computação, o que significa recursos caros como muitas placas gráficas. Ainda assim, os resultados são realmente impressionantes e estão cada vez melhores.
Felizmente, algumas pessoas como Jiaxian Tang e colegas estão trabalhando para tornar esses métodos mais disponíveis e eficazes com um novo modelo chamado RAD-NeRF.
A partir de um único vídeo, eles podem sintetizar a pessoa falando praticamente qualquer palavra ou frase em tempo real com melhor qualidade. Você pode animar uma cabeça falante seguindo qualquer faixa de áudio em tempo real. Isso é tão legal e tão assustador ao mesmo tempo...
►Tang, J., Wang, K., Zhou, H., Chen, X., He, D., Hu, T., Liu, J., Zeng, G. e Wang, J., 2022. Real- Síntese de Retrato Falante de Radiância Neural de tempo via Decomposição Audioespacial. pré-impressão arXiv arXiv:2211.12368 .
►Página de resultados/projeto: https://me.kiui.moe/radnerf/
0:02
[Música]
0:07
já ouvimos falar de deep fakes já ouvimos falar
0:09
Nerfs e vimos esses tipos de
0:11
aplicações que lhe permitem recriar
0:13
o rosto de alguém e praticamente torná-lo
0:15
diga o que quiser o que você não pode
0:17
sei é o quão ineficientes esses métodos
0:20
são e quanto de computação e tempo eles
0:22
exigem mais só vemos o melhor
0:24
resultados tenha em mente que o que vemos
0:26
online são os resultados associados a
0:29
os rostos que poderíamos encontrar a maioria dos exemplos de
0:31
então, basicamente, personalidades da internet e
0:34
os modelos que produzem esses resultados são
0:36
treinado usando muito significado de computação
0:38
recursos caros como muitos gráficos
0:41
cartões ainda os resultados são realmente
0:43
impressionante e só melhorando
0:45
felizmente algumas pessoas como Jackson
0:47
Tang e seus colegas estão trabalhando em
0:49
tornar esses métodos mais disponíveis e
0:52
eficaz com um novo modelo chamado vermelho
0:54
Nerf, mas vamos ouvir isso de seus próprios
0:57
modelo olá obrigado por assistir o
0:59
vídeo complementar para o nosso papel
1:00
cabeça falante de radiância neural em tempo real
1:03
síntese via áudio espacial decomposto
1:05
codificação
1:06
nosso método é específico da pessoa e apenas
1:08
precisa de um monocular de três a cinco minutos
1:10
vídeo para treinamento
1:11
após o treinamento, o modelo pode sintetizar
1:14
Talking Heads realistas conduzidos por
1:15
áudio arbitrário em tempo real enquanto
1:17
mantendo a renderização comparável ou melhor
1:19
qualidade em comparação com os métodos anteriores
1:21
você ouviu isso em um único vídeo
1:23
eles podem sintetizar a pessoa falando
1:26
para praticamente qualquer palavra ou frase em
1:28
tempo real com melhor qualidade você pode
1:30
animar uma cabeça falante seguindo qualquer
1:33
faixa de áudio em tempo real isso é tão
1:36
legal e tão assustador ao mesmo tempo
1:39
imagine o que poderia ser feito se pudéssemos
1:40
fazer você dizer qualquer coisa, pelo menos eles
1:43
ainda precisa de acesso a um vídeo seu
1:45
falando na frente da câmera por 5
1:47
minutos, então é difícil conseguir isso
1:48
sem você saber ainda assim que você
1:51
aparecer online qualquer um poderá usar
1:53
tal modelo e criar vídeos infinitos
1:56
de você falando sobre qualquer coisa que eles querem
1:58
eles podem até hospedar transmissões ao vivo com
2:00
este método que é ainda mais perigoso
2:03
e torna ainda mais difícil dizer roupa de mergulho
2:05
ou não, mesmo que isso seja
2:08
interessante e eu adoraria ouvir o seu
2:10
pensamentos nos comentários e manter o
2:11
questão de discussão indo aqui eu queria
2:13
para cobrir algo que é apenas positivo
2:15
e ciência emocionante mais precisamente como
2:19
eles conseguiram animar Talking
2:20
Heads em tempo real a partir de qualquer áudio usando
2:23
apenas um vídeo do rosto como eles afirmam
2:26
seu modelo Nerf vermelho pode rodar 500 vezes
2:29
mais rápido que o anterior funciona com
2:31
melhor qualidade de renderização e mais
2:33
controle você pode perguntar como isso é possível
2:36
geralmente trocamos qualidade por eficiência
2:39
ainda assim, eles conseguem melhorar tanto
2:41
incrivelmente essas imensas melhorias
2:43
são possíveis graças a três pontos principais
2:46
os dois primeiros estão relacionados com o
2:48
arquitetura do modelo mais
2:50
especificamente como eles adaptaram o Nerf
2:52
abordagem para torná-lo mais eficiente e
2:54
com movimentos melhorados do tronco e
2:57
cabeça o primeiro passo é deixar os nervos
2:59
mais eficiente, não vou me aprofundar em como
3:02
Nerfs funcionam desde que cobrimos vários
3:04
tempo, basicamente, é uma abordagem baseada em
3:06
redes neurais para reconstruir 3D
3:09
cenas volumétricas de um monte de 2D em
3:11
imagens, o que significa imagens regulares
3:14
é por isso que eles aceitam um vídeo como entrada
3:17
como basicamente lhe dá um monte de
3:19
imagens de uma pessoa de muitos diferentes
3:21
ângulos, então geralmente usa uma rede para
3:24
prever todas as cores e densidades de pixels
3:26
do ponto de vista da câmera você está
3:28
visualizando e faz isso para todos
3:31
pontos de vista que você deseja mostrar quando
3:32
girando em torno do assunto que é
3:34
extremamente faminto por computação como você
3:37
prever vários parâmetros para cada
3:39
coordenar na imagem toda vez e
3:41
você está aprendendo a prever todos eles
3:43
Além disso, no caso deles, não é apenas um Nerf
3:46
produção ou cena 3D também tem que
3:49
corresponder a uma entrada de áudio e ajustar os lábios
3:51
boca olhos e movimentos com o que
3:53
pessoa diz em vez de prever tudo
3:56
densidades de pixels e cores correspondentes
3:58
áudio para um quadro específico que eles
4:00
trabalhar com dois novos e condensados separados
4:03
espaços chamados espaços de grade ou baseados em grade
4:06
Nerf eles vão traduzir seus
4:08
coordenadas em um espaço de grade 3D menor
4:11
trans colocou seu áudio em um 2D menor
4:13
espaço da grade e, em seguida, enviá-los para renderizar
4:16
a cabeça, isso significa que eles nunca mesclam o
4:19
dados de áudio com os dados espaciais que
4:22
aumentará o tamanho exponencialmente
4:23
adicionando entradas bidimensionais a cada
4:26
coordenar, reduzindo assim o tamanho do
4:29
recursos de áudio, além de manter o
4:31
recursos de áudio e espaciais separados é
4:34
o que torna a abordagem muito mais
4:36
eficiente, mas como os resultados podem ser
4:38
melhor se eles usarem espaços condensados que
4:40
ter menos informações adicionando alguns
4:42
recursos controláveis como um olho
4:44
controle piscando para nossa grade Nerf the
4:47
modelo vai aprender mais realista
4:48
comportamentos para os olhos em comparação com
4:51
anterior aborda algo realmente
4:53
importante para o realismo o segundo
4:55
A melhoria que eles fizeram é modelar o
4:57
Torso com outro Nerf usando o mesmo
5:00
abordagem em vez de tentar modelá-la
5:02
com o mesmo Nerf usado mais cabeça
5:04
que exigirá muito menos parâmetros
5:07
e necessidades diferentes, pois o objetivo aqui é
5:09
para animar cabeças em movimento e não inteiras
5:12
corpos já que o Torso é praticamente
5:14
estáticos nesses casos eles usam muito
5:16
baseado em Nerf mais simples e eficiente
5:18
módulo que só funciona em 2D funcionando em
5:21
o espaço da imagem diretamente em vez de
5:24
usando matrizes de câmeras como costumamos fazer
5:26
com o Nerf para gerar muitos
5:28
ângulos que não são necessários para um torso
5:30
então é basicamente muito mais eficiente
5:32
porque eles modificaram a abordagem para
5:35
este caso de uso muito específico do rígido
5:37
vídeos de torso e cabeça em movimento, eles então
5:40
recompor a cabeça com o tronco para
5:42
produzir o vídeo final e pronto
5:45
é como você produz vídeos de cabeça falante
5:47
sobre qualquer entrada de áudio de forma super eficiente
5:50
claro que isso foi apenas uma visão geral
5:53
esta nova e empolgante publicação de pesquisa
5:55
e eles fazem outras modificações durante
5:57
o treinamento de seu algoritmo para fazer
5:59
é mais eficiente que é o terceiro
6:01
ponto que mencionei no início do
6:03
o vídeo se você estava se perguntando eu convido
6:05
você a ler o jornal deles para saber mais
6:07
informações o link está no
6:09
descrição abaixo antes de sair eu
6:10
só queria agradecer as pessoas que
6:12
recentemente apoiou este canal através
6:14
patreon isso não é necessário e
6:16
estritamente para apoiar o trabalho que faço aqui
6:18
muito obrigado a artem vladiken Leopoldo
6:22
Alta Murano J Cole Michael carichao
6:25
Daniel gimness e alguns Anonymous
6:28
doadores generosos será muito
6:30
apreciado se você também quiser e puder
6:33
pagar para sustentar meu trabalho financeiramente
6:35
o link para minha página patreon está no
6:37
descrição abaixo também, mas não se preocupe
6:39
se não um comentário sincero abaixo disso
6:42
vídeo é tudo que eu preciso para ser mais feliz espero
6:45
você gostou deste vídeo e eu vou ver
6:47
você na próxima semana com outro papel incrível
6:51
[Música]