Já ouvimos falar de , ouvimos falar de e vimos esses tipos de aplicativos que permitem recriar o rosto de alguém e praticamente fazê-lo dizer o que você quiser. deepfakes NeRFs O que você talvez não saiba é o quão ineficientes são esses métodos e quanta computação e tempo eles exigem. Além disso, vemos apenas os melhores resultados. Lembre-se de que o que vemos online são os resultados associados aos rostos dos quais poderíamos encontrar a maioria dos exemplos, então, basicamente, personalidades da Internet e os modelos que produzem esses resultados são treinados usando muita computação, o que significa recursos caros como muitas placas gráficas. Ainda assim, os resultados são realmente impressionantes e estão cada vez melhores. Felizmente, algumas pessoas como Jiaxian Tang e colegas estão trabalhando para tornar esses métodos mais disponíveis e eficazes com um novo modelo chamado RAD-NeRF. A partir de um único vídeo, eles podem sintetizar a pessoa falando praticamente qualquer palavra ou frase em tempo real com melhor qualidade. Você pode animar uma cabeça falante seguindo qualquer faixa de áudio em tempo real. Isso é tão legal e tão assustador ao mesmo tempo... Saiba mais no vídeo Referências ►Tang, J., Wang, K., Zhou, H., Chen, X., He, D., Hu, T., Liu, J., Zeng, G. e Wang, J., 2022. Real- Síntese de Retrato Falante de Radiância Neural de tempo via Decomposição Audioespacial. . ►Página de resultados/projeto: pré-impressão arXiv arXiv:2211.12368 https://me.kiui.moe/radnerf/ Transcrição de vídeo 0:02 [Música] 0:07 já ouvimos falar de deep fakes já ouvimos falar 0:09 Nerfs e vimos esses tipos de 0:11 aplicações que lhe permitem recriar 0:13 o rosto de alguém e praticamente torná-lo 0:15 diga o que quiser o que você não pode 0:17 sei é o quão ineficientes esses métodos 0:20 são e quanto de computação e tempo eles 0:22 exigem mais só vemos o melhor 0:24 resultados tenha em mente que o que vemos 0:26 online são os resultados associados a 0:29 os rostos que poderíamos encontrar a maioria dos exemplos de 0:31 então, basicamente, personalidades da internet e 0:34 os modelos que produzem esses resultados são 0:36 treinado usando muito significado de computação 0:38 recursos caros como muitos gráficos 0:41 cartões ainda os resultados são realmente 0:43 impressionante e só melhorando 0:45 felizmente algumas pessoas como Jackson 0:47 Tang e seus colegas estão trabalhando em 0:49 tornar esses métodos mais disponíveis e 0:52 eficaz com um novo modelo chamado vermelho 0:54 Nerf, mas vamos ouvir isso de seus próprios 0:57 modelo olá obrigado por assistir o 0:59 vídeo complementar para o nosso papel 1:00 cabeça falante de radiância neural em tempo real 1:03 síntese via áudio espacial decomposto 1:05 codificação 1:06 nosso método é específico da pessoa e apenas 1:08 precisa de um monocular de três a cinco minutos 1:10 vídeo para treinamento 1:11 após o treinamento, o modelo pode sintetizar 1:14 Talking Heads realistas conduzidos por 1:15 áudio arbitrário em tempo real enquanto 1:17 mantendo a renderização comparável ou melhor 1:19 qualidade em comparação com os métodos anteriores 1:21 você ouviu isso em um único vídeo 1:23 eles podem sintetizar a pessoa falando 1:26 para praticamente qualquer palavra ou frase em 1:28 tempo real com melhor qualidade você pode 1:30 animar uma cabeça falante seguindo qualquer 1:33 faixa de áudio em tempo real isso é tão 1:36 legal e tão assustador ao mesmo tempo 1:39 imagine o que poderia ser feito se pudéssemos 1:40 fazer você dizer qualquer coisa, pelo menos eles 1:43 ainda precisa de acesso a um vídeo seu 1:45 falando na frente da câmera por 5 1:47 minutos, então é difícil conseguir isso 1:48 sem você saber ainda assim que você 1:51 aparecer online qualquer um poderá usar 1:53 tal modelo e criar vídeos infinitos 1:56 de você falando sobre qualquer coisa que eles querem 1:58 eles podem até hospedar transmissões ao vivo com 2:00 este método que é ainda mais perigoso 2:03 e torna ainda mais difícil dizer roupa de mergulho 2:05 ou não, mesmo que isso seja 2:08 interessante e eu adoraria ouvir o seu 2:10 pensamentos nos comentários e manter o 2:11 questão de discussão indo aqui eu queria 2:13 para cobrir algo que é apenas positivo 2:15 e ciência emocionante mais precisamente como 2:19 eles conseguiram animar Talking 2:20 Heads em tempo real a partir de qualquer áudio usando 2:23 apenas um vídeo do rosto como eles afirmam 2:26 seu modelo Nerf vermelho pode rodar 500 vezes 2:29 mais rápido que o anterior funciona com 2:31 melhor qualidade de renderização e mais 2:33 controle você pode perguntar como isso é possível 2:36 geralmente trocamos qualidade por eficiência 2:39 ainda assim, eles conseguem melhorar tanto 2:41 incrivelmente essas imensas melhorias 2:43 são possíveis graças a três pontos principais 2:46 os dois primeiros estão relacionados com o 2:48 arquitetura do modelo mais 2:50 especificamente como eles adaptaram o Nerf 2:52 abordagem para torná-lo mais eficiente e 2:54 com movimentos melhorados do tronco e 2:57 cabeça o primeiro passo é deixar os nervos 2:59 mais eficiente, não vou me aprofundar em como 3:02 Nerfs funcionam desde que cobrimos vários 3:04 tempo, basicamente, é uma abordagem baseada em 3:06 redes neurais para reconstruir 3D 3:09 cenas volumétricas de um monte de 2D em 3:11 imagens, o que significa imagens regulares 3:14 é por isso que eles aceitam um vídeo como entrada 3:17 como basicamente lhe dá um monte de 3:19 imagens de uma pessoa de muitos diferentes 3:21 ângulos, então geralmente usa uma rede para 3:24 prever todas as cores e densidades de pixels 3:26 do ponto de vista da câmera você está 3:28 visualizando e faz isso para todos 3:31 pontos de vista que você deseja mostrar quando 3:32 girando em torno do assunto que é 3:34 extremamente faminto por computação como você 3:37 prever vários parâmetros para cada 3:39 coordenar na imagem toda vez e 3:41 você está aprendendo a prever todos eles 3:43 Além disso, no caso deles, não é apenas um Nerf 3:46 produção ou cena 3D também tem que 3:49 corresponder a uma entrada de áudio e ajustar os lábios 3:51 boca olhos e movimentos com o que 3:53 pessoa diz em vez de prever tudo 3:56 densidades de pixels e cores correspondentes 3:58 áudio para um quadro específico que eles 4:00 trabalhar com dois novos e condensados separados 4:03 espaços chamados espaços de grade ou baseados em grade 4:06 Nerf eles vão traduzir seus 4:08 coordenadas em um espaço de grade 3D menor 4:11 trans colocou seu áudio em um 2D menor 4:13 espaço da grade e, em seguida, enviá-los para renderizar 4:16 a cabeça, isso significa que eles nunca mesclam o 4:19 dados de áudio com os dados espaciais que 4:22 aumentará o tamanho exponencialmente 4:23 adicionando entradas bidimensionais a cada 4:26 coordenar, reduzindo assim o tamanho do 4:29 recursos de áudio, além de manter o 4:31 recursos de áudio e espaciais separados é 4:34 o que torna a abordagem muito mais 4:36 eficiente, mas como os resultados podem ser 4:38 melhor se eles usarem espaços condensados que 4:40 ter menos informações adicionando alguns 4:42 recursos controláveis como um olho 4:44 controle piscando para nossa grade Nerf the 4:47 modelo vai aprender mais realista 4:48 comportamentos para os olhos em comparação com 4:51 anterior aborda algo realmente 4:53 importante para o realismo o segundo 4:55 A melhoria que eles fizeram é modelar o 4:57 Torso com outro Nerf usando o mesmo 5:00 abordagem em vez de tentar modelá-la 5:02 com o mesmo Nerf usado mais cabeça 5:04 que exigirá muito menos parâmetros 5:07 e necessidades diferentes, pois o objetivo aqui é 5:09 para animar cabeças em movimento e não inteiras 5:12 corpos já que o Torso é praticamente 5:14 estáticos nesses casos eles usam muito 5:16 baseado em Nerf mais simples e eficiente 5:18 módulo que só funciona em 2D funcionando em 5:21 o espaço da imagem diretamente em vez de 5:24 usando matrizes de câmeras como costumamos fazer 5:26 com o Nerf para gerar muitos 5:28 ângulos que não são necessários para um torso 5:30 então é basicamente muito mais eficiente 5:32 porque eles modificaram a abordagem para 5:35 este caso de uso muito específico do rígido 5:37 vídeos de torso e cabeça em movimento, eles então 5:40 recompor a cabeça com o tronco para 5:42 produzir o vídeo final e pronto 5:45 é como você produz vídeos de cabeça falante 5:47 sobre qualquer entrada de áudio de forma super eficiente 5:50 claro que isso foi apenas uma visão geral 5:53 esta nova e empolgante publicação de pesquisa 5:55 e eles fazem outras modificações durante 5:57 o treinamento de seu algoritmo para fazer 5:59 é mais eficiente que é o terceiro 6:01 ponto que mencionei no início do 6:03 o vídeo se você estava se perguntando eu convido 6:05 você a ler o jornal deles para saber mais 6:07 informações o link está no 6:09 descrição abaixo antes de sair eu 6:10 só queria agradecer as pessoas que 6:12 recentemente apoiou este canal através 6:14 patreon isso não é necessário e 6:16 estritamente para apoiar o trabalho que faço aqui 6:18 muito obrigado a artem vladiken Leopoldo 6:22 Alta Murano J Cole Michael carichao 6:25 Daniel gimness e alguns Anonymous 6:28 doadores generosos será muito 6:30 apreciado se você também quiser e puder 6:33 pagar para sustentar meu trabalho financeiramente 6:35 o link para minha página patreon está no 6:37 descrição abaixo também, mas não se preocupe 6:39 se não um comentário sincero abaixo disso 6:42 vídeo é tudo que eu preciso para ser mais feliz espero 6:45 você gostou deste vídeo e eu vou ver 6:47 você na próxima semana com outro papel incrível 6:51 [Música]