Hemos oído hablar de deepfakes , hemos oído hablar de y hemos visto este tipo de aplicaciones que te permiten recrear la cara de alguien y hacer que diga lo que quieras.
Lo que quizás no sepa es cuán ineficientes son esos métodos y cuánto tiempo y computación requieren. Además, solo vemos los mejores resultados. Tenga en cuenta que lo que vemos en línea son los resultados asociados con las caras de las que pudimos encontrar la mayoría de los ejemplos, por lo que, básicamente, las personalidades de Internet y los modelos que producen esos resultados se entrenan con mucha informática, lo que significa recursos costosos como muchas tarjetas gráficas. Aún así, los resultados son realmente impresionantes y solo están mejorando.
Afortunadamente, algunas personas como Jiaxian Tang y sus colegas están trabajando para hacer que esos métodos estén más disponibles y sean más efectivos con un nuevo modelo llamado RAD-NeRF.
A partir de un solo video, pueden sintetizar a la persona que habla prácticamente cualquier palabra u oración en tiempo real con mejor calidad. Puede animar una cabeza parlante siguiendo cualquier pista de audio en tiempo real. Esto es tan genial y tan aterrador al mismo tiempo...
►Tang, J., Wang, K., Zhou, H., Chen, X., He, D., Hu, T., Liu, J., Zeng, G. y Wang, J., 2022. Real- tiempo Neural Radiance Talking Portrait Synthesis a través de Audio-space Decomposition. preimpresión de arXiv arXiv:2211.12368 .
►Página de resultados/proyecto: https://me.kiui.moe/radnerf/
0:02
[Música]
0:07
hemos oído hablar de falsificaciones profundas de las que hemos oído hablar
0:09
Nerfs y hemos visto este tipo de
0:11
aplicaciones que le permiten recrear
0:13
la cara de alguien y prácticamente hacerlo
0:15
di lo que quieras lo que no
0:17
saber es cuán ineficientes son esos métodos
0:20
son y cuánto Informática y el tiempo que
0:22
require plus solo vemos lo mejor
0:24
resultados ten en cuenta que lo que vemos
0:26
en línea son los resultados asociados con
0:29
las caras que pudimos encontrar más ejemplos de
0:31
así que básicamente personalidades de Internet y
0:34
los modelos que producen esos resultados son
0:36
entrenado usando mucho significado informático
0:38
recursos caros como muchos gráficos
0:41
tarjetas todavía los resultados son realmente
0:43
impresionante y solo mejorando
0:45
afortunadamente algunas personas como Jackson
0:47
Tang y sus colegas están trabajando en
0:49
hacer que esos métodos estén más disponibles y
0:52
efectivo con un nuevo modelo llamado rojo
0:54
Nerf, pero escuchemos eso de su propia cuenta.
0:57
hola modelo gracias por ver el
0:59
video complementario para nuestro artículo
1:00
cabeza parlante Radiance neuronal en tiempo real
1:03
síntesis a través de audio espacial descompuesto
1:05
codificación
1:06
nuestro método es específico de la persona y solo
1:08
necesita un monocular de tres a cinco minutos
1:10
vídeo para entrenar
1:11
después del entrenamiento, el modelo puede sintetizar
1:14
Talking Heads realistas impulsados por
1:15
audio arbitrario en tiempo real mientras
1:17
mantener una representación comparable o mejor
1:19
calidad en comparación con los métodos anteriores, por lo que
1:21
escuchaste eso directamente en un solo video
1:23
pueden sintetizar a la persona que habla
1:26
para casi cualquier palabra u oración en
1:28
tiempo real con mejor calidad que puede
1:30
animar una cabeza parlante siguiendo cualquier
1:33
pista de audio en tiempo real esto es tanto
1:36
genial y tan aterrador al mismo tiempo solo
1:39
imagina lo que se podría hacer si pudiéramos
1:40
te hacen decir cualquier cosa al menos ellos
1:43
Todavía necesito acceso a un video tuyo
1:45
hablando frente a la cámara por 5
1:47
minutos por lo que es difícil lograr eso
1:48
sin que tu sepas aun tan pronto como tu
1:51
aparecer en línea cualquiera podrá usar
1:53
tal modelo y crear videos infinitos
1:56
de ustedes hablando de lo que quieran
1:58
incluso pueden albergar transmisiones en vivo con
2:00
este método que es aún más peligroso
2:03
y hace que sea aún más difícil decir traje de neopreno
2:05
o no de todos modos a pesar de que esto es
2:08
interesante y me encantaría escuchar tu
2:10
pensamientos en los comentarios y mantener el
2:11
pregunta de discusión va aquí quería
2:13
tapar algo que solo es positivo
2:15
y emocionante ciencia más precisamente cómo
2:19
lograron animar Talking
2:20
Cabezas en tiempo real desde cualquier audio usando
2:23
solo un video de la cara como dicen
2:26
su modelo Nerf rojo puede funcionar 500 veces
2:29
más rápido que los trabajos anteriores con
2:31
mejor calidad de renderizado y más
2:33
control usted puede preguntar cómo es eso posible
2:36
solemos cambiar calidad por eficiencia
2:39
sin embargo, logran mejorar ambos
2:41
increíblemente estas inmensas mejoras
2:43
son posibles gracias a tres puntos principales
2:46
Los dos primeros están relacionados con el
2:48
arquitectura del modelo más
2:50
específicamente cómo adaptaron el Nerf
2:52
enfoque para hacerlo más eficiente y
2:54
con movimientos mejorados del Torso y
2:57
cabeza el primer paso es poner nervios
2:59
más eficiente no me sumergiré en cómo
3:02
Nerfs funciona ya que lo cubrimos numerosos
3:04
tiempo básicamente es un enfoque basado en
3:06
redes neuronales para reconstruir en 3D
3:09
escenas volumétricas de un montón de 2D en
3:11
imágenes lo que significa imágenes regulares este
3:14
es por eso que tomarán un video como entrada
3:17
ya que básicamente te da un montón de
3:19
imágenes de una persona de muchos diferentes
3:21
ángulos por lo que normalmente utiliza una red para
3:24
predecir todos los colores y densidades de píxeles
3:26
desde el punto de vista de la cámara estás
3:28
visualizando y hace eso para todos
3:31
puntos de vista que desea mostrar cuando
3:32
girando alrededor del sujeto que está
3:34
extremadamente hambriento de computación como tú
3:37
predecir múltiples parámetros para cada
3:39
coordinar en la imagen cada vez y
3:41
estás aprendiendo a predecirlos todos
3:43
Además, en su caso, no es solo un Nerf
3:46
producción o escena 3D también tiene que
3:49
haga coincidir una entrada de audio y ajuste los labios
3:51
boca ojos y movimientos con lo que el
3:53
persona dice en lugar de predecir todo
3:56
densidades de píxeles y colores que coincidan con los
3:58
audio para un cuadro específico que
4:00
trabajar con dos nuevos y condensados separados
4:03
espacios llamados espacios de cuadrícula o basados en cuadrícula
4:06
Nerf traducirán su
4:08
coordenadas en un espacio de cuadrícula 3D más pequeño
4:11
trans colocó su audio en un 2D más pequeño
4:13
espacio de cuadrícula y luego enviarlos para renderizar
4:16
la cabeza esto significa que nunca fusionan el
4:19
datos de audio con los datos espaciales que
4:22
aumentará el tamaño exponencialmente
4:23
agregando entradas bidimensionales a cada
4:26
coordinar para reducir el tamaño de la
4:29
características de audio además de mantener la
4:31
características de audio y espaciales separadas es
4:34
lo que hace que el enfoque sea mucho más
4:36
eficiente, pero ¿cómo pueden ser los resultados
4:38
mejor si utilizan espacios condensados que
4:40
tener menos información agregando algunos
4:42
características controlables como un ojo
4:44
control intermitente a nuestra red Nerf el
4:47
el modelo aprenderá más realista
4:48
comportamientos para los ojos en comparación con
4:51
enfoques anteriores algo realmente
4:53
importante para el realismo el segundo
4:55
La mejora que han hecho es modelar el
4:57
Torso con otro Nerf usando el mismo
5:00
enfoque en lugar de tratar de modelarlo
5:02
con el mismo Nerf usado más cabeza
5:04
que requerirá muchos menos parámetros
5:07
y diferentes necesidades ya que el objetivo aquí es
5:09
para animar cabezas móviles y no enteras
5:12
cuerpos ya que el Torso es bastante
5:14
estática en estos casos utilizan mucho
5:16
basado en Nerf más simple y más eficiente
5:18
módulo que solo funciona en 2D trabajando en
5:21
el espacio de la imagen directamente en lugar de
5:24
utilizando conjuntos de cámaras como solemos hacer
5:26
con Nerf para generar muchos diferentes
5:28
ángulos que no son necesarios para un torso
5:30
por lo que es básicamente mucho más eficiente
5:32
porque modificaron el enfoque para
5:35
este caso de uso muy específico del rígido
5:37
videos de torso y cabeza móvil que luego
5:40
recomponer la cabeza con el Torso para
5:42
producir el video final y listo esto
5:45
es como se producen videos de cabezas parlantes
5:47
sobre cualquier entrada de audio de manera súper eficiente
5:50
por supuesto, esto fue solo una descripción general de
5:53
esta nueva y emocionante publicación de investigación
5:55
y hacen otras modificaciones durante
5:57
el entrenamiento de su algoritmo para hacer
5:59
es mas eficiente cual es el tercero
6:01
punto que mencioné al principio de
6:03
el video si te preguntabas te invito
6:05
que lea su periódico para obtener más
6:07
informacion el link esta en el
6:09
descripción a continuación antes de salir I
6:10
Solo quería agradecer a las personas que
6:12
recientemente apoyó este canal a través de
6:14
patreon esto no es necesario y
6:16
estrictamente para apoyar el trabajo que hago aquí
6:18
muchas gracias a artem vladiken leopoldo
6:22
Alta Murano J Cole Michael carichao
6:25
daniel gimness y algunos anónimos
6:28
generosos donantes será grandemente
6:30
apreciado si tu tambien quieres y puedes
6:33
darme el lujo de apoyar mi trabajo financieramente
6:35
el enlace a mi pagina de patreon esta en el
6:37
descripción a continuación también, pero no se preocupe
6:39
si no un comentario sincero debajo de este
6:42
El video es todo lo que necesito para ser más feliz, espero.
6:45
has disfrutado este video y voy a ver
6:47
la semana que viene con otro papel increíble
6:51
[Música]