paint-brush
Efficient NeRFs for Real-Time Portrait Synthesis (RAD-NeRF)par@whatsai
2,132 lectures
2,132 lectures

Efficient NeRFs for Real-Time Portrait Synthesis (RAD-NeRF)

par Louis Bouchard6m2022/12/05
Read on Terminal Reader

Trop long; Pour lire

Nous avons entendu parler de deepfakes, nous avons entendu parler de NeRF, et nous avons vu ce genre d'applications vous permettant de recréer le visage de quelqu'un et de lui faire dire à peu près ce que vous voulez. Ce que vous ne savez peut-être pas, c'est à quel point ces méthodes sont inefficaces et combien de temps et de calcul elles nécessitent. De plus, nous ne voyons que les meilleurs résultats. Gardez à l'esprit que ce que nous voyons en ligne sont les résultats associés aux visages dont nous avons pu trouver la plupart des exemples, donc fondamentalement, les personnalités Internet et les modèles produisant ces résultats sont formés en utilisant beaucoup de calcul, ce qui signifie des ressources coûteuses comme de nombreuses cartes graphiques. Pourtant, les résultats sont vraiment impressionnants et ne font que s'améliorer.
featured image - Efficient NeRFs for Real-Time Portrait Synthesis (RAD-NeRF)
Louis Bouchard HackerNoon profile picture

Nous avons entendu parler de deepfakes , nous avons entendu parler de , et nous avons vu ce genre d'applications vous permettant de recréer le visage de quelqu'un et de lui faire dire ce que vous voulez.

Ce que vous ne savez peut-être pas, c'est à quel point ces méthodes sont inefficaces et combien de temps et de calcul elles nécessitent. De plus, nous ne voyons que les meilleurs résultats. Gardez à l'esprit que ce que nous voyons en ligne sont les résultats associés aux visages dont nous avons pu trouver la plupart des exemples, donc fondamentalement, les personnalités Internet et les modèles produisant ces résultats sont formés en utilisant beaucoup de calcul, ce qui signifie des ressources coûteuses comme de nombreuses cartes graphiques. Pourtant, les résultats sont vraiment impressionnants et ne font que s'améliorer.

Heureusement, certaines personnes comme Jiaxian Tang et ses collègues travaillent à rendre ces méthodes plus disponibles et efficaces avec un nouveau modèle appelé RAD-NeRF.

À partir d'une seule vidéo, ils peuvent synthétiser la personne qui parle pour pratiquement n'importe quel mot ou phrase en temps réel avec une meilleure qualité. Vous pouvez animer une tête parlante en suivant n'importe quelle piste audio en temps réel. C'est à la fois tellement cool et tellement effrayant...

En savoir plus dans la vidéo

Références

►Tang, J., Wang, K., Zhou, H., Chen, X., He, D., Hu, T., Liu, J., Zeng, G. et Wang, J., 2022. time Synthèse de portrait parlant de rayonnement neuronal via la décomposition audio-spatiale. préimpression arXiv arXiv:2211.12368 .
►Page résultats/projet : https://me.kiui.moe/radnerf/

Transcription vidéo

0:02

[Musique]

0:07

nous avons entendu parler de deep fakes dont nous avons entendu parler

0:09

Nerfs et nous avons vu ce genre de

0:11

des applications vous permettant de recréer

0:13

le visage de quelqu'un et à peu près le faire

0:15

dites ce que vous voulez ce que vous ne pourriez pas

0:17

savoir à quel point ces méthodes sont inefficaces

0:20

sont et combien de temps et d'informatique ils

0:22

exiger plus nous ne voyons que le meilleur

0:24

résultats, gardez à l'esprit que ce que nous voyons

0:26

en ligne sont les résultats associés à

0:29

les visages dont nous avons pu trouver la plupart des exemples

0:31

donc essentiellement des personnalités Internet et

0:34

les modèles produisant ces résultats sont

0:36

formé en utilisant beaucoup de sens informatique

0:38

ressources coûteuses comme de nombreux graphiques

0:41

cartes toujours les résultats sont vraiment

0:43

impressionnant et ne fait que s'améliorer

0:45

heureusement certaines personnes comme Jackson

0:47

tang et ses collègues travaillent sur

0:49

rendre ces méthodes plus accessibles et

0:52

efficace avec un nouveau modèle appelé rouge

0:54

Nerf mais écoutons ça de leur propre chef

0:57

modèle bonjour merci d'avoir regardé le

0:59

vidéo supplémentaire pour notre article

1:00

tête parlante Radiance neuronale en temps réel

1:03

synthèse via spatial audio décomposé

1:05

codage

1:06

notre méthode est individuelle et uniquement

1:08

a besoin d'un monoculaire de trois à cinq minutes

1:10

vidéo pour la formation

1:11

après la formation, le modèle peut synthétiser

1:14

Talking Heads réalistes pilotés par

1:15

audio arbitraire en temps réel tout en

1:17

garder un rendu comparable ou meilleur

1:19

qualité par rapport aux méthodes précédentes afin

1:21

vous avez entendu cela à partir d'une seule vidéo

1:23

ils peuvent synthétiser la personne qui parle

1:26

pour à peu près n'importe quel mot ou phrase dans

1:28

en temps réel avec une meilleure qualité, vous pouvez

1h30

animer une tête parlante après tout

1:33

piste audio en temps réel c'est à la fois si

1:36

cool et si effrayant en même temps juste

1:39

imaginez ce qui pourrait être fait si nous pouvions

1:40

vous faire dire n'importe quoi au moins ils

1:43

encore besoin d'accéder à une vidéo de vous

1:45

parler devant la caméra pendant 5

1:47

minutes, il est donc difficile d'y parvenir

1:48

sans que tu le saches encore dès que tu

1:51

apparaître en ligne, tout le monde pourra utiliser

1:53

un tel modèle et créer des vidéos infinies

1:56

de vous parler de tout ce qu'ils veulent

1:58

ils peuvent même héberger des flux en direct avec

2:00

cette méthode encore plus dangereuse

2:03

et rend encore plus difficile de dire combinaison

2:05

ou pas de toute façon même si c'est

2:08

intéressant et j'aimerais entendre votre

2:10

pensées dans les commentaires et gardez le

2:11

question de discussion aller ici je voulais

2:13

couvrir quelque chose qui n'est que positif

2:15

et la science passionnante plus précisément comment

2:19

ont-ils réussi à animer Talking

2:20

Têtes en temps réel à partir de n'importe quel audio en utilisant

2:23

seulement une vidéo du visage comme ils l'indiquent

2:26

leur modèle Nerf rouge peut fonctionner 500 fois

2:29

plus rapide que les travaux précédents avec

2:31

meilleure qualité de rendu et plus

2:33

contrôle, vous pouvez demander comment est-ce possible

2:36

nous échangeons généralement la qualité contre l'efficacité

2:39

pourtant ils parviennent à améliorer les deux

2:41

incroyablement ces immenses améliorations

2:43

sont possibles grâce à trois points principaux

2:46

les deux premiers sont liés à la

2:48

architecture du modèle plus

2:50

spécifiquement comment ils ont adapté le Nerf

2:52

approche pour la rendre plus efficace et

2:54

avec des mouvements améliorés du torse et

2:57

tête la première étape est de rendre les nerfs

2:59

plus efficace, je ne vais pas plonger dans la façon dont

3:02

Nerfs fonctionne puisque nous l'avons couvert de nombreux

3:04

c'est essentiellement une approche basée sur

3:06

des réseaux de neurones pour reconstruire la 3D

3:09

scènes volumétriques d'un tas de 2D dans

3:11

images ce qui signifie des images régulières ceci

3:14

c'est pourquoi ils prendront une vidéo en entrée

3:17

car cela vous donne essentiellement beaucoup de

3:19

images d'une personne de beaucoup de différents

3:21

angles de sorte qu'il utilise généralement un réseau pour

3:24

prédire toutes les couleurs et densités de pixels

3:26

du point de vue de la caméra où vous vous trouvez

3:28

visualiser et le faire pour tous

3:31

points de vue que vous souhaitez afficher lorsque

3:32

tournant autour du sujet qui est

3:34

extrêmement gourmand en calcul comme vous l'êtes

3:37

prédire plusieurs paramètres pour chacun

3:39

coordonner dans l'image à chaque fois et

3:41

vous apprenez à les prévoir tous

3:43

De plus, dans leur cas, ce n'est pas seulement un Nerf

3:46

production ou scène 3D, il doit également

3:49

correspondre à une entrée audio et s'adapter aux lèvres

3:51

bouche yeux et mouvements avec ce que

3:53

la personne dit au lieu de tout prédire

3:56

densités de pixels et couleurs correspondant à

3:58

audio pour une image spécifique, ils

4:00

travailler avec deux nouvelles et condensées distinctes

4:03

espaces appelés espaces de grille ou basés sur la grille

4:06

Nerf ils traduiront leur

4:08

coordonnées dans un espace de grille 3D plus petit

4:11

trans a placé son audio dans un plus petit 2D

4:13

l'espace de la grille, puis envoyez-les au rendu

4:16

la tête cela signifie qu'ils ne fusionnent jamais le

4:19

données audio avec les données spatiales qui

4:22

augmentera la taille de façon exponentielle

4:23

en ajoutant des entrées bidimensionnelles à chacune

4:26

coordonner afin de réduire la taille de la

4:29

fonctionnalités audio tout en gardant le

4:31

les caractéristiques audio et spatiales sont séparées

4:34

ce qui rend l'approche tellement plus

4:36

efficace, mais comment les résultats peuvent-ils être

4:38

mieux s'ils utilisent des espaces condensés qui

4:40

avoir moins d'informations en ajoutant quelques

4:42

caractéristiques contrôlables comme un œil

4:44

contrôle clignotant à notre grille Nerf le

4:47

le modèle apprendra plus réaliste

4:48

comportements pour les yeux par rapport à

4:51

approche précédente quelque chose de vraiment

4:53

important pour le réalisme la seconde

4:55

L'amélioration qu'ils ont faite est de modéliser le

4:57

Torse avec un autre Nerf utilisant le même

5:00

approche au lieu d'essayer de la modéliser

5:02

avec le même Nerf utilisé plus de tête

5:04

qui nécessitera beaucoup moins de paramètres

5:07

et des besoins différents car le but ici est

5:09

pour animer des têtes mobiles et non des entiers

5:12

corps puisque le torse est à peu près

5:14

statique dans ces cas, ils utilisent beaucoup

5:16

plus simple et plus efficace basé sur Nerf

5:18

module qui ne fonctionne qu'en 2D travaillant en

5:21

l'espace image directement au lieu de

5:24

en utilisant des réseaux de caméras comme nous le faisons habituellement

5:26

avec Nerf pour générer de nombreux

5:28

angles qui ne sont pas nécessaires pour un torse

5h30

donc en gros c'est beaucoup plus efficace

5:32

parce qu'ils ont modifié l'approche pour

5:35

ce cas d'utilisation très spécifique du rigide

5:37

vidéos de torse et de tête mobile, ils ont ensuite

5:40

recomposer la tête avec le Torse pour

5:42

produire la vidéo finale et le tour est joué

5:45

c'est ainsi que vous produisez des vidéos parlantes

5:47

sur n'importe quelle entrée audio super efficacement

5:50

bien sûr, ce n'était qu'un aperçu de

5:53

cette nouvelle publication de recherche passionnante

5:55

et ils font d'autres modifications pendant

5:57

la formation de leur algorithme pour faire

5:59

c'est plus efficace qui est le troisième

6:01

point que j'ai mentionné au début de

6:03

la vidéo si vous vous demandiez j'invite

6:05

vous lire leur papier pour plus

6:07

informations dont le lien est dans le

6:09

description ci-dessous avant de partir je

6:10

je voulais juste remercier les personnes qui

6:12

a récemment soutenu cette chaîne via

6:14

patreon ce n'est pas nécessaire et

6:16

strictement pour soutenir le travail que je fais ici

6:18

un grand merci à artem vladiken leopoldo

6:22

Alta Murano J Cole Michael carichao

6:25

Daniel gimness et quelques anonymes

6:28

généreux donateurs, il sera grandement

6h30

apprécié si vous voulez et pouvez aussi

6:33

me permettre de soutenir mon travail financièrement

6:35

le lien vers ma page patreon est dans le

6:37

description ci-dessous également mais pas de soucis

6:39

sinon un commentaire sincère en dessous

6:42

la vidéo est tout ce dont j'ai besoin pour être plus heureux j'espère

6:45

vous avez apprécié cette vidéo et je verrai

6:47

vous la semaine prochaine avec un autre article incroyable

6:51

[Musique]