paint-brush
रीयल-टाइम पोर्ट्रेट सिंथेसिस (आरएडी-एनईआरएफ) के लिए कुशल एनईआरएफद्वारा@whatsai
2,132 रीडिंग
2,132 रीडिंग

रीयल-टाइम पोर्ट्रेट सिंथेसिस (आरएडी-एनईआरएफ) के लिए कुशल एनईआरएफ

द्वारा Louis Bouchard6m2022/12/05
Read on Terminal Reader

बहुत लंबा; पढ़ने के लिए

हमने डीपफेक के बारे में सुना है, हमने एनईआरएफ के बारे में सुना है, और हमने इस प्रकार के एप्लिकेशन देखे हैं जो आपको किसी के चेहरे को फिर से बनाने की अनुमति देते हैं और उससे आप जो चाहें कह सकते हैं। आप जो नहीं जानते होंगे वह यह है कि वे तरीके कितने अक्षम हैं और उन्हें कितनी कंप्यूटिंग और समय की आवश्यकता है। साथ ही, हम केवल सर्वोत्तम परिणाम देखते हैं। ध्यान रखें कि हम जो ऑनलाइन देखते हैं वे उन चेहरों से जुड़े परिणाम हैं जिनके हम सबसे अधिक उदाहरण पा सकते हैं, इसलिए मूल रूप से, इंटरनेट व्यक्तित्व और उन परिणामों को उत्पन्न करने वाले मॉडल को बहुत सारे कंप्यूटिंग का उपयोग करके प्रशिक्षित किया जाता है, जिसका अर्थ है कई ग्राफिक्स कार्ड जैसे महंगे संसाधन। फिर भी, परिणाम वास्तव में प्रभावशाली हैं और केवल बेहतर हो रहे हैं।
featured image - रीयल-टाइम पोर्ट्रेट सिंथेसिस (आरएडी-एनईआरएफ) के लिए कुशल एनईआरएफ
Louis Bouchard HackerNoon profile picture

हमने डीपफेक के बारे में सुना है, हमने के बारे में सुना है, और हमने इस प्रकार के एप्लिकेशन देखे हैं जो आपको किसी के चेहरे को फिर से बनाने की अनुमति देते हैं और उससे आप जो चाहें कह सकते हैं।

आप जो नहीं जानते होंगे वह यह है कि वे तरीके कितने अक्षम हैं और उन्हें कितनी कंप्यूटिंग और समय की आवश्यकता है। साथ ही, हम केवल सर्वोत्तम परिणाम देखते हैं। ध्यान रखें कि हम जो ऑनलाइन देखते हैं वे उन चेहरों से जुड़े परिणाम हैं जिनके हम सबसे अधिक उदाहरण पा सकते हैं, इसलिए मूल रूप से, इंटरनेट व्यक्तित्व और उन परिणामों को उत्पन्न करने वाले मॉडल को बहुत सारे कंप्यूटिंग का उपयोग करके प्रशिक्षित किया जाता है, जिसका अर्थ है कई ग्राफिक्स कार्ड जैसे महंगे संसाधन। फिर भी, परिणाम वास्तव में प्रभावशाली हैं और केवल बेहतर हो रहे हैं।

सौभाग्य से, कुछ लोग जैसे जियाक्सियन टैंग और सहकर्मी उन तरीकों को अधिक उपलब्ध और प्रभावी बनाने के लिए काम कर रहे हैं, जिन्हें RAD-NeRF नामक एक नए मॉडल के साथ जोड़ा गया है।

एक ही वीडियो से, वे बेहतर गुणवत्ता के साथ वास्तविक समय में लगभग किसी भी शब्द या वाक्य के लिए बात करने वाले व्यक्ति को संश्लेषित कर सकते हैं। आप रीयल-टाइम में किसी भी ऑडियो ट्रैक का अनुसरण करते हुए बात करने वाले व्यक्ति को एनिमेट कर सकते हैं। यह एक ही समय में बहुत अच्छा और इतना डरावना दोनों है ...

वीडियो में और जानें

संदर्भ

►तांग, जे।, वांग, के।, झोउ, एच।, चेन, एक्स।, हे, डी।, हू, टी।, लियू, जे।, ज़ेंग, जी। और वांग, जे।, 2022। वास्तविक- ऑडियो-स्थानिक अपघटन के माध्यम से टाइम न्यूरल रेडियंस टॉकिंग पोर्ट्रेट सिंथेसिस। arXiv प्रीप्रिंट arXiv: 2211.12368
►परिणाम/प्रोजेक्ट पेज: https://me.kiui.moe/radnerf/

वीडियो ट्रांसक्रिप्ट

0:02

[संगीत]

0:07

हमने गहरे फेक के बारे में सुना है जिसके बारे में हमने सुना है

0:09

Nerfs और हमने इस प्रकार के देखे हैं

0:11

एप्लिकेशन आपको फिर से बनाने की अनुमति देता है

0:13

किसी का चेहरा और बहुत ज्यादा उसे बनाते हैं

0:15

आप जो चाहते हैं वह कहें जो आप नहीं कर सकते

0:17

जानिए वे तरीके कितने अक्षम हैं

0:20

हैं और वे कितने Computing और Time हैं

0:22

आवश्यकता प्लस हम केवल सबसे अच्छा देखते हैं

0:24

परिणाम ध्यान रखें कि हम क्या देखते हैं

0:26

ऑनलाइन से जुड़े परिणाम हैं

0:29

जिन चेहरों के हम सबसे अधिक उदाहरण पा सकते हैं

0:31

तो मूल रूप से इंटरनेट व्यक्तित्व और

0:34

उन परिणामों का उत्पादन करने वाले मॉडल हैं

0:36

बहुत सारे कंप्यूटिंग अर्थ का उपयोग करके प्रशिक्षित

0:38

कई ग्राफिक्स जैसे महंगे संसाधन

0:41

कार्ड अभी भी परिणाम वास्तव में हैं

0:43

प्रभावशाली और केवल बेहतर हो रहा है

0:45

सौभाग्य से कुछ लोगों को जैक्सन पसंद है

0:47

टैंग और सहकर्मी काम कर रहे हैं

0:49

उन तरीकों को और अधिक उपलब्ध बनाना और

0:52

लाल नामक एक नए मॉडल के साथ प्रभावी

0:54

नेरफ लेकिन आइए सुनते हैं कि अपने से

0:57

मॉडल हैलो देखने के लिए धन्यवाद

0:59

हमारे पेपर के लिए पूरक वीडियो

1:00

रीयल-टाइम न्यूरल रेडियंस टॉकिंग हेड

1:03

विघटित ऑडियो स्थानिक के माध्यम से संश्लेषण

1:05

एन्कोडिंग

1:06

हमारी पद्धति व्यक्ति-विशिष्ट और केवल है

1:08

तीन से पांच मिनट के मोनोकुलर की जरूरत है

1:10

प्रशिक्षण के लिए वीडियो

1:11

प्रशिक्षण के बाद मॉडल संश्लेषण कर सकता है

1:14

यथार्थवादी टॉकिंग हेड्स द्वारा संचालित

1:15

मनमाना ऑडियो वास्तविक समय में जबकि

1:17

तुलनीय या बेहतर प्रतिपादन रखते हुए

1:19

गुणवत्ता पिछले तरीकों की तुलना में तो

1:21

आपने इसे एक ही वीडियो से सही सुना

1:23

वे बात कर रहे व्यक्ति को संश्लेषित कर सकते हैं

1:26

बहुत अधिक किसी भी शब्द या वाक्य के लिए

1:28

आप कर सकते हैं बेहतर गुणवत्ता के साथ वास्तविक समय

1:30

किसी का अनुसरण करते हुए बात करने वाले मुखिया को एनिमेट करें

1:33

वास्तविक समय में ऑडियो ट्रैक यह दोनों ऐसा ही है

1:36

एक ही समय में शांत और इतना डरावना

1:39

कल्पना कीजिए कि अगर हम कर सकते तो क्या किया जा सकता था

1:40

कम से कम वे कुछ भी कहें

1:43

अभी भी आपके एक वीडियो तक पहुंच की आवश्यकता है

1:45

5 के लिए कैमरे के सामने बोलना

1:47

मिनट इसलिए इसे हासिल करना कठिन है

1:48

आपके बिना अभी भी जैसे ही आप जानते हैं

1:51

ऑनलाइन प्रकट हों कोई भी उपयोग करने में सक्षम होगा

1:53

ऐसा मॉडल और अनंत वीडियो बनाएं

1:56

आप में से कुछ भी वे चाहते हैं के बारे में बात कर रहे हैं

1:58

वे लाइव स्ट्रीम भी होस्ट कर सकते हैं

2:00

यह तरीका जो और भी खतरनाक है

2:03

और इससे वेटसूट कहना और भी कठिन हो जाता है

2:05

या वैसे भी नहीं हालांकि यह है

2:08

दिलचस्प है और मुझे आपका सुनना अच्छा लगेगा

2:10

टिप्पणियों में विचार और रखें

2:11

चर्चा प्रश्न यहाँ जा रहा है जो मैं चाहता था

2:13

किसी ऐसी चीज को कवर करना जो केवल सकारात्मक हो

2:15

और रोमांचक विज्ञान अधिक सटीक कैसे

2:19

क्या उन्होंने टॉकिंग को सजीव करने में सफलता प्राप्त की

2:20

किसी भी ऑडियो का उपयोग करके वास्तविक समय में प्रमुख

2:23

जैसा कि वे कहते हैं केवल चेहरे का एक वीडियो

2:26

उनका लाल Nerf मॉडल 500 बार चल सकता है

2:29

पिछले कार्यों की तुलना में तेज़

2:31

बेहतर प्रतिपादन गुणवत्ता और अधिक

2:33

आप पूछ सकते हैं कि यह कैसे संभव है

2:36

हम आमतौर पर दक्षता के लिए गुणवत्ता का व्यापार करते हैं

2:39

फिर भी वे दोनों में सुधार करने में सफल होते हैं

2:41

अविश्वसनीय रूप से ये अपार सुधार

2:43

तीन मुख्य बिंदुओं के लिए संभव है

2:46

पहले दो से संबंधित हैं

2:48

मॉडल की वास्तुकला अधिक

2:50

विशेष रूप से उन्होंने नेरफ को कैसे अनुकूलित किया

2:52

इसे और अधिक कुशल बनाने के लिए दृष्टिकोण

2:54

धड़ की बेहतर गतियों के साथ और

2:57

नसों को बनाने के लिए पहला कदम सिर है

2:59

अधिक कुशल मैं कैसे में गोता नहीं लगाऊंगा

3:02

Nerfs काम करते हैं क्योंकि हमने इसे कई बार कवर किया है

3:04

समय मूल रूप से यह एक दृष्टिकोण पर आधारित है

3:06

3डी के पुनर्निर्माण के लिए तंत्रिका नेटवर्क

3:09

2D के एक समूह से वॉल्यूमेट्रिक दृश्य

3:11

छवियां जिसका अर्थ है नियमित छवियां

3:14

इसलिए वे इनपुट के रूप में एक वीडियो लेंगे

3:17

क्योंकि यह मूल रूप से आपको बहुत कुछ देता है

3:19

कई अलग-अलग लोगों की छवियां

3:21

कोण इसलिए यह आमतौर पर एक नेटवर्क का उपयोग करता है

3:24

सभी पिक्सेल रंगों और घनत्वों की भविष्यवाणी करें

3:26

कैमरे के नजरिए से आप हैं

3:28

कल्पना करना और वह सभी के लिए करता है

3:31

दृष्टिकोण आप कब दिखाना चाहते हैं

3:32

जो विषय है उसके चारों ओर घूमना

3:34

आप के रूप में अत्यधिक संगणना की भूख है

3:37

प्रत्येक के लिए कई मापदंडों की भविष्यवाणी करना

3:39

हर बार छवि में समन्वय करें और

3:41

आप उन सभी की भविष्यवाणी करना सीख रहे हैं

3:43

साथ ही उनके मामले में यह केवल एक Nerf नहीं है

3:46

प्रोड्यूसिंग या 3डी सीन भी इसे करना होता है

3:49

एक ऑडियो इनपुट से मिलान करें और होठों को फिट करें

3:51

मुंह आंखें और आंदोलनों के साथ क्या

3:53

व्यक्ति सभी की भविष्यवाणी करने के बजाय कहता है

3:56

पिक्सेल घनत्व और रंग मेल खाते हैं

3:58

एक विशिष्ट फ्रेम के लिए ऑडियो वे करेंगे

4:00

दो अलग नए और संघनित के साथ काम करें

4:03

रिक्त स्थान जिन्हें ग्रिड स्थान या ग्रिड-आधारित कहा जाता है

4:06

Nerf वे उनका अनुवाद करेंगे

4:08

एक छोटे 3D ग्रिड स्थान में समन्वय करता है

4:11

ट्रांस ने अपने ऑडियो को छोटे 2D में रखा

4:13

ग्रिड स्पेस और फिर उन्हें रेंडर करने के लिए भेजें

4:16

सिर इसका मतलब है कि वे कभी विलय नहीं करते हैं

4:19

स्थानिक डेटा के साथ ऑडियो डेटा जो

4:22

आकार में बेतहाशा वृद्धि करेगा

4:23

प्रत्येक में दो आयामी इनपुट जोड़ना

4:26

समन्वय करें ताकि के आकार को कम किया जा सके

4:29

रखने के साथ-साथ ऑडियो सुविधाएँ

4:31

श्रव्य और स्थानिक विशेषताएँ अलग-अलग होती हैं

4:34

क्या दृष्टिकोण इतना अधिक बनाता है

4:36

कुशल लेकिन परिणाम कैसे हो सकते हैं

4:38

बेहतर है अगर वे संघनित स्थानों का उपयोग करें

4:40

कुछ जोड़ने के बारे में जानकारी कम है

4:42

एक आंख की तरह नियंत्रित करने योग्य विशेषताएं

4:44

हमारे ग्रिड Nerf को निमिष नियंत्रण

4:47

मॉडल अधिक यथार्थवादी सीखेंगे

4:48

तुलना में आंखों के लिए व्यवहार

4:51

पिछला वास्तव में कुछ दृष्टिकोण करता है

4:53

यथार्थवाद के लिए महत्वपूर्ण दूसरा

4:55

उन्होंने जो सुधार किया है, वह मॉडल बनाना है

4:57

दूसरे Nerf के साथ धड़ उसी का उपयोग कर रहा है

5:00

इसे मॉडल करने की कोशिश करने के बजाय दृष्टिकोण

5:02

उसी नेरफ के साथ आगे सिर का इस्तेमाल किया

5:04

जिसके लिए बहुत कम पैरामीटर की आवश्यकता होगी

5:07

और यहाँ लक्ष्य के रूप में अलग-अलग ज़रूरतें हैं

5:09

हिलते हुए सिर को चेतन करने के लिए और संपूर्ण नहीं

5:12

धड़ के बाद से शरीर बहुत ज्यादा है

5:14

इन मामलों में स्थिर वे बहुत अधिक उपयोग करते हैं

5:16

सरल और अधिक कुशल Nerf आधारित

5:18

मॉड्यूल जो केवल 2D में काम करता है

5:21

इसके बजाय सीधे छवि स्थान

5:24

कैमरा सरणियों का उपयोग करना जैसा कि हम आमतौर पर करते हैं

5:26

कई अलग-अलग उत्पन्न करने के लिए Nerf के साथ

5:28

कोण जो धड़ के लिए आवश्यक नहीं हैं

5:30

इसलिए यह मूल रूप से बहुत अधिक कुशल है

5:32

क्योंकि उन्होंने इसके लिए दृष्टिकोण को संशोधित किया

5:35

कठोर का यह बहुत विशिष्ट उपयोग मामला

5:37

धड़ और चलती सिर वीडियो तो वे

5:40

करने के लिए धड़ के साथ सिर recompose

5:42

अंतिम वीडियो बनाएं और इसे देखें

5:45

यह है कि आप टॉकिंग हेड वीडियो कैसे बनाते हैं

5:47

किसी भी ऑडियो इनपुट पर सुपर कुशलता से

5:50

बेशक यह सिर्फ एक सिंहावलोकन था

5:53

यह नया रोमांचक शोध प्रकाशन

5:55

और वे इस दौरान अन्य संशोधन करते हैं

5:57

बनाने के लिए उनके एल्गोरिदम का प्रशिक्षण

5:59

यह अधिक कुशल जो तीसरा है

6:01

जिस बिंदु का मैंने शुरुआत में उल्लेख किया है

6:03

वीडियो अगर आप सोच रहे थे कि मैं आमंत्रित करता हूं

6:05

आप अधिक के लिए उनके पेपर को पढ़ने के लिए

6:07

जानकारी लिंक में है

6:09

आपके जाने से पहले नीचे विवरण I

6:10

बस उन लोगों को धन्यवाद देना चाहता था जो

6:12

के माध्यम से हाल ही में इस चैनल का समर्थन किया

6:14

patreon यह आवश्यक नहीं है और

6:16

मैं यहां जो काम करता हूं उसका सख्ती से समर्थन करने के लिए

6:18

आर्टेम व्लादिकेन लियोपोल्डो को बहुत-बहुत धन्यवाद

6:22

अल्टा मुरानो जे कोल माइकल कैरिचाओ

6:25

डैनियल जिमनेस और कुछ बेनामी

6:28

उदार दाताओं यह बहुत हो जाएगा

6:30

आप भी चाहें तो सराहना कर सकते हैं और कर सकते हैं

6:33

आर्थिक रूप से मेरे काम का समर्थन करने के लिए

6:35

मेरे पैट्रन पेज का लिंक इसमें है

6:37

नीचे विवरण भी लेकिन कोई चिंता नहीं

6:39

यदि इसके नीचे कोई ईमानदार टिप्पणी नहीं है

6:42

मुझे उम्मीद है कि मुझे खुश रहने के लिए वीडियो की जरूरत है

6:45

आपने इस वीडियो का आनंद लिया है और मैं देखूंगा

6:47

आप अगले सप्ताह एक और अद्भुत पेपर के साथ

6:51

[संगीत]