```html लेखक: Jun Gao, NVIDIA, University of Toronto, Vector Institute (jung@nvidia.com) Tianchang Shen, NVIDIA, University of Toronto, Vector Institute (frshen@nvidia.com) Zian Wang, NVIDIA, University of Toronto, Vector Institute (zianw@nvidia.com) Wenzheng Chen, NVIDIA, University of Toronto, Vector Institute (wenzchen@nvidia.com) Kangxue Yin, NVIDIA (kangxuey@nvidia.com) Daiqing Li, NVIDIA (daiqingl@nvidia.com) Or Litany, NVIDIA (olitany@nvidia.com) Zan Gojcic, NVIDIA (zgojcic@nvidia.com) Sanja Fidler, NVIDIA, University of Toronto, Vector Institute (sfidler@nvidia.com) सार जैसे-जैसे कई उद्योग विशाल 3D आभासी दुनियाओं को मॉडल करने की ओर बढ़ रहे हैं, 3D सामग्री की मात्रा, गुणवत्ता और विविधता के मामले में स्केल करने वाले सामग्री निर्माण उपकरणों की आवश्यकता स्पष्ट होती जा रही है। हमारे काम में, हम 3D जनरेटिव मॉडल को प्रशिक्षित करने का लक्ष्य रखते हैं जो टेक्सचर्ड मेश को संश्लेषित करते हैं जिन्हें सीधे 3D रेंडरिंग इंजनों द्वारा उपभोग किया जा सकता है, इस प्रकार डाउन-स्ट्रीम अनुप्रयोगों में तुरंत उपयोग किया जा सकता है। 3D जनरेटिव मॉडलिंग पर पिछले कार्यों में या तो ज्यामितीय विवरणों की कमी है, मेश टोपोलॉजी के उत्पादन में वे सीमित हैं, आम तौर पर टेक्सचर का समर्थन नहीं करते हैं, या संश्लेषण प्रक्रिया में न्यूरल रेंडरर का उपयोग करते हैं, जो सामान्य 3D सॉफ़्टवेयर में उनके उपयोग को गैर-तुच्छ बनाता है। इस काम में, हम GET3D का परिचय देते हैं, जो एक enerative मॉडल है जो सीधे xplicit extured मेश को जटिल टोपोलॉजी, समृद्ध ज्यामितीय विवरण और उच्च निष्ठा वाले टेक्सचर के साथ उत्पन्न करता है। हम 2D छवि संग्रह से अपने मॉडल को प्रशिक्षित करने के लिए अंतरणीय सतह मॉडलिंग, अंतरणीय प्रतिपादन और 2D जनरेटिव एडवरसैरियल नेटवर्क में हालिया सफलता का लाभ उठाते हैं। GET3D उच्च-गुणवत्ता वाले 3D टेक्सचर्ड मेश उत्पन्न करने में सक्षम है, जो कारों, कुर्सियों, जानवरों, मोटरबाइकों और मानव पात्रों से लेकर इमारतों तक फैला हुआ है, जो पिछले तरीकों पर महत्वपूर्ण सुधार प्राप्त करता है। हमारा प्रोजेक्ट पेज: G E T 3D https://nv-tlabs.github.io/GET3D 1 परिचय विविध, उच्च-गुणवत्ता वाली 3D सामग्री गेमिंग, रोबोटिक्स, वास्तुकला और सामाजिक प्लेटफार्मों सहित कई उद्योगों के लिए तेजी से महत्वपूर्ण होती जा रही है। हालांकि, 3D संपत्तियों का मैन्युअल निर्माण बहुत समय लेने वाला है और इसके लिए विशिष्ट तकनीकी ज्ञान के साथ-साथ कलात्मक मॉडलिंग कौशल की आवश्यकता होती है। मुख्य चुनौतियों में से एक पैमाना है - जबकि टर्बोस्क्विड [ ] या स्केचफैब [ ] जैसे 3D मार्केटप्लेस पर 3D मॉडल मिल सकते हैं, बहुत सारे 3D मॉडल बनाना, मान लीजिए, किसी गेम या फिल्म को अलग दिखने वाले पात्रों की भीड़ से भरना, अभी भी कलाकार के समय का एक महत्वपूर्ण हिस्सा लेता है। 4 3 सामग्री निर्माण प्रक्रिया को सुविधाजनक बनाने और इसे विभिन्न (नौसिखिया) उपयोगकर्ताओं के लिए सुलभ बनाने के लिए, उच्च-गुणवत्ता और विविध 3D संपत्तियों का उत्पादन करने वाले जनरेटिव 3D नेटवर्क हाल ही में अनुसंधान का एक सक्रिय क्षेत्र बन गए हैं [ , , , , , , , , , , ]। हालांकि, वर्तमान वास्तविक-दुनिया के अनुप्रयोगों के लिए व्यावहारिक रूप से उपयोगी होने के लिए, 3D जनरेटिव मॉडल को आदर्श रूप से निम्नलिखित आवश्यकताओं को पूरा करना चाहिए: उनमें विस्तृत ज्यामिति और मनमानी टोपोलॉजी वाली आकृतियों को उत्पन्न करने की क्षमता होनी चाहिए, आउटपुट एक टेक्सचर्ड मेश होना चाहिए, जो ब्लेंडर [ ] और माया [ ] जैसे मानक ग्राफिक्स सॉफ़्टवेयर पैकेजों द्वारा उपयोग किया जाने वाला प्राथमिक प्रतिनिधित्व है, और हमें 2D छवियों को पर्यवेक्षण के लिए उपयोग करने में सक्षम होना चाहिए, क्योंकि वे स्पष्ट 3D आकृतियों की तुलना में अधिक व्यापक रूप से उपलब्ध हैं। 5 14 43 46 53 68 75 60 59 69 23 (ए) (बी) 15 1 (सी) 3D जनरेटिव मॉडलिंग पर पिछले काम ने उपरोक्त आवश्यकताओं के उपसमूहों पर ध्यान केंद्रित किया है, लेकिन आज तक कोई भी विधि उन सभी को पूरा नहीं करती है (तालिका। )। उदाहरण के लिए, 3D पॉइंट क्लाउड उत्पन्न करने वाली विधियाँ [ , 68, 75] आम तौर पर टेक्सचर का उत्पादन नहीं करती हैं और उन्हें पोस्ट-प्रोसेसिंग में मेश में परिवर्तित करने की आवश्यकता होती है। 1 5 वोकसेल उत्पन्न करने वाली विधियों में अक्सर ज्यामितीय विवरणों की कमी होती है और वे टेक्सचर का उत्पादन नहीं करती हैं [ , , , ]। न्यूरल फ़ील्ड [ , ] पर आधारित जनरेटिव मॉडल ज्यामिति निकालने पर ध्यान केंद्रित करते हैं लेकिन टेक्सचर की उपेक्षा करते हैं। इनमें से अधिकांश को स्पष्ट 3D पर्यवेक्षण की भी आवश्यकता होती है। अंत में, जो विधियाँ सीधे टेक्सचर्ड 3D मेश [ , ] आउटपुट करती हैं, उनमें आम तौर पर पूर्वनिर्धारित आकार टेम्प्लेट की आवश्यकता होती है और वे जटिल टोपोलॉजी या चर जीनस वाली आकृतियों को उत्पन्न नहीं कर सकती हैं। 66 20 27 40 43 14 54 53 हाल ही में, न्यूरल वॉल्यूम रेंडरिंग [ ] और 2D जनरेटिव एडवरसैरियल नेटवर्क (GANs) [ , , , , ] में तेज प्रगति ने 3D-जागरूक छवि संश्लेषण [ , , , , , ] का उदय देखा है। हालांकि, इस कार्य का उद्देश्य संश्लेषण प्रक्रिया में न्यूरल रेंडरिंग का उपयोग करके बहु-दृश्य सुसंगत छवियों को संश्लेषित करना है और यह गारंटी नहीं देता है कि सार्थक 3D आकृतियों को उत्पन्न किया जा सकता है। जबकि मार्चिंग क्यूब्स एल्गोरिथ्म [ ] का उपयोग करके अंतर्निहित न्यूरल फ़ील्ड प्रतिनिधित्व से एक मेश संभावित रूप से प्राप्त किया जा सकता है, संबंधित टेक्सचर निकालना गैर-तुच्छ है। 45 34 35 33 29 52 7 57 8 49 51 25 39 इस काम में, हम एक नवीन दृष्टिकोण प्रस्तुत करते हैं जिसका उद्देश्य व्यावहारिक रूप से उपयोगी 3D जनरेटिव मॉडल की सभी आवश्यकताओं को पूरा करना है। विशेष रूप से, हम GET3D का परिचय देते हैं, जो 3D आकृतियों के लिए एक enerative मॉडल है जो सीधे xplicit extured मेश को उच्च ज्यामितीय और बनावट विवरण और मनमानी मेश टोपोलॉजी के साथ आउटपुट करता है। हमारे दृष्टिकोण के केंद्र में एक जनरेटिव प्रक्रिया है जो एक अंतरणीय सतह निष्कर्षण विधि [ ] और एक अंतरणीय प्रतिपादन तकनीक [ , ] का उपयोग करती है। पूर्व हमें मनमानी टोपोलॉजी के साथ सीधे अंतरणीय टेक्सचर्ड 3D मेश को अनुकूलित करने और आउटपुट करने में सक्षम बनाता है, जबकि बाद वाला हमें 2D छवियों के साथ अपने मॉडल को प्रशिक्षित करने की अनुमति देता है, इस प्रकार 2D छवि संश्लेषण के लिए विकसित शक्तिशाली और परिपक्व विभेदकों का लाभ उठाता है। चूंकि हमारा मॉडल सीधे मेश उत्पन्न करता है और एक अत्यधिक कुशल (अंतरणीय) ग्राफिक्स रेंडरर का उपयोग करता है, हम अपने मॉडल को 1024 × 1024 तक उच्च छवि रिज़ॉल्यूशन के साथ प्रशिक्षित करने के लिए आसानी से स्केल कर सकते हैं, जिससे हमें उच्च-गुणवत्ता वाले ज्यामितीय और बनावट विवरण सीखने की अनुमति मिलती है। G E T 3D स्पष्ट 60 47 37 हम ShapeNet [ ], TurboSquid [ ] और Renderpeople [ ] से कारों, कुर्सियों, जानवरों, मोटरबाइकों और मानव पात्रों से लेकर इमारतों तक, जटिल ज्यामिति वाली कई श्रेणियों पर अप्रतिबंधित 3D आकार संश्लेषण के लिए अत्याधुनिक प्रदर्शन का प्रदर्शन करते हैं। स्पष्ट मेश के साथ आउटपुट प्रतिनिधित्व के रूप में, GET3D भी बहुत लचीला है और इसे अन्य कार्यों के लिए आसानी से अनुकूलित किया जा सकता है, जिसमें: उन्नत अंतरणीय प्रतिपादन [ ] का उपयोग करके, पर्यवेक्षण के बिना, विघटित सामग्री और दृश्य-निर्भर प्रकाश प्रभावों को उत्पन्न करने के लिए सीखना, CLIP [ ] एम्बेडिंग का उपयोग करके पाठ-निर्देशित 3D आकार संश्लेषण। 9 4 2 (ए) 12 (बी) 56 2 संबंधित कार्य हम ज्यामिति और उपस्थिति के लिए 3D जनरेटिव मॉडल, साथ ही 3D-जागरूक जनरेटिव छवि संश्लेषण में हाल की प्रगति की समीक्षा करते हैं। हाल के वर्षों में, 2D जनरेटिव मॉडल ने उच्च-रिज़ॉल्यूशन छवि संश्लेषण [ , , , , , , ] में फोटोरियलिस्टिक गुणवत्ता प्राप्त की है। इस प्रगति ने 3D सामग्री निर्माण में अनुसंधान को भी प्रेरित किया है। शुरुआती दृष्टिकोणों का उद्देश्य 2D CNN जनरेटर को 3D वोकसेल ग्रिड [ , , , , ] में सीधे विस्तारित करना था, लेकिन उच्च रिज़ॉल्यूशन पर 3D कनवल्शन के उच्च मेमोरी फ़ुटप्रिंट और कम्प्यूटेशनल जटिलता ने पीढ़ी प्रक्रिया को बाधित किया। एक विकल्प के रूप में, अन्य कार्यों ने पॉइंट क्लाउड [ , , , ], अप्रत्यक्ष [ , ], या ऑक्ट्री [ ] अभ्यावेदन का पता लगाया है। हालांकि, ये कार्य मुख्य रूप से ज्यामिति उत्पन्न करने पर ध्यान केंद्रित करते हैं और उपस्थिति की उपेक्षा करते हैं। उनके आउटपुट अभ्यावेदन को मानक ग्राफिक्स इंजनों के साथ संगत बनाने के लिए पोस्ट-प्रोसेसिंग की भी आवश्यकता होती है। 3D जनरेटिव मॉडल 34 35 33 52 29 19 16 66 20 27 40 62 5 68 75 46 43 14 30 हमारे काम के अधिक समान, टेक्सचर्ड3डीजीएएन [ , ] और डीआईबीआर [ ] टेक्सचर्ड 3D मेश उत्पन्न करते हैं, लेकिन वे एक टेम्प्लेट मेश के विरूपण के रूप में पीढ़ी को तैयार करते हैं, जो उन्हें जटिल टोपोलॉजी या विभिन्न जीनस वाली आकृतियों को उत्पन्न करने से रोकता है, जो हमारा तरीका कर सकता है। पॉलीजेन [ ] और सर्फजेन [ ] मनमानी टोपोलॉजी के साथ मेश का उत्पादन कर सकते हैं, लेकिन टेक्सचर को संश्लेषित नहीं करते हैं। 54 53 11 48 41 न्यूरल वॉल्यूम रेंडरिंग [ ] और अप्रत्यक्ष अभ्यावेदन [ , ] में सफलता से प्रेरित होकर, हालिया काम 3D-जागरूक छवि संश्लेषण [ , , , , , , , , , ] की समस्या से निपटने लगा है। हालांकि, न्यूरल वॉल्यूम रेंडरिंग नेटवर्क आमतौर पर क्वेरी करने में धीमे होते हैं, जिससे लंबे प्रशिक्षण समय [ , ] होते हैं, और सीमित रिज़ॉल्यूशन वाली छवियों का उत्पादन करते हैं। जिराफ [ ] और स्टाइलनेर्फ [ ] निम्न रिज़ॉल्यूशन पर न्यूरल रेंडरिंग करके प्रशिक्षण और प्रतिपादन दक्षता में सुधार करते हैं और फिर 2D CNN के साथ परिणामों को अपसैंपल करते हैं। हालांकि, प्रदर्शन लाभ कम बहु-दृश्य स्थिरता की कीमत पर आता है। एक दोहरे विभेदक का उपयोग करके, ईजी3डी [ ] इस समस्या को आंशिक रूप से कम कर सकता है। फिर भी, न्यूरल रेंडरिंग पर आधारित विधियों से एक टेक्सचर्ड सतह निकालना एक गैर-तुच्छ प्रयास है। इसके विपरीत, GET3D सीधे टेक्सचर्ड 3D मेश आउटपुट करता है जिन्हें मानक ग्राफिक्स इंजनों में आसानी से इस्तेमाल किया जा सकता है। 3D-जागरूक जनरेटिव छवि संश्लेषण 45 43 14 7 57 49 26 25 76 8 51 58 67 7 57 49 25 8 3 विधि अब हम टेक्सचर्ड 3D आकृतियों को संश्लेषित करने के लिए अपनी GET3D फ्रेमवर्क प्रस्तुत करते हैं। हमारी पीढ़ी प्रक्रिया को दो भागों में विभाजित किया गया है: एक ज्यामिति शाखा, जो मनमानी टोपोलॉजी का एक अंतरणीय सतह मेश आउटपुट करती है, और एक टेक्सचर शाखा जो एक टेक्सचर फ़ील्ड उत्पन्न करती है जिसे रंगों का उत्पादन करने के लिए सतह बिंदुओं पर क्वेरी किया जा सकता है। बाद वाले को अन्य सतह गुणों जैसे कि उदाहरण के लिए सामग्री (धारा 4.3.1) को समायोजित करने के लिए बढ़ाया जा सकता है। प्रशिक्षण के दौरान, 2D उच्च-रिज़ॉल्यूशन छवियों को प्रस्तुत करने के लिए एक कुशल अंतरणीय रैस्टराइज़र का उपयोग किया जाता है। पूरी प्रक्रिया अंतरणीय है, जिससे 2D विभेदक से ग्रेडियेंट्स को दोनों जनरेटर शाखाओं में प्रचारित करके छवियों (एक रुचि की वस्तु का संकेत देने वाले मास्क के साथ) से एडवरसैरियल प्रशिक्षण की अनुमति मिलती है। हमारा मॉडल चित्र 2 में सचित्र है। बाद में, हम पहले धारा 3.1 में अपनी 3D जनरेटर का परिचय देंगे, इससे पहले कि हम अंतरणीय प्रतिपादन और हानि कार्यों (धारा 3.2) पर आगे बढ़ें। 3.1 3D टेक्सचर्ड मेश का जनरेटिव मॉडल हम एक 3D जनरेटर = ( ) को एक गॉसियन वितरण से एक नमूना मैप करने के लिए सीखते हैं M, E G z ∈ N (0*,* ) टेक्सचर के साथ मेश तक। z I E M चूंकि एक ही ज्यामिति में अलग-अलग टेक्सचर हो सकते हैं, और एक ही टेक्सचर को विभिन्न ज्यामिति पर लागू किया जा सकता है, हम दो यादृच्छिक इनपुट वैक्टर 1 ∈ R512 और 2 ∈ R512 सैंपल करते हैं। स्टाइलजीएएन [ , , ] के बाद, हम गैर-रैखिक मैपिंग नेटवर्क geo और tex का उपयोग करके 1 और 2 को मध्यवर्ती लेटेंट वैक्टर 1 = geo( 1) और 2 = tex( 2) में मैप करते हैं, जिनका उपयोग 3D आकृतियों और टेक्सचर के पीढ़ी को नियंत्रित करने वाली उत्पन्न करने के लिए किया जाता है। हम औपचारिक रूप से धारा 3.1.1 में ज्यामिति के लिए जनरेटर और धारा 3.1.2 में टेक्सचर जनरेटर का परिचय देते हैं। z z 34 35 33 f f z z w f z w f z स्टाइल 3.1.1 ज्यामिति जनरेटर हम DMTet [ ] को शामिल करने के लिए अपने ज्यामिति जनरेटर को डिज़ाइन करते हैं, जो हाल ही में प्रस्तावित एक अंतरणीय सतह प्रतिनिधित्व है। DMTet ज्यामिति को एक विकृत टेट्राहेड्रल ग्रिड [ , ] पर परिभाषित हस्ताक्षरित दूरी क्षेत्र (SDF) के रूप में प्रस्तुत करता है, जिससे अंतरणीय रूप से मार्चिंग टेट्राहेड्रा [ ] के माध्यम से सतह को पुनः प्राप्त किया जा सकता है। ग्रिड को उसके शीर्षों को स्थानांतरित करके विकृत करने से इसके रिज़ॉल्यूशन का बेहतर उपयोग होता है। सतह निष्कर्षण के लिए DMTet को अपनाकर, हम मनमानी टोपोलॉजी और जीनस के साथ स्पष्ट मेश का उत्पादन कर सकते हैं। हम अगले DMTet का एक संक्षिप्त सारांश प्रदान करते हैं और आगे के विवरण के लिए पाठक को मूल पेपर का संदर्भ देते हैं। 60 22 24 17 मान लीजिए ( ) पूर्ण 3D स्थान को दर्शाता है जिसमें वस्तु स्थित है, जहाँ टेट्राहेड्रल ग्रिड में शीर्ष हैं। प्रत्येक टेट्राहेड्रोन ∈ को चार शीर्षों { } का उपयोग करके परिभाषित किया गया है, जहाँ ∈ {1*, . . . , K*}, जहाँ टेट्राहेड्रा की कुल संख्या है, और ∈ ∈ R3। अपने 3D निर्देशांक के अतिरिक्त, प्रत्येक शीर्ष में SDF मान ∈ R और उसके प्रारंभिक विहित निर्देशांक से शीर्ष का विरूपण ∆ ∈ R3 होता है। यह प्रतिनिधित्व अंतरणीय मार्चिंग टेट्राहेड्रा [ ] के माध्यम से स्पष्ट मेश को पुनः प्राप्त करने की अनुमति देता है, जहां निरंतर अंतरिक्ष में SDF मानों की गणना विकृत शीर्षों ′ = + ∆ पर उनके मान के बैरीसेंट्रिक इंटरपोलेशन द्वारा की जाती है। VT , T VT T Tk T v ak , v bk , v ck , v dk k K v ik VT , v ik v i si v i 60 v v i v i si हम 1 ∈ R512 को प्रत्येक शीर्ष पर SDF मानों और विकृतियों में एक श्रृंखला की सर्त 3D संकेंद्रित और पूरी तरह से जुड़ी हुई परतों के माध्यम से मैप करते हैं। विशेष रूप से, हम पहले 1 पर वातानुकूलित एक फीचर वॉल्यूम उत्पन्न करने के लिए 3D संकेंद्रित परतों का उपयोग करते हैं। फिर हम trilinear इंटरपोलेशन का उपयोग करके प्रत्येक शीर्ष ∈ पर फीचर को क्वेरी करते हैं और इसे MLPs में फीड करते हैं जो SDF मान और विरूपण ∆ आउटपुट करते हैं। उन मामलों में जहां उच्च-रिज़ॉल्यूशन पर मॉडलिंग की आवश्यकता होती है (जैसे पहियों में पतली संरचनाओं वाली मोटरबाइक), हम [ ] के बाद वॉल्यूम उपखंड का भी उपयोग करते हैं। नेटवर्क आर्किटेक्चर w v i w v i VT si v i 60 सभी शीर्षों के लिए और ∆ प्राप्त करने के बाद, हम स्पष्ट मेश निकालने के लिए अंतरणीय मार्चिंग टेट्राहेड्रा एल्गोरिथम का उपयोग करते हैं। मार्चिंग टेट्राहेड्रा के चिह्नों के आधार पर प्रत्येक टेट्राहेड्रोन के भीतर सतह टोपोलॉजी निर्धारित करता है। विशेष रूप से, जब sign( ) /= sign( ), जहां टेट्राहेड्रोन के किनारे में शीर्षों के सूचकांकों को दर्शाते हैं, एक मेश चेहरा निकाला जाता है, और उस चेहरे के शीर्ष को रैखिक इंटरपोलेशन के रूप में निर्धारित किया जाता है mi,j = v 0 i sj−v 0 j si sj−si । ध्यान दें कि उपरोक्त समीकरण केवल तभी मूल्यांकन किया जाता है जब si 6= sj , इस प्रकार यह अंतरणीय है, और mi,j से ग्रेडिएंट को SDF मान si और विरूपण ∆vi में वापस प्रचारित किया जा सकता है। इस प्रतिनिधित्व के साथ, si के विभिन्न चिह्नों की भविष्यवाणी करके मनमानी टोपोलॉजी वाली आकृतियों को आसानी से उत्पन्न किया जा सकता है। अंतरणीय मेश निष्कर्षण si v i si si sj i, j m i,j 3.1.2 टेक्सचर जनरेटर आउटपुट मेश के अनुरूप एक टेक्सचर मैप को सीधे उत्पन्न करना तुच्छ नहीं है, क्योंकि उत्पन्न आकार में मनमानी जीनस और टोपोलॉजी हो सकती है। हम इस प्रकार टेक्सचर को एक टेक्सचर फ़ील्ड [ ] के रूप में पैरामीट्राइज़ करते हैं। 50 विशेष रूप से, हम टेक्सचर फ़ील्ड को एक फ़ंक्शन के साथ मॉडल करते हैं जो 2 के सर्त में, एक सतह बिंदु ∈ R3 के 3D स्थान को उस स्थान पर RGB रंग ∈ R3 में मैप करता है। चूंकि टेक्सचर फ़ील्ड ज्यामिति पर निर्भर करता है, हम इस मैपिंग को ज्यामिति लेटेंट कोड 1 पर अतिरिक्त रूप से वातानुकूलित करते हैं, जैसे कि = ( *,* 1 ⊕ 2), जहां ⊕ संयोजन को दर्शाता है। ft w p c w c ft p w w हम अपने टेक्सचर फ़ील्ड को एक ट्राई-प्लेन प्रतिनिधित्व का उपयोग करके प्रस्तुत करते हैं, जो 3D ऑब्जेक्ट [ ] को पुनर्निर्माण करने और 3D-जागरूक छवियां [ ] उत्पन्न करने में कुशल और अभिव्यंजक है। विशेष रूप से, हम [ , ] का अनुसरण करते हैं और लेटेंट कोड 1 ⊕ 2 को × × ( × 3) के तीन अक्ष-संरेखित ऑर्थोगोनल फीचर प्लेन में मैप करने के लिए एक सर्त 2D संकेंद्रित न्यूरल नेटवर्क का उपयोग करते हैं, जहां = 256 स्थानिक रिज़ॉल्यूशन को दर्शाता है और = 32 चैनलों की संख्या है। नेटवर्क आर्किटेक्चर 55 8 8 35 w w N N C N C फीचर प्लेन को देखते हुए, एक सतह बिंदु p का फीचर वैक्टर f t ∈ R 32 को f t = P e ρ(πe(p)) के रूप में पुनः प्राप्त किया जा सकता है, जहां πe(p) बिंदु p का फीचर प्लेन e में प्रक्षेपण है और ρ(·) सुविधाओं के बायलाइनियर इंटरपोलेशन को दर्शाता है। फिर अतिरिक्त पूरी तरह से जुड़ी हुई परत का उपयोग एकत्रित फीचर वैक्टर f t को RGB रंग c में मैप करने के लिए किया जाता है। ध्यान दें कि, 3D-जागरूक छवि संश्लेषण [8, 25, 7, 57] पर अन्य कार्यों के विपरीत जो एक न्यूरल फ़ील्ड प्रतिनिधित्व का भी उपयोग करते हैं, हमें केवल सतह बिंदुओं के स्थानों पर टेक्सचर फ़ील्ड को सैंपल करने की आवश्यकता होती है (एक किरण के साथ सघन नमूनों के विपरीत)। यह उच्च-रिज़ॉल्यूशन छवियों को प्रस्तुत करने के लिए कम्प्यूटेशनल जटिलता को बहुत कम करता है और निर्माण द्वारा बहु-दृश्य सुसंगत छवियां उत्पन्न करने की गारंटी देता है। 3.2 अंतरणीय प्रतिपादन और प्रशिक्षण प्रशिक्षण के दौरान हमारे मॉडल को पर्यवेक्षण करने के लिए, हम Nvdiffrec [ ] से प्रेरणा लेते हैं जो एक अंतरणीय रेंडरर का उपयोग करके बहु-दृश्य 3D ऑब्जेक्ट पुनर्निर्माण करता है। विशेष रूप से, हम अंतरणीय रेंडरर [ ] का उपयोग करके निकाले गए 3D मेश और टेक्सचर फ़ील्ड को 2D छवियों में प्रस्तुत करते हैं, और हमारे नेटवर्क को एक 2D विभेदक के साथ पर्यवेक्षण करते हैं, जो छवि को एक वास्तविक ऑब्जेक्ट से या उत्पन्न ऑब्जेक्ट से प्रस्तुत के रूप में अलग करने का प्रयास करता है। 47 37 हम मानते हैं कि कैमरा वितरण C जिसका उपयोग डेटासेट में छवियों को प्राप्त करने के लिए किया गया था, ज्ञात है। उत्पन्न आकृतियों को प्रस्तुत करने के लिए, हम C से एक कैमरा को यादृच्छिक रूप से सैंपल करते हैं, और 2D सिलहूट के साथ-साथ एक छवि में 3D मेश को प्रस्तुत करने के लिए एक अत्यधिक अनुकूलित अंतरणीय रैस्टराइज़र Nvdiffrast [ ] का उपयोग करते हैं, जहां प्रत्येक पिक्सेल मेश सतह पर संबंधित 3D बिंदु के निर्देशांक रखता है। इन निर्देशांकों का उपयोग आगे टेक्सचर फ़ील्ड को RGB मान प्राप्त करने के लिए क्वेरी करने के लिए किया जाता है। चूंकि हम सीधे निकाले गए मेश पर काम करते हैं, हम उच्च दक्षता के साथ उच्च-रिज़ॉल्यूशन छवियां प्रस्तुत कर सकते हैं, जिससे हमारे मॉडल को 1024×1024 तक उच्च छवि रिज़ॉल्यूशन के साथ प्रशिक्षित किया जा सके। अंतरणीय प्रतिपादन c 37 हम एक एडवरसैरियल उद्देश्य का उपयोग करके अपने मॉडल को प्रशिक्षित करते हैं। हम स्टाइलजीएएन [ ] से विभेदक आर्किटेक्चर को अपनाते हैं, और R1 नियमितीकरण [ ] के साथ समान गैर-संतृप्त GAN उद्देश्य का उपयोग करते हैं। हम अनुभवजन्य रूप से पाते हैं कि दो अलग-अलग विभेदकों का उपयोग करना, एक RGB छवियों के लिए और दूसरा सिलहूट के लिए, दोनों पर संचालन करने वाले एकल विभेदक की तुलना में बेहतर परिणाम देता है। मान लीजिए विभेदक को दर्शाता है, जहां या तो एक RGB छवि या एक सिलहूट हो सकता है। एडवरसैरियल उद्देश्य को तब इस प्रकार परिभाषित किया जाएगा: विभेदक और उद्देश्य 34 42 Dx x जहां ( ) को ( ) = − log(1 +exp(− )) के रूप में परिभाषित किया गया है, वास्तविक छवियों का वितरण है, प्रतिपादन को दर्शाता है, और एक हाइपरपैरामीटर है। चूंकि अंतरणीय है, ग्रेडियेंट्स को 2D छवियों से हमारे 3D जनरेटरों में वापस प्रचारित किया जा सकता है। g u g u u px R λ R किसी भी दृश्य में अदृश्य आंतरिक फ्लोटिंग चेहरों को हटाने के लिए, हम पड़ोसी शीर्षों [ ] के SDF मानों के बीच परिभाषित क्रॉस-एंट्रॉपी हानि के साथ ज्यामिति जनरेटर को अतिरिक्त रूप से नियमित करते हैं: नियमितीकरण 47 जहां बाइनरी क्रॉस-एंट्रॉपी हानि को दर्शाता है और सिग्मॉइड फ़ंक्शन को दर्शाता है। समीकरण 2 में योग टेट्राहेड्रल ग्रिड में अद्वितीय किनारों S के सेट पर परिभाषित किया गया है, जिसके लिए sign( ) /= sign( )। H σ e si sj समग्र हानि फ़ंक्शन को तब इस प्रकार परिभाषित किया गया है: जहां एक हाइपरपैरामीटर है जो नियमितीकरण के स्तर को नियंत्रित करता है। µ 4 प्रयोग हम अपने मॉडल का मूल्यांकन करने के लिए व्यापक प्रयोग करते हैं। हम पहले