लेखक: Jun Gao, NVIDIA, University of Toronto, Vector Institute (jung@nvidia.com) Tianchang Shen, NVIDIA, University of Toronto, Vector Institute (frshen@nvidia.com) Zian Wang, NVIDIA, University of Toronto, Vector Institute (zianw@nvidia.com) Wenzheng Chen, NVIDIA, University of Toronto, Vector Institute (wenzchen@nvidia.com) Kangxue Yin, NVIDIA (kangxuey@nvidia.com) Daiqing Li, NVIDIA (daiqingl@nvidia.com) Or Litany, NVIDIA (olitany@nvidia.com) Zan Gojcic, NVIDIA (zgojcic@nvidia.com) Sanja Fidler, NVIDIA, University of Toronto, Vector Institute (sfidler@nvidia.com) सारांश चूंकि कई उद्योग बड़े पैमाने पर 3D वर्चुअल दुनिया की मॉडलिंग की ओर बढ़ रहे हैं, 3D सामग्री की मात्रा, गुणवत्ता और विविधता के पैमाने पर सामग्री निर्माण उपकरणों की आवश्यकता स्पष्ट हो रही है। हमारे काम में, हमारा लक्ष्य प्रदर्शनकारी 3D जनरेटिव मॉडल को प्रशिक्षित करना है जो टेक्सचर्ड मेश को संश्लेषित करते हैं जिन्हें सीधे 3D रेंडरिंग इंजनों द्वारा उपभोग किया जा सकता है, इस प्रकार डाउन-स्ट्रीम अनुप्रयोगों में तुरंत उपयोग किया जा सकता है। 3D जनरेटिव मॉडलिंग पर पिछले कार्य या तो ज्यामितीय विवरणों की कमी है, मेश टोपोलॉजी तक सीमित हैं जो वे उत्पन्न कर सकते हैं, आम तौर पर बनावट का समर्थन नहीं करते हैं, या संश्लेषण प्रक्रिया में न्यूरल रेंडरर्स का उपयोग करते हैं, जो सामान्य 3D सॉफ़्टवेयर में उनके उपयोग को गैर-तुच्छ बनाता है। इस काम में, हम GET3D प्रस्तुत करते हैं, एक enerative मॉडल जो सीधे xplicit extured मेश उत्पन्न करता है जिसमें जटिल टोपोलॉजी, समृद्ध ज्यामितीय विवरण और उच्च निष्ठा बनावट होती है। हम 2D छवि संग्रह से हमारे मॉडल को प्रशिक्षित करने के लिए भिन्न सतह मॉडलिंग, भिन्न रेंडरिंग और 2D जनरेटिव एडवरसैरियल नेटवर्क में हाल की सफलता को जोड़ते हैं। GET3D उच्च-गुणवत्ता वाले 3D टेक्सचर्ड मेश उत्पन्न करने में सक्षम है, जो कारों, कुर्सियों, जानवरों, मोटरबाइकों और मानव पात्रों से लेकर इमारतों तक फैला हुआ है, जो पिछले तरीकों पर महत्वपूर्ण सुधार प्राप्त करता है। हमारे परियोजना पृष्ठ: G E T 3D https://nv-tlabs.github.io/GET3D 1 परिचय गेमिंग, रोबोटिक्स, वास्तुकला और सामाजिक प्लेटफार्मों सहित कई उद्योगों के लिए विविध, उच्च-गुणवत्ता वाली 3D सामग्री तेजी से महत्वपूर्ण होती जा रही है। हालाँकि, 3D संपत्तियों का मैन्युअल निर्माण बहुत समय लेने वाला है और इसके लिए विशेष तकनीकी ज्ञान के साथ-साथ कलात्मक मॉडलिंग कौशल की आवश्यकता होती है। मुख्य चुनौतियों में से एक पैमाना है – जबकि Turbosquid [ ] या Sketchfab [ ] जैसे 3D मार्केटप्लेस पर 3D मॉडल मिल सकते हैं, कई 3D मॉडल बनाने के लिए, मान लीजिए, एक गेम या फिल्म को अलग दिखने वाले पात्रों की भीड़ से भरना, अभी भी महत्वपूर्ण मात्रा में कलाकार का समय लगता है। 4 3 सामग्री निर्माण प्रक्रिया को सुविधाजनक बनाने और इसे विभिन्न (नौसिखिया) उपयोगकर्ताओं के लिए सुलभ बनाने के लिए, उच्च-गुणवत्ता और विविध 3D संपत्तियों का उत्पादन करने वाले जनरेटिव 3D नेटवर्क हाल ही में शोध का एक सक्रिय क्षेत्र बन गए हैं [ , , , , , , , , , , ]। हालाँकि, वर्तमान वास्तविक-दुनिया के अनुप्रयोगों के लिए व्यावहारिक रूप से उपयोगी होने के लिए, 3D जनरेटिव मॉडल को आदर्श रूप से निम्नलिखित आवश्यकताओं को पूरा करना चाहिए: उनमें विस्तृत ज्यामिति और मनमानी टोपोलॉजी के साथ आकार उत्पन्न करने की क्षमता होनी चाहिए, आउटपुट एक टेक्सचर्ड मेश होना चाहिए, जो ब्लेंडर [ ] और माया [ ] जैसे मानक ग्राफिक्स सॉफ़्टवेयर पैकेज द्वारा उपयोग किया जाने वाला प्राथमिक प्रतिनिधित्व है, और हम पर्यवेक्षण के लिए 2D छवियों का लाभ उठाने में सक्षम होना चाहिए, क्योंकि वे स्पष्ट 3D आकृतियों की तुलना में अधिक व्यापक रूप से उपलब्ध हैं। 5 14 43 46 53 68 75 60 59 69 23 (a) (b) 15 1 (c) 3D जनरेटिव मॉडलिंग पर पिछले काम ने उपरोक्त आवश्यकताओं के सबसेट पर ध्यान केंद्रित किया है, लेकिन आज तक कोई भी विधि उन सभी को पूरा नहीं करती है (तालिका )। उदाहरण के लिए, 3D पॉइंट क्लाउड [ , 68, 75] उत्पन्न करने वाले तरीके आम तौर पर बनावट उत्पन्न नहीं करते हैं और उन्हें पोस्ट-प्रोसेसिंग में मेश में परिवर्तित करने की आवश्यकता होती है। 1 5 वोकसेल उत्पन्न करने वाले तरीकों में अक्सर ज्यामितीय विवरणों की कमी होती है और वे बनावट उत्पन्न नहीं करते हैं [ , , , ]। न्यूरल फील्ड [ , ] पर आधारित जनरेटिव मॉडल ज्यामिति निकालने पर ध्यान केंद्रित करते हैं लेकिन बनावट की उपेक्षा करते हैं। इनमें से अधिकांश को स्पष्ट 3D पर्यवेक्षण की भी आवश्यकता होती है। अंत में, टेक्सचर्ड 3D मेश [ , ] को सीधे आउटपुट करने वाले तरीके आमतौर पर पूर्वनिर्धारित आकार टेम्पलेट्स की आवश्यकता होती है और वे जटिल टोपोलॉजी या चर जीनस वाले आकार उत्पन्न नहीं कर सकते हैं। 66 20 27 40 43 14 54 53 हाल ही में, न्यूरल वॉल्यूम रेंडरिंग [ ] और 2D जनरेटिव एडवरसैरियल नेटवर्क (GANs) [ , , , , ] में तेजी से प्रगति ने 3D-जागरूक छवि संश्लेषण [ , , , , , ] के उदय को जन्म दिया है। हालाँकि, इस कार्य का उद्देश्य न्यूरल रेंडरिंग का उपयोग करके संश्लेषण प्रक्रिया में बहु-दृश्य सुसंगत छवियां उत्पन्न करना है और यह गारंटी नहीं देता है कि सार्थक 3D आकार उत्पन्न किए जा सकते हैं। जबकि एक मेश को मार्चिंग क्यूब एल्गोरिथ्म [ ] का उपयोग करके अंतर्निहित न्यूरल फ़ील्ड प्रतिनिधित्व से संभावित रूप से प्राप्त किया जा सकता है, संबंधित बनावट निकालना गैर-तुच्छ उपक्रम है। 45 34 35 33 29 52 7 57 8 49 51 25 39 इस काम में, हम एक नया दृष्टिकोण प्रस्तुत करते हैं जिसका उद्देश्य व्यावहारिक रूप से उपयोगी 3D जनरेटिव मॉडल की सभी आवश्यकताओं को पूरा करना है। विशेष रूप से, हम GET3D का प्रस्ताव करते हैं, 3D आकृतियों के लिए एक enerative मॉडल जो सीधे xplicit extured मेश आउटपुट करता है जिसमें उच्च ज्यामितीय और बनावट विवरण और मनमानी मेश टोपोलॉजी होती है। हमारे दृष्टिकोण के मूल में एक जनरेटिव प्रक्रिया है जो भिन्न *स्पष्ट* सतह निष्कर्षण विधि [ ] और एक भिन्न रेंडरिंग तकनीक [ , ] का उपयोग करती है। पूर्व हमें मनमानी टोपोलॉजी के साथ टेक्सचर्ड 3D मेश को सीधे अनुकूलित और आउटपुट करने में सक्षम बनाता है, जबकि बाद वाला हमें 2D छवियों के साथ हमारे मॉडल को प्रशिक्षित करने की अनुमति देता है, इस प्रकार 2D छवि संश्लेषण के लिए विकसित शक्तिशाली और परिपक्व डिस्क्रिमिनेटर का लाभ उठाता है। चूंकि हमारा मॉडल सीधे मेश उत्पन्न करता है और एक अत्यधिक कुशल (भिन्न) ग्राफिक्स रेंडरर का उपयोग करता है, हम अपनी मॉडल को 1024 × 1024 तक की छवि रिज़ॉल्यूशन के साथ प्रशिक्षित करने के लिए आसानी से स्केल कर सकते हैं, जिससे हम उच्च-गुणवत्ता वाले ज्यामितीय और बनावट विवरण सीख सकते हैं। G E T 3D 60 47 37 हम ShapeNet [ ], Turbosquid [ ] और Renderpeople [ ] से कारों, कुर्सियों, जानवरों, मोटरबाइकों और मानव पात्रों से लेकर इमारतों तक जटिल ज्यामिति वाली कई श्रेणियों पर अत्याधुनिक प्रदर्शन प्रदर्शित करते हैं। स्पष्ट मेश के साथ आउटपुट प्रतिनिधित्व के रूप में, GET3D भी बहुत लचीला है और इसे अन्य कार्यों के लिए आसानी से अनुकूलित किया जा सकता है, जिनमें शामिल हैं: उन्नत भिन्न रेंडरिंग [ ] का उपयोग करके विघटित सामग्री और दृश्य-निर्भर प्रकाश प्रभावों को उत्पन्न करना सीखना, पर्यवेक्षण के बिना, CLIP [ ] एम्बेडिंग का उपयोग करके पाठ-निर्देशित 3D आकार उत्पन्न करना। 9 4 2 (a) 12 (b) 56 2 संबंधित कार्य हम ज्यामिति और उपस्थिति के लिए 3D जनरेटिव मॉडल के साथ-साथ 3D-जागरूक जनरेटिव छवि संश्लेषण में हाल की प्रगति की समीक्षा करते हैं। हाल के वर्षों में, 2D जनरेटिव मॉडल ने उच्च-रिज़ॉल्यूशन छवि संश्लेषण [ , , , , , , ] में फोटोरियलिस्टिक गुणवत्ता हासिल की है। इस प्रगति ने 3D सामग्री निर्माण में अनुसंधान को भी प्रेरित किया है। शुरुआती दृष्टिकोणों का उद्देश्य 2D CNN जनरेटर को 3D वोक्सेल ग्रिड [ , , , , ] तक सीधे विस्तारित करना था, लेकिन उच्च रिज़ॉल्यूशन पर पीढ़ी प्रक्रिया में 3D कनवल्शन के उच्च मेमोरी फुटप्रिंट और कम्प्यूटेशनल जटिलता बाधाएं हैं। एक विकल्प के रूप में, अन्य कार्यों ने पॉइंट क्लाउड [ , , , ], निहित [ , ], या ऑक्ट्री [ ] अभ्यावेदन का पता लगाया है। हालाँकि, ये कार्य मुख्य रूप से ज्यामिति उत्पन्न करने पर ध्यान केंद्रित करते हैं और उपस्थिति की उपेक्षा करते हैं। उनके आउटपुट अभ्यावेदनों को मानक ग्राफिक्स इंजनों के साथ संगत बनाने के लिए पोस्ट-प्रोसेस करने की भी आवश्यकता होती है। 3D जनरेटिव मॉडल 34 35 33 52 29 19 16 66 20 27 40 62 5 68 75 46 43 14 30 हमारे काम के लिए अधिक समान, Textured3DGAN [ , ] और DIBR [ ] टेक्सचर्ड 3D मेश उत्पन्न करते हैं, लेकिन वे टेम्पलेट मेश के विरूपण के रूप में पीढ़ी को तैयार करते हैं, जो उन्हें जटिल टोपोलॉजी या चर जीनस वाले आकार उत्पन्न करने से रोकता है, जो हमारा तरीका कर सकता है। PolyGen [ ] और SurfGen [ ] मनमानी टोपोलॉजी वाले मेश उत्पन्न कर सकते हैं, लेकिन बनावट को संश्लेषित नहीं करते हैं। 54 53 11 48 41 न्यूरल वॉल्यूम रेंडरिंग [ ] और निहित अभ्यावेदन [ , ] की सफलता से प्रेरित होकर, हालिया काम 3D-जागरूक छवि संश्लेषण [ , , , , , , , , , ] की समस्या से निपटने लगा है। हालाँकि, न्यूरल वॉल्यूम रेंडरिंग नेटवर्क क्वेरी करने में आम तौर पर धीमे होते हैं, जिससे लंबे प्रशिक्षण समय [ , ] होते हैं, और सीमित रिज़ॉल्यूशन की छवियां उत्पन्न होती हैं। GIRAFFE [ ] और StyleNerf [ ] कम रिज़ॉल्यूशन पर न्यूरल रेंडरिंग करके प्रशिक्षण और रेंडरिंग दक्षता में सुधार करते हैं और फिर 2D CNN के साथ परिणामों को अपस्केल करते हैं। हालाँकि, प्रदर्शन लाभ कम बहु-दृश्य स्थिरता की लागत पर आता है। दोहरे डिस्क्रिमिनेटर का उपयोग करके, EG3D [ ] इस समस्या को आंशिक रूप से कम कर सकता है। फिर भी, न्यूरल रेंडरिंग पर आधारित विधियों से एक टेक्सचर्ड सतह निकालना एक तुच्छ उपक्रम है। इसके विपरीत, GET3D सीधे टेक्सचर्ड 3D मेश आउटपुट करता है जिन्हें मानक ग्राफिक्स इंजनों में आसानी से उपयोग किया जा सकता है। 3D-जागरूक जनरेटिव छवि संश्लेषण 45 43 14 7 57 49 26 25 76 8 51 58 67 7 57 49 25 8 3 विधि अब हम टेक्सचर्ड 3D आकृतियों को संश्लेषित करने के लिए अपना GET3D फ्रेमवर्क प्रस्तुत करते हैं। हमारी जनरेशन प्रक्रिया दो भागों में विभाजित है: एक ज्यामिति शाखा, जो मनमानी टोपोलॉजी का एक भिन्न सतह मेश आउटपुट करती है, और एक बनावट शाखा जो एक बनावट फ़ील्ड उत्पन्न करती है जिसे रंगों को उत्पन्न करने के लिए सतह बिंदुओं पर क्वेरी किया जा सकता है। बाद वाले को अन्य सतह गुणों के लिए विस्तारित किया जा सकता है जैसे उदाहरण के लिए सामग्री (धारा )। प्रशिक्षण के दौरान, 2D उच्च-रिज़ॉल्यूशन छवियों को रेंडर करने के लिए एक कुशल भिन्न रेस्टरराइज़र का उपयोग किया जाता है। पूरी प्रक्रिया भिन्न होती है, जिससे 2D डिस्क्रिमिनेटर से ग्रेडिएंट्स को दोनों जनरेटर शाखाओं में प्रसारित करके छवियों (एक रुचि की वस्तु का संकेत देने वाले मास्क के साथ) से एडवरसैरियल प्रशिक्षण की अनुमति मिलती है। हमारा मॉडल चित्र में चित्रित है। निम्नलिखित में, हम पहले धारा में अपना 3D जनरेटर प्रस्तुत करते हैं, इससे पहले कि हम धारा में भिन्न रेंडरिंग और हानि कार्यों के साथ आगे बढ़ें। 4.3.1 2 3.1 3.2 3.1 3D टेक्सचर्ड मेश का जनरेटिव मॉडल हम एक 3D जनरेटर = ( ) को सीखने का लक्ष्य रखते हैं ताकि गॉसियन वितरण से एक नमूना मैप किया जा सके M, E G z ∈ N (0*,* ) बनावट के साथ एक मेश में। z I E M चूंकि एक ही ज्यामिति में अलग-अलग बनावट हो सकती हैं, और एक ही बनावट को अलग-अलग ज्यामिति पर लागू किया जा सकता है, हम दो यादृच्छिक इनपुट वैक्टर 1 ∈ R512 और 2 ∈ R512 का नमूना लेते हैं। StyleGAN [ , , ] के बाद, हम दो इनपुट वैक्टर 1 और 2 को मध्यवर्ती लेटेंट वैक्टर 1 = geo( 1) और 2 = tex( 2) पर मैप करने के लिए गैर-रैखिक मैपिंग नेटवर्क geo और tex का उपयोग करते हैं, जिनका आगे 3D आकृतियों और बनावट के उत्पादन को नियंत्रित करने वाले *,* के लिए उपयोग किया जाता है। हम क्रमशः। हम धारा में ज्यामिति के लिए जनरेटर और धारा में बनावट जनरेटर को औपचारिक रूप से प्रस्तुत करते हैं। z z 34 35 33 z z w f z w f z f f 3.1.1 3.1.2 3.1.1 ज्यामिति जनरेटर हमने DMTet [ ] को शामिल करने के लिए अपने ज्यामिति जनरेटर को डिजाइन किया है, जो हाल ही में प्रस्तावित भिन्न सतह प्रतिनिधित्व है। DMTet ज्यामिति को एक विकृत चतुष्फलकीय ग्रिड [ , ] पर परिभाषित हस्ताक्षरित दूरी क्षेत्र (SDF) के रूप में दर्शाता है, जिससे मार्चिंग टेट्राहेड्रा [ ] के माध्यम से सतह को भिन्न रूप से पुनर्प्राप्त किया जा सकता है। ग्रिड को उसके शीर्षों को स्थानांतरित करके विकृत करने से उसके रिज़ॉल्यूशन का बेहतर उपयोग होता है। सतह निष्कर्षण के लिए DMTet को अपनाकर, हम मनमानी टोपोलॉजी और जीनस के साथ स्पष्ट मेश उत्पन्न कर सकते हैं। हम आगे DMTet का एक संक्षिप्त सारांश प्रदान करते हैं और अधिक विवरण के लिए मूल पेपर का संदर्भ देते हैं। 60 22 24 17 मान लीजिए ( ) संपूर्ण 3D स्थान को दर्शाता है जिसमें वस्तु स्थित है, जहाँ चतुष्फलकीय ग्रिड पर शीर्ष हैं। प्रत्येक चतुष्फलक ∈ को चार शीर्षों { } का उपयोग करके परिभाषित किया गया है, जहाँ ∈ {1*, . . . , K*}, चतुष्फलकों की कुल संख्या है, और ∈ ∈ R3। इसके * 3D निर्देशांक के अतिरिक्त, प्रत्येक शीर्ष में SDF मान ∈ R और प्रारंभिक विरूपण ∆ ∈ R3 का मान होता है। 3D निर्देशांक। यह प्रतिनिधित्व विकृत शीर्षों ′ = + ∆ पर उनके मान के बार्इसेंट्रिक इंटरपोलेशन द्वारा सतत स्थान में SDF मानों की गणना करके, भिन्न मार्चिंग टेट्राहेड्रा [ ] के माध्यम से स्पष्ट मेश को पुनर्प्राप्त करने की अनुमति देता है। VT , T VT T Tk T v ak , v bk , v ck , v dk k K v ik VT , v ik v i si v i v v i v i si 60 हम 1 ∈ R512 को प्रत्येक शीर्ष पर SDF मानों और विकृतियों में श्रृंखलाओं की श्रृंखलाओं और पूरी तरह से कनेक्टेड परतों के माध्यम से मैप करते हैं। विशेष रूप से, हम पहले 3D कनवल्शनल परतों का उपयोग करके 1 पर सशर्त एक सुविधा वॉल्यूम उत्पन्न करते हैं। फिर हम ट्रिलिनियर इंटरपोलेशन का उपयोग करके प्रत्येक शीर्ष ∈ पर सुविधा को क्वेरी करते हैं और इसे MLPs में फ़ीड करते हैं जो SDF मान और विरूपण ∆ आउटपुट करते हैं। उन मामलों में जहां उच्च-रिज़ॉल्यूशन पर मॉडलिंग की आवश्यकता होती है (जैसे पहियों में पतली संरचनाओं वाला मोटरबाइक), हम आगे [ ] के बाद वॉल्यूम उपविभाजन का उपयोग करते हैं। नेटवर्क आर्किटेक्चर w v i w v i VT si v i 60 सभी शीर्षों के लिए और ∆ प्राप्त करने के बाद, हम स्पष्ट मेश निकालने के लिए भिन्न मार्चिंग टेट्राहेड्रा एल्गोरिथम का उपयोग करते हैं। मार्चिंग टेट्राहेड्रा के संकेतों के आधार पर प्रत्येक चतुष्फलक के भीतर सतह टोपोलॉजी निर्धारित करता है। विशेष रूप से, एक मेश चेहरा तब निकाला जाता है जब sign( ) /= sign( ), जहां चतुष्फलक के किनारे पर शीर्षों के सूचकांक हैं, और उस चेहरे के शीर्ष को रैखिक इंटरपोलेशन के रूप में निर्धारित किया जाता है mi,j = v 0 i sj−v 0 j si sj−si । ध्यान दें कि उपरोक्त समीकरण केवल तभी मूल्यांकित किया जाता है जब si 6= sj , इस प्रकार यह भिन्न होता है, और mi,j से ग्रेडिएंट को SDF मान si और विकृतियों ∆vi में वापस प्रचारित किया जा सकता है। इस प्रतिनिधित्व के साथ, si के विभिन्न संकेतों की भविष्यवाणी करके मनमानी टोपोलॉजी वाले आकार आसानी से उत्पन्न किए जा सकते हैं। भिन्न मेश निष्कर्षण si v i si si sj i, j m i,j 3.1.2 बनावट जनरेटर आउटपुट मेश के अनुरूप एक बनावट नक्शा सीधे उत्पन्न करना तुच्छ नहीं है, क्योंकि उत्पन्न आकार में मनमानी जीनस और टोपोलॉजी हो सकती है। हम इस प्रकार बनावट को बनावट फ़ील्ड [ ] के रूप में पैरामीटराइज़ करते हैं। 50 विशेष रूप से, हम बनावट फ़ील्ड को एक फ़ंक्शन के साथ मॉडल करते हैं जो 3D स्थान का एक सतह बिंदु ∈ R3, 2 के सशर्त, उस स्थान पर RGB रंग ∈ R3 में मैप करता है। चूंकि बनावट फ़ील्ड ज्यामिति पर निर्भर करती है, हम अतिरिक्त रूप से इस मैपिंग को ज्यामिति लेटेंट कोड 1 पर सशर्त करते हैं, जैसे कि = ( *,* 1 ⊕ 2), जहाँ ⊕ संयोजन को दर्शाता है। ft p w c w c ft p w w हम अपने बनावट फ़ील्ड को ट्राई-प्लेन प्रतिनिधित्व का उपयोग करके दर्शाते हैं, जो 3D ऑब्जेक्ट [ ] के पुनर्निर्माण और 3D-जागरूक छवियों [ ] को उत्पन्न करने में कुशल और अभिव्यंजक है। विशेष रूप से, हम [ , ] का अनुसरण करते हैं और लेटेंट कोड 1 ⊕ 2 को × × ( × 3) के आकार के तीन अक्ष-संरेखित ऑर्थोगोनल फीचर प्लेन में मैप करने के लिए एक सशर्त 2D कनवल्शनल न्यूरल नेटवर्क का उपयोग करते हैं, जहां = 256 स्थानिक रिज़ॉल्यूशन और = 32 चैनलों की संख्या को दर्शाता है। नेटवर्क आर्किटेक्चर 55 8 8 35 w w N N C N C फ़ीचर प्लेन दिए जाने पर, सतह बिंदु p का फ़ीचर वैक्टर f t ∈ R 32 को f t = P e ρ(πe(p)) के रूप में पुनर्प्राप्त किया जा सकता है, जहाँ πe(p) फ़ीचर प्लेन e पर बिंदु p का प्रक्षेपण है और ρ(·) फ़ीचर के बिलिनियर इंटरपोलेशन को दर्शाता है। फिर RGB रंग c में मैप करने के लिए एक अतिरिक्त पूरी तरह से कनेक्टेड परत का उपयोग किया जाता है। ध्यान दें कि, 3D-जागरूक छवि संश्लेषण पर अन्य कार्यों के विपरीत जो एक न्यूरल फ़ील्ड प्रतिनिधित्व का भी उपयोग करते हैं, हमें केवल सतह बिंदुओं के स्थानों पर बनावट फ़ील्ड का नमूना लेने की आवश्यकता है (एक सघन नमूना के बजाय एक किरण के साथ)। यह उच्च-रिज़ॉल्यूशन छवियों को रेंडर करने के लिए कम्प्यूटेशनल जटिलता को बहुत कम करता है और निर्माण द्वारा बहु-दृश्य सुसंगत छवियों को उत्पन्न करने की गारंटी देता है। 3.2 भिन्न रेंडरिंग और प्रशिक्षण प्रशिक्षण के दौरान हमारे मॉडल को पर्यवेक्षण करने के लिए, हम Nvdiffrec [ ] से प्रेरणा लेते हैं जो एक भिन्न रेंडरर का उपयोग करके बहु-दृश्य 3D वस्तु पुनर्निर्माण करता है। विशेष रूप से, हम निकाले गए 3D मेश और बनावट फ़ील्ड को भिन्न रेंडरर [ ] का उपयोग करके 2D छवियों में रेंडर करते हैं, और हमारे नेटवर्क को 2D डिस्क्रिमिनेटर के साथ पर्यवेक्षण करते हैं, जो छवि को एक वास्तविक वस्तु से या उत्पन्न वस्तु से रेंडर किए गए के रूप में अलग करने का प्रयास करता है। 47 37 हम मानते हैं कि कैमरा वितरण C जिसका उपयोग डेटासेट में छवियों को प्राप्त करने के लिए किया गया था, ज्ञात है। उत्पन्न आकृतियों को रेंडर करने के लिए, हम C से एक कैमरा को यादृच्छिक रूप से नमूना लेते हैं, और 2D सिल्हूट के साथ-साथ एक छवि में 3D मेश को रेंडर करने के लिए एक अत्यधिक अनुकूलित भिन्न रेस्टरराइज़र Nvdiffrast [ ] का उपयोग करते हैं, जिसमें प्रत्येक पिक्सेल में संबंधित 3D का निर्देशांक होता है भिन्न रेंडरिंग c 37 मेश सतह पर बिंदु। इन निर्देशांकों का उपयोग आगे RGB मान प्राप्त करने के लिए बनावट फ़ील्ड को क्वेरी करने के लिए किया जाता है। चूंकि हम सीधे निकाले गए मेश पर काम करते हैं, हम उच्च दक्षता के साथ उच्च-रिज़ॉल्यूशन छवियां रेंडर कर सकते हैं, जिससे हमारे मॉडल को 1024 × 1024 तक की छवि रिज़ॉल्यूशन के साथ प्रशिक्षित किया जा सकता है। हम एडवरसैरियल उद्देश्य का उपयोग करके अपने मॉडल को प्रशिक्षित करते हैं। हम StyleGAN [ ] से डिस्क्रिमिनेटर आर्किटेक्चर को अपनाते हैं, और R1 नियमितीकरण [ ] के साथ उसी गैर-संतृप्त GAN उद्देश्य का उपयोग करते हैं। हम अनुभवजन्य रूप से पाते हैं कि दो अलग-अलग डिस्क्रिमिनेटर का उपयोग करना, एक RGB छवियों के लिए और दूसरा सिल्हूट के लिए, दोनों पर काम करने वाले एकल डिस्क्रिमिनेटर की तुलना में बेहतर परिणाम देता है। मान लीजिए डिस्क्रिमिनेटर को दर्शाता है, जहां या तो एक RGB छवि या एक सिल्हूट हो सकता है। एडवरसैरियल उद्देश्य को इस प्रकार परिभाषित किया जाएगा: डिस्क्रिमिनेटर & उद्देश्य 34 42 Dx x जहां ( ) को ( ) = − log(1 +exp(− )) के रूप में परिभाषित किया गया है, वास्तविक छवियों का वितरण है, रेंडरिंग को दर्शाता है, और एक हाइपरपैरामीटर है। चूंकि भिन्न है, ग्रेडिएंट्स को 2D छवियों से हमारे 3D जनरेटर में वापस प्रचारित किया जा सकता है। g u g u u px R λ R उन आंतरिक फ्लोटिंग चेहरों को हटाने के लिए जो किसी भी दृश्य में दिखाई नहीं देते हैं, हम अतिरिक्त रूप से ज्यामिति जनरेटर को पड़ोसी शीर्षों [ ] के SDF मानों के बीच परिभाषित क्रॉस-एंट्रॉपी हानि के साथ नियमित करते हैं: नियमितीकरण 47 जहां बाइनरी क्रॉस-एंट्रॉपी हानि को दर्शाता है और सिग्मॉइड फ़ंक्शन को दर्शाता है। समीकरण में योग चतुष्फलकीय ग्रिड में अद्वितीय किनारों S के सेट पर परिभाषित किया गया है, जिसके लिए sign( ) /= sign( )। H σ 2 e si sj समग्र हानि फलन को इस प्रकार परिभाषित किया जाएगा: जहां एक हाइपरपैरामीटर है जो नियमितीकरण के स्तर को नियंत्रित करता है। µ 4 प्रयोग हम अपने मॉडल का मूल्यांकन करने के लिए व्यापक प्रयोग करते हैं। हम पहले ShapeNet [ ] और Turbosquid [ ] डेटासेट का उपयोग करके GET3D द्वारा उत्पन्न 3D टेक्सचर्ड मेश की गुणवत्ता की तुलना करते हैं। इसके बाद, हम धारा 9 4