लेखक: Jun Gao, NVIDIA, University of Toronto, Vector Institute (jung@nvidia.com) Tianchang Shen, NVIDIA, University of Toronto, Vector Institute (frshen@nvidia.com) Zian Wang, NVIDIA, University of Toronto, Vector Institute (zianw@nvidia.com) Wenzheng Chen, NVIDIA, University of Toronto, Vector Institute (wenzchen@nvidia.com) Kangxue Yin, NVIDIA (kangxuey@nvidia.com) Daiqing Li, NVIDIA (daiqingl@nvidia.com) Or Litany, NVIDIA (olitany@nvidia.com) Zan Gojcic, NVIDIA (zgojcic@nvidia.com) Sanja Fidler, NVIDIA, University of Toronto, Vector Institute (sfidler@nvidia.com) सारांश जैसे-जैसे कई उद्योग विशाल 3D आभासी दुनिया के मॉडलिंग की ओर बढ़ रहे हैं, 3D सामग्री की मात्रा, गुणवत्ता और विविधता के पैमाने पर सामग्री निर्माण उपकरणों की आवश्यकता स्पष्ट होती जा रही है। हमारे काम में, हमारा लक्ष्य प्रदर्शनकारी 3D जनरेटिव मॉडल को प्रशिक्षित करना है जो टेक्स्चर्ड मेश को संश्लेषित करते हैं जिन्हें सीधे 3D रेंडरिंग इंजन द्वारा उपभोग किया जा सकता है, इस प्रकार डाउन-स्ट्रीम अनुप्रयोगों में तुरंत उपयोग किया जा सकता है। 3D जनरेटिव मॉडलिंग पर पूर्व कार्य या तो ज्यामितीय विवरणों की कमी रखते हैं, वे उत्पन्न कर सकने वाले मेश टोपोलॉजी में सीमित होते हैं, आमतौर पर बनावट का समर्थन नहीं करते हैं, या संश्लेषण प्रक्रिया में न्यूरल रेंडरर्स का उपयोग करते हैं, जो सामान्य 3D सॉफ़्टवेयर में उनके उपयोग को गैर-तुच्छ बनाते हैं। इस कार्य में, हम GET3D प्रस्तुत करते हैं, एक enerative मॉडल जो सीधे xplicit extured मेश को जटिल टोपोलॉजी, समृद्ध ज्यामितीय विवरण और उच्च निष्ठा बनावट के साथ उत्पन्न करता है। हम 2D छवि संग्रह से हमारे मॉडल को प्रशिक्षित करने के लिए विभेदक सतह मॉडलिंग, विभेदक रेंडरिंग और 2D जनरेटिव एडवरसैरियल नेटवर्क में हाल की सफलता का लाभ उठाते हैं। GET3D उच्च-गुणवत्ता वाली 3D टेक्स्चर्ड मेश उत्पन्न करने में सक्षम है, जिसमें कार, कुर्सियाँ, जानवर, मोटरसाइकिल और मानव पात्रों से लेकर इमारतें तक शामिल हैं, जिससे पिछले तरीकों पर महत्वपूर्ण सुधार प्राप्त हुए हैं। हमारा प्रोजेक्ट पेज: G E T 3D https://nv-tlabs.github.io/GET3D 1 परिचय गेमिंग, रोबोटिक्स, वास्तुकला और सोशल प्लेटफॉर्म सहित कई उद्योगों के लिए विविध, उच्च-गुणवत्ता वाली 3D सामग्री तेजी से महत्वपूर्ण होती जा रही है। हालांकि, 3D संपत्तियों का मैनुअल निर्माण बहुत समय लेने वाला होता है और इसके लिए विशिष्ट तकनीकी ज्ञान के साथ-साथ कलात्मक मॉडलिंग कौशल की आवश्यकता होती है। मुख्य चुनौतियों में से एक पैमाना है - जबकि एक 3D बाज़ार जैसे टर्बोस्क्विड या स्केचफ़ैब पर 3D मॉडल मिल सकते हैं, कई 3D मॉडल बनाने के लिए, मान लीजिए, किसी गेम या फिल्म को ऐसे पात्रों की भीड़ से भरना जो सभी अलग दिखते हैं, फिर भी एक महत्वपूर्ण मात्रा में कलाकार का समय लगता है। सामग्री निर्माण प्रक्रिया को सुविधाजनक बनाने और इसे विभिन्न (नौसिखिया) उपयोगकर्ताओं के लिए सुलभ बनाने के लिए, उच्च-गुणवत्ता और विविध 3D संपत्तियों का उत्पादन करने वाले जनरेटिव 3D नेटवर्क हाल ही में अनुसंधान का एक सक्रिय क्षेत्र बन गए हैं। हालांकि, वर्तमान वास्तविक-दुनिया के अनुप्रयोगों के लिए व्यावहारिक रूप से उपयोगी होने के लिए, 3D जनरेटिव मॉडल को आदर्श रूप से निम्नलिखित आवश्यकताओं को पूरा करना चाहिए: उनमें विस्तृत ज्यामिति और मनमानी टोपोलॉजी वाले आकार उत्पन्न करने की क्षमता होनी चाहिए, आउटपुट एक टेक्स्चर्ड मेश होना चाहिए, जो ब्लेंडर और माया जैसे मानक ग्राफिक्स सॉफ़्टवेयर पैकेज द्वारा उपयोग की जाने वाली एक प्राथमिक प्रतिनिधित्व है, और हमें पर्यवेक्षण के लिए 2D छवियों का लाभ उठाने में सक्षम होना चाहिए, क्योंकि वे स्पष्ट 3D आकृतियों की तुलना में अधिक व्यापक रूप से उपलब्ध हैं। (ए) (बी) (सी) 3D जनरेटिव मॉडलिंग पर पूर्व कार्य उपरोक्त आवश्यकताओं के उपसमूहों पर केंद्रित रहा है, लेकिन आज तक कोई भी विधि उन सभी को पूरा नहीं करती है (तालिका 1)। उदाहरण के लिए, 3D पॉइंट क्लाउड उत्पन्न करने वाली विधियों में आमतौर पर बनावट उत्पन्न नहीं होती है और उन्हें पोस्ट-प्रोसेसिंग में मेश में परिवर्तित करने की आवश्यकता होती है। वोकसेल उत्पन्न करने वाली विधियों में अक्सर ज्यामितीय विवरणों की कमी होती है और वे बनावट उत्पन्न नहीं करती हैं। न्यूरल फ़ील्ड पर आधारित जनरेटिव मॉडल ज्यामिति निकालने पर ध्यान केंद्रित करते हैं लेकिन बनावट को नजरअंदाज करते हैं। इनमें से अधिकांश को स्पष्ट 3D पर्यवेक्षण की भी आवश्यकता होती है। अंत में, जो विधियाँ सीधे टेक्स्चर्ड 3D मेश आउटपुट करती हैं, उन्हें आमतौर पर पूर्वनिर्धारित आकार टेम्पलेट्स की आवश्यकता होती है और वे जटिल टोपोलॉजी या विभिन्न जीनस वाले आकार उत्पन्न नहीं कर सकती हैं। हाल ही में, न्यूरल वॉल्यूम रेंडरिंग और 2D जनरेटिव एडवरसैरियल नेटवर्क (GANs) में तीव्र प्रगति ने 3D-जागरूक छवि संश्लेषण के उदय को जन्म दिया है। हालांकि, इस कार्य का उद्देश्य संश्लेषण प्रक्रिया में न्यूरल रेंडरिंग का उपयोग करके मल्टी-व्यू सुसंगत छवियों को संश्लेषित करना है और यह गारंटी नहीं देता है कि सार्थक 3D आकार उत्पन्न किए जा सकते हैं। जबकि मार्चिंग क्यूब्स एल्गोरिथ्म का उपयोग करके अंतर्निहित न्यूरल फ़ील्ड प्रतिनिधित्व से एक मेश संभावित रूप से प्राप्त किया जा सकता है, संबंधित बनावट निकालना गैर-तुच्छ है। इस कार्य में, हम एक नवीन दृष्टिकोण प्रस्तुत करते हैं जिसका उद्देश्य व्यावहारिक रूप से उपयोगी 3D जनरेटिव मॉडल की सभी आवश्यकताओं को पूरा करना है। विशेष रूप से, हम GET3D प्रस्तुत करते हैं, 3D आकृतियों के लिए एक enerative मॉडल जो उच्च ज्यामितीय और बनावट विवरण और मनमानी मेश टोपोलॉजी के साथ सीधे xplicit extured मेश आउटपुट करता है। हमारे दृष्टिकोण के मूल में एक जनरेटिव प्रक्रिया है जो एक विभेदक *स्पष्ट* सतह निष्कर्षण विधि और एक विभेदक रेंडरिंग तकनीक का उपयोग करती है। पूर्व हमें मनमानी टोपोलॉजी के साथ सीधे टेक्स्चर्ड 3D मेश को अनुकूलित और आउटपुट करने में सक्षम बनाता है, जबकि उत्तरार्द्ध हमें 2D छवियों के साथ हमारे मॉडल को प्रशिक्षित करने की अनुमति देता है, इस प्रकार 2D छवि संश्लेषण के लिए विकसित शक्तिशाली और परिपक्व विभेदकों का लाभ उठाता है। चूंकि हमारा मॉडल सीधे मेश उत्पन्न करता है और एक अत्यधिक कुशल (विभेदक) ग्राफिक्स रेंडरर का उपयोग करता है, हम छवि के साथ प्रशिक्षित करने के लिए अपने मॉडल को आसानी से बढ़ा सकते हैं G E T 3D 1024 × 1024 तक का रिज़ॉल्यूशन, जिससे हम उच्च-गुणवत्ता वाले ज्यामितीय और बनावट विवरण सीख सकते हैं। हम ShapeNet, Turbosquid और Renderpeople से जटिल ज्यामिति के साथ कई श्रेणियों पर बिनशर्त 3D आकार निर्माण के लिए अत्याधुनिक प्रदर्शन प्रदर्शित करते हैं, जैसे कि कुर्सियाँ, मोटरसाइकिल, कार, मानव पात्र और इमारतें। स्पष्ट मेश को आउटपुट प्रतिनिधित्व के रूप में रखते हुए, GET3D भी बहुत लचीला है और इसे अन्य कार्यों के लिए आसानी से अनुकूलित किया जा सकता है, जिसमें: उन्नत विभेदक रेंडरिंग का उपयोग करके विघटित सामग्री और दृश्य-निर्भर प्रकाश प्रभावों को उत्पन्न करने के लिए सीखना, बिना पर्यवेक्षण के, CLIP एम्बेडिंग का उपयोग करके पाठ-निर्देशित 3D आकार निर्माण। (ए) (बी) 2 संबंधित कार्य हम ज्यामिति और रूप के लिए 3D जनरेटिव मॉडल में हाल की प्रगति, साथ ही 3D-जागरूक जनरेटिव छवि संश्लेषण की समीक्षा करते हैं। हाल के वर्षों में, 2D जनरेटिव मॉडल ने उच्च-रिज़ॉल्यूशन छवि संश्लेषण में फोटोरियलिस्टिक गुणवत्ता हासिल की है। इस प्रगति ने 3D सामग्री निर्माण में अनुसंधान को भी प्रेरित किया है। शुरुआती दृष्टिकोणों का उद्देश्य 2D CNN जनरेटर को 3D वोक्सेल ग्रिड तक सीधे विस्तारित करना था, लेकिन उच्च रिज़ॉल्यूशन पर निर्माण प्रक्रिया में 3D कनवल्शन के उच्च मेमोरी फ़ुटप्रिंट और कम्प्यूटेशनल जटिलता बाधा डालते हैं। एक विकल्प के रूप में, अन्य कार्यों ने पॉइंट क्लाउड, इम्प्लिसिट, या ऑक्ट्री प्रतिनिधित्व का पता लगाया है। हालांकि, ये कार्य मुख्य रूप से ज्यामिति उत्पन्न करने पर ध्यान केंद्रित करते हैं और रूप की उपेक्षा करते हैं। उनके आउटपुट प्रतिनिधित्व को मानक ग्राफिक्स इंजन के साथ संगत बनाने के लिए पोस्ट-प्रोसेस करने की भी आवश्यकता होती है। 3D जनरेटिव मॉडल हमारे काम के लिए अधिक समान, टेक्स्चर्ड3डीजीएएन और डीआईबीआर टेक्स्चर्ड 3D मेश उत्पन्न करते हैं, लेकिन वे निर्माण को एक टेम्पलेट मेश के विरूपण के रूप में तैयार करते हैं, जो उन्हें जटिल टोपोलॉजी या विभिन्न जीनस वाले आकार उत्पन्न करने से रोकता है, जो हमारा तरीका कर सकता है। पॉलीजीन और सर्फजीन मनमानी टोपोलॉजी वाले मेश का उत्पादन कर सकते हैं, लेकिन वे बनावट का संश्लेषण नहीं करते हैं। न्यूरल वॉल्यूम रेंडरिंग और इम्प्लिसिट रिप्रेजेंटेशन में सफलता से प्रेरित होकर, हाल के काम ने 3D-जागरूक छवि संश्लेषण की समस्या से निपटना शुरू कर दिया है। हालांकि, न्यूरल वॉल्यूम रेंडरिंग नेटवर्क आमतौर पर क्वेरी करने में धीमे होते हैं, जिससे लंबे प्रशिक्षण समय होते हैं, और सीमित रिज़ॉल्यूशन की छवियां उत्पन्न होती हैं। जिराफ़ और स्टाइलनर्फ कम रिज़ॉल्यूशन पर न्यूरल रेंडरिंग करके प्रशिक्षण और रेंडरिंग दक्षता में सुधार करते हैं और फिर 2D CNN के साथ परिणामों को अपस्केल करते हैं। हालांकि, प्रदर्शन लाभ कम मल्टी-व्यू संगति की कीमत पर आता है। एक दोहरे विभेदक का उपयोग करके, ईजी3डी इस समस्या को आंशिक रूप से कम कर सकता है। फिर भी, न्यूरल रेंडरिंग पर आधारित विधियों से एक टेक्स्चर्ड सतह निकालना एक गैर-तुच्छ प्रयास है। इसके विपरीत, GET3D सीधे टेक्स्चर्ड 3D मेश आउटपुट करता है जिनका उपयोग मानक ग्राफिक्स इंजन में आसानी से किया जा सकता है। 3D-Aware जनरेटिव इमेज सिंथेसिस 3 विधि अब हम टेक्स्चर्ड 3D आकृतियों को संश्लेषित करने के लिए अपने GET3D फ्रेमवर्क को प्रस्तुत करते हैं। हमारी जनरेटिव प्रक्रिया को दो भागों में विभाजित किया गया है: एक ज्यामिति शाखा, जो मनमानी टोपोलॉजी का एक विभेदक सतह मेश आउटपुट करती है, और एक बनावट शाखा जो एक बनावट फ़ील्ड उत्पन्न करती है जिसे सतह बिंदुओं पर रंग उत्पन्न करने के लिए क्वेरी किया जा सकता है। उत्तरार्द्ध को अन्य सतह गुणों तक विस्तारित किया जा सकता है जैसे कि उदाहरण के लिए सामग्री (धारा 4.3.1)। प्रशिक्षण के दौरान, 2D उच्च-रिज़ॉल्यूशन छवियों में परिणामी टेक्स्चर्ड मेश को प्रस्तुत करने के लिए एक कुशल विभेदक रेस्टरिज़र का उपयोग किया जाता है। संपूर्ण प्रक्रिया विभेदक है, जिससे 2D विभेदक से 2D विभेदक से ग्रेडिएंट्स को दोनों जनरेटर शाखाओं में प्रचारित करके छवियों (मास्क के साथ एक रुचि की वस्तु का संकेत) से एडवरसैरियल प्रशिक्षण की अनुमति मिलती है। हमारा मॉडल चित्र 2 में दर्शाया गया है। निम्नलिखित में, हम पहले धारा 3.1 में अपने 3D जनरेटर का परिचय देते हैं, इससे पहले कि हम विभेदक रेंडरिंग और हानि कार्यों में धारा 3.2 पर आगे बढ़ें। 3.1 3D टेक्स्चर्ड मेश का जनरेटिव मॉडल हम एक 3D जनरेटर = ( ) को सीखने का लक्ष्य रखते हैं ताकि गॉसियन वितरण से एक नमूना मैप किया जा सके M, E G z ∈ N (0*,* ) बनावट के साथ एक मेश तक। z I E M चूंकि एक ही ज्यामिति में अलग-अलग बनावट हो सकती है, और एक ही बनावट को विभिन्न ज्यामिति पर लागू किया जा सकता है, इसलिए हम दो यादृच्छिक इनपुट वैक्टर 1 ∈ R512 और 2 ∈ R512 को सैंपल करते हैं। StyleGAN के बाद, हम मध्यवर्ती अव्यक्त वैक्टर 1 = geo( 1) और 2 = tex( 2) को मैप करने के लिए गैर-रैखिक मैपिंग नेटवर्क geo और tex का उपयोग करते हैं, जिनका उपयोग क्रमशः 3D आकृतियों और बनावट के निर्माण को नियंत्रित करने वाली का उत्पादन करने के लिए आगे किया जाता है। हम औपचारिक रूप से धारा 3.1.1 में ज्यामिति के लिए जनरेटर, और धारा 3.1.2 में बनावट जनरेटर का परिचय देते हैं। z z w f z w f z f f शैलियों 3.1.1 ज्यामिति जनरेटर हम अपने ज्यामिति जनरेटर को DMTet को शामिल करने के लिए डिज़ाइन करते हैं, जो हाल ही में प्रस्तावित एक विभेदक सतह प्रतिनिधित्व है। DMTet ज्यामिति को एक अविकसित चतुष्फलकीय ग्रिड पर परिभाषित एक हस्ताक्षरित दूरी क्षेत्र (SDF) के रूप में प्रस्तुत करता है, जिससे मार्चिंग टेट्राहेड्रा के माध्यम से विभेदक रूप से सतह को पुनर्प्राप्त किया जा सकता है। ग्रिड को उसके शीर्षों को स्थानांतरित करके विकृत करने से उसके रिज़ॉल्यूशन का बेहतर उपयोग होता है। सतह निष्कर्षण के लिए DMTet को अपनाकर, हम मनमानी टोपोलॉजी और जीनस के साथ स्पष्ट मेश का उत्पादन कर सकते हैं। हम आगे DMTet का संक्षिप्त सारांश प्रदान करते हैं और अधिक विवरण के लिए पाठक को मूल पेपर का संदर्भ देते हैं। मान लीजिए ( ) संपूर्ण 3D स्थान को दर्शाता है जिसमें वस्तु स्थित है, जहाँ चतुष्फलकीय ग्रिड में शीर्ष हैं। प्रत्येक चतुष्फलक ∈ चार शीर्षों { } का उपयोग करके परिभाषित किया गया है, जहाँ ∈ {1*, . . . , K*}, जहाँ चतुष्फलकों की कुल संख्या है, और ∈ ∈ R3। इसके *i* 3D निर्देशांक के अलावा, प्रत्येक शीर्ष में SDF मान ∈ R और प्रारंभिक विरूपण ∆ ∈ R3 होता है। 3D निर्देशांक से। यह प्रतिनिधित्व विभेदक मार्चिंग टेट्राहेड्रा के माध्यम से स्पष्ट मेश को पुनर्प्राप्त करने की अनुमति देता है, जहां निरंतर स्थान में SDF मान विकृत शीर्षों ′ = + ∆ पर उनके मान के बैरीसेंट्रिक इंटरपोलेशन द्वारा परिकलित किए जाते हैं। VT , T VT T Tk T v ak , v bk , v ck , v dk k K v ik VT , v ik v i si v i v v i v i si हम 1 ∈ R512 को प्रत्येक शीर्ष पर SDF मानों और विरूपणों में सशर्त 3D कनवल्शनल और पूरी तरह से कनेक्टेड परतों की एक श्रृंखला के माध्यम से मैप करते हैं। विशेष रूप से, हम पहले 1 पर सशर्त एक फ़ीचर वॉल्यूम उत्पन्न करने के लिए 3D कनवल्शनल परतों का उपयोग करते हैं। फिर हम trilinear इंटरपोलेशन का उपयोग करके प्रत्येक शीर्ष ∈ पर फ़ीचर क्वेरी करते हैं और इसे MLPs में फ़ीड करते हैं जो SDF मान और विरूपण ∆ आउटपुट करते हैं। उच्च-रिज़ॉल्यूशन पर मॉडलिंग की आवश्यकता के मामलों में (जैसे पहियों में पतली संरचनाओं वाली मोटरसाइकिल), हम आगे के बाद वॉल्यूम उपखंड का उपयोग करते हैं। नेटवर्क आर्किटेक्चर w v i w v i VT si v i सभी शीर्षों के लिए और ∆ प्राप्त करने के बाद, हम स्पष्ट मेश निकालने के लिए विभेदक मार्चिंग टेट्राहेड्रा एल्गोरिथम का उपयोग करते हैं। मार्चिंग टेट्राहेड्रा के चिह्नों के आधार पर प्रत्येक चतुष्फलक के भीतर सतह टोपोलॉजी निर्धारित करता है। विशेष रूप से, जब sign( ) /= sign( ) होता है, जहां चतुष्फलक के किनारे में शीर्षों के सूचकांकों को दर्शाते हैं, तो एक मेश चेहरा निकाला जाता है, और उस चेहरे के शीर्ष को रैखिक इंटरपोलेशन के रूप में mi,j = v 0 i sj−v 0 j si sj−si के रूप में निर्धारित किया जाता है। ध्यान दें कि उपरोक्त समीकरण केवल तभी मूल्यांकित किया जाता है जब si 6= sj, इस प्रकार यह विभेदक है, और mi,j का ग्रेडिएंट SDF मान si और विरूपण ∆vi में वापस प्रचारित किया जा सकता है। इस प्रतिनिधित्व के साथ, si के विभिन्न चिह्नों की भविष्यवाणी करके मनमानी टोपोलॉजी वाले आकार आसानी से उत्पन्न किए जा सकते हैं। विभेदक मेश निष्कर्षण si v i si si sj i, j m i,j 3.1.2 बनावट जनरेटर आउटपुट मेश के साथ सुसंगत बनावट मानचित्र को सीधे उत्पन्न करना तुच्छ नहीं है, क्योंकि उत्पन्न आकार में मनमानी जीनस और टोपोलॉजी हो सकती है। इसलिए हम बनावट को एक बनावट फ़ील्ड के रूप में पैरामीट्रिज़ करते हैं। विशेष रूप से, हम एक फ़ंक्शन के साथ बनावट फ़ील्ड को मॉडल करते हैं जो सतह बिंदु ∈ R3 के 3D स्थान को, 2 पर सशर्त, उस स्थान पर RGB रंग ∈ R3 पर मैप करता है। चूंकि बनावट फ़ील्ड ज्यामिति पर निर्भर करती है, हम इस मैपिंग को ज्यामिति अव्यक्त कोड 1 पर भी सशर्त करते हैं, जैसे कि = ( *,* 1 ⊕ 2), जहाँ ⊕ संयोजन को दर्शाता है। ft p w c w c ft p w w हम अपने बनावट फ़ील्ड को ट्राई-प्लेन प्रतिनिधित्व का उपयोग करके प्रस्तुत करते हैं, जो 3D ऑब्जेक्ट को पुनर्प्राप्त करने और 3D-जागरूक छवियों को उत्पन्न करने में कुशल और अभिव्यंजक है। विशेष रूप से, हम का पालन करते हैं और 256 × 256 × (32 × 3) के तीन अक्ष-संरेखित ऑर्थोगोनल फ़ीचर प्लेन में अव्यक्त कोड 1 ⊕ 2 को मैप करने के लिए एक सशर्त 2D कनवल्शनल न्यूरल नेटवर्क का उपयोग करते हैं, जहाँ N = 256 स्थानिक रिज़ॉल्यूशन को दर्शाता है और C = 32 चैनल की संख्या है। नेटवर्क आर्किटेक्चर w w फ़ीचर प्लेन दिए जाने पर, सतह बिंदु p का फ़ीचर वेक्टर f t ∈ R 32 को f t = P e ρ(πe(p)) के रूप में पुनर्प्राप्त किया जा सकता है, जहाँ πe(p) बिंदु p का फ़ीचर प्लेन e पर प्रक्षेपण है और ρ(·) फ़ीचर के द्विलैखिक इंटरपोलेशन को दर्शाता है। एक अतिरिक्त पूरी तरह से कनेक्टेड परत का उपयोग फिर एकत्रित फ़ीचर वेक्टर f t को RGB रंग c पर मैप करने के लिए किया जाता है। ध्यान दें कि, 3D-जागरूक छवि संश्लेषण पर अन्य कार्यों के विपरीत जो एक न्यूरल फ़ील्ड प्रतिनिधित्व का भी उपयोग करते हैं, हमें केवल सतह बिंदुओं के स्थानों पर बनावट फ़ील्ड को सैंपल करने की आवश्यकता होती है (एक किरण के साथ सघन नमूने के विपरीत)। यह उच्च-रिज़ॉल्यूशन छवियों को प्रस्तुत करने के लिए कम्प्यूटेशनल जटिलता को बहुत कम करता है और निर्माण द्वारा बहु-दृश्य सुसंगत छवियों को उत्पन्न करने की गारंटी देता है। 3.2 विभेदक रेंडरिंग और प्रशिक्षण प्रशिक्षण के दौरान अपने मॉडल को सुपरवाइज करने के लिए, हम Nvdiffrec से प्रेरणा लेते हैं जो एक विभेदक रेंडरर का उपयोग करके मल्टी-व्यू 3D ऑब्जेक्ट पुनर्निर्माण करता है। विशेष रूप से, हम निकाले गए 3D मेश और बनावट फ़ील्ड को एक विभेदक रेंडरर का उपयोग करके 2D छवियों में प्रस्तुत करते हैं, और अपने नेटवर्क को 2D विभेदक के साथ सुपरवाइज करते हैं, जो छवि को वास्तविक वस्तु से या उत्पन्न वस्तु से प्रस्तुत किया गया है, यह अलग करने का प्रयास करता है। हम मानते हैं कि डेटासेट में छवियों को प्राप्त करने के लिए उपयोग की जाने वाली कैमरा वितरण C ज्ञात है। उत्पन्न आकृतियों को प्रस्तुत करने के लिए, हम C से एक यादृच्छिक कैमरा को सैंपल करते हैं, और 2D सिलहूट के साथ-साथ एक छवि जिसमें प्रत्येक पिक्सेल 3D बिंदु के निर्देशांक रखता है, को प्रस्तुत करने के लिए एक अत्यधिक अनुकूलित विभेदक रेस्टरिज़र Nvdiffrast का उपयोग करते हैं। मेश सतह पर। इन निर्देशांकों का उपयोग आगे बनावट फ़ील्ड को क्वेरी करने के लिए RGB मान प्राप्त करने के लिए किया जाता है। चूंकि हम सीधे निकाली गई मेश पर काम करते हैं, हम उच्च दक्षता के साथ उच्च-रिज़ॉल्यूशन छवियों को प्रस्तुत कर सकते हैं, जिससे हमारे मॉडल को 1024 × 1024 तक के छवि रिज़ॉल्यूशन के साथ प्रशिक्षित किया जा सकता है। विभेदक रेंडरिंग c हम एडवरसैरियल ऑब्जेक्टिव का उपयोग करके अपने मॉडल को प्रशिक्षित करते हैं। हम StyleGAN से विभेदक आर्किटेक्चर को अपनाते हैं, और R1 रेगुलाइजेशन के साथ समान नॉन-सैचुरेटिंग GAN ऑब्जेक्टिव का उपयोग करते हैं। हम अनुभवजन्य रूप से पाते हैं कि दो अलग-अलग विभेदकों का उपयोग करना, एक RGB छवियों के लिए और दूसरा सिलहूट के लिए, दोनों पर काम करने वाले एकल विभेदक की तुलना में बेहतर परिणाम देता है। मान लीजिए विभेदक को दर्शाता है, जहाँ या तो एक RGB छवि या एक सिलहूट है। एडवरसैरियल ऑब्जेक्टिव को तब इस प्रकार परिभाषित किया जाता है: विभेदक और उद्देश्य Dx x जहां ( ) को ( ) = − log(1 +exp(− )) के रूप में परिभाषित किया गया है, वास्तविक छवियों का वितरण है, रेंडरिंग को दर्शाता है, और एक हाइपरपैरामीटर है। चूंकि विभेदक है, ग्रेडिएंट्स को 2D छवियों से हमारे 3D जनरेटर तक वापस प्रचारित किया जा सकता है। g u g u u px R λ R किसी भी दृश्य में दिखाई नहीं देने वाले आंतरिक फ्लोटिंग चेहरों को हटाने के लिए, हम चतुष्फलकीय ग्रिड में आसन्न शीर्षों के SDF मानों के बीच परिभाषित क्रॉस-एंट्रॉपी हानि के साथ ज्यामिति जनरेटर को और अधिक नियमित करते हैं: रेगुलाइजेशन जहां बाइनरी क्रॉस-एंट्रॉपी हानि को दर्शाता है और सिग्मॉइड फ़ंक्शन को दर्शाता है। समीकरण में योग चतुष्फलकीय ग्रिड में अद्वितीय किनारों S के सेट पर परिभाषित किया गया है, जिसके लिए sign( ) /= sign( ) है। H σ 2 e si sj समग्र हानि फ़ंक्शन को तब इस प्रकार परिभाषित किया जाता है: जहां एक हाइपरपैरामीटर है जो विनियमन के स्तर को नियंत्रित करता है। µ 4 प्रयोग हम अपने मॉडल का मूल्यांकन करने के लिए व्यापक प्रयोग करते हैं। हम पहले ShapeNet और Turbosquid डेटासेट का उपयोग करके GET3D द्वारा उत्पन्न 3D टेक्स्चर्ड मेश की गुणवत्ता की तुलना करते हैं। अगला, हम धारा 4.2 में अपने डिज़ाइन विकल्पों को कम करते हैं। अंत में, हम धारा 4.3 में डाउनस्ट्रीम अनुप्रयोगों के लिए इसे अनुकूलित करके GET3D के लचीलेपन का प्रदर्शन करते हैं। अतिरिक्त प्रयोगात्मक परिणाम और कार्यान्वयन विवरण परिशिष्ट में प्रदान किए गए हैं। 4.1 सिंथेटिक डेटासेट पर प्रयोग ShapeNet पर मूल्यांकन के लिए, हम जटिल ज्यामिति वाली तीन श्रेणियों का उपयोग करते हैं - , , और , जिनमें क्रमशः 7497, 6778 और 337 आकार शामिल हैं। हम प्रत्येक श्रेणी को प्रशिक्षण (70%), सत्यापन (10%), और परीक्षण (20%) में यादृच्छिक रूप से विभाजित करते हैं, और आगे प्रशिक्षण सेट में डुप्लिकेट वाले आकृतियों को परीक्षण सेट से हटाते हैं। प्रशिक्षण डेटा प्रस्तुत करने के लिए, हम प्रत्येक आकार के ऊपरी गोलार्ध से यादृच्छिक रूप से कैमरा पोज़ का नमूना लेते हैं। और श्रेणियों के लिए, हम 24 यादृच्छिक दृश्य का उपयोग करते हैं, जबकि के लिए हम कम संख्या में आकृतियों के कारण 100 दृश्यों का उपयोग करते हैं। चूंकि ShapeNet में मॉडल में केवल सरल बनावट होती है, इसलिए हम TurboSquid से एकत्र किए गए डेटासेट (442 आकार) पर भी GET3D का मूल्यांकन करते हैं, जहां बनावट अधिक विस्तृत होती है और हम इसे प्रशिक्षण, सत्यापन और परीक्षण में विभाजित करते हैं जैसा कि ऊपर परिभाषित किया गया है। अंत में, GET3D की बहुमुखी प्रतिभा का प्रदर्शन करने के लिए, हम Turbosquid (563 आकार) से एकत्र किए गए डेटासेट, और Renderpeople (500 आकार) से डेटासेट पर गुणात्मक परिणाम भी प्रदान करते हैं। हम प्रत्येक श्रेणी पर एक अलग मॉडल प्रशिक्षित करते हैं। डेटासेट कार कुर्सी मोटरसाइकिल कार कुर्सी मोटरसाइकिल पशु घर मानव शरीर हम GET3D की दो समूहों के कार्यों से तुलना करते हैं: 3D जनरेटिव मॉडल जो 3D पर्यवेक्षण पर निर्भर करते हैं: पॉइंटफ्लो और ऑक्नेट। ध्यान दें कि ये विधियाँ केवल बनावट के बिना ज्यामिति उत्पन्न करती हैं। 3D-जागरूक छवि निर्माण विधियाँ: GRAF, PiGAN, और EG3D । बेसलाइन 1) 2) हमारे संश्लेषण की गुणवत्ता का मूल्यांकन करने के लिए, हम उत्पन्न आकृतियों की ज्यामिति और बनावट दोनों पर विचार करते हैं। ज्यामिति के लिए, हम से मेट्रिक्स अपनाते हैं और कवरेज स्कोर और न्यूनतम मिलान दूरी की गणना के लिए चामफ़र दूरी (CD) और लाइट फ़ील्ड दूरी (LFD) दोनों का उपयोग करते हैं। ऑक्नेट, GRAF, PiGAN और EG3D के लिए, हम अंतर्निहित ज्यामिति निकालने के लिए मार्चिंग क्यूब्स का उपयोग करते हैं। पॉइंटफ़्लो के लिए, हम LFD का मूल्यांकन करते समय पॉइंट क्लाउड को मेश में बदलने के लिए पॉइसन सतह पुनर्निर्माण का उपयोग मेट्रिक्स