नमस्ते! आर्टलैब्स के शोध और इंजीनियरिंग ब्लॉग 'इनसाइड द लैब' में आपका स्वागत है। इस सप्ताह का विषय है कि कैसे 3डी सामग्री को एआई पद्धतियों द्वारा प्रस्तुत और नियंत्रित किया जाता है, कैसे एआई 3डी सामग्री निर्माण के लिए इन अभ्यावेदन का उपयोग करता है, साथ ही साथ इन तकनीकों के पेशेवरों और विपक्षों को भी।
मशीन लर्निंग मॉडल को विभिन्न 3D सामग्री अभ्यावेदन जैसे वोक्सल्स, पॉइंट क्लाउड्स, साइन्ड डिस्टेंस फील्ड्स, न्यूरल रेडिएशन फील्ड्स (NeRF), पॉलीगोनल मेश का उपयोग करके प्रशिक्षित किया जाता है ... हम इस पोस्ट में वोक्सेल, पॉइंट क्लाउड, NeRF और पॉलीगॉन प्रतिनिधित्व के बारे में बात करेंगे। आइए, एक-एक करके इनके बारे में जानें।
आप पिक्चर एलिमेंट्स (उर्फ पिक्सल्स) के बारे में जानते हैं लेकिन क्या आपने कभी वॉल्यूम एलिमेंट्स (उर्फ वोक्सल्स) के बारे में सुना है? अब तुमने किया! पिक्सेल को x और y निर्देशांक द्वारा दर्शाए गए 2D ग्रिड पर 0 और 255 के बीच अतिरिक्त अपारदर्शिता मान के साथ लाल, हरे और नीले रंग की तीव्रता वाले मानों के रूप में दर्शाया जाता है। वोक्सल्स, इसी तरह एक 3डी ग्रिड पर लाल, हरे, नीले और अपारदर्शिता मूल्यों से मिलकर बनता है। एआई मॉडल का उद्देश्य प्रत्येक स्वर के लिए इन 4 मूल्यों को सीखना है ताकि कुशलतापूर्वक दृश्य का प्रतिनिधित्व किया जा सके।
मशीन लर्निंग मॉडल जैसे कि 3D-R2N2 (2016), Pix2Vox / ++ (2019/2020), और EVoIT (2021) वोक्सल प्रतिनिधित्व की सादगी का लाभ उठाते हैं और उस ऑब्जेक्ट को वोक्सल के रूप में पुनर्निर्माण करने के लिए ऑब्जेक्ट की बहु-दृश्य छवियों का उपयोग करते हैं। जाल।
यदि आप घन आकृतियों का प्रतिनिधित्व करना चाहते हैं तो वोक्सल्स हेला अच्छे हैं। जैसे पिक्सेल कला है, स्वरों पर आधारित 3डी कला भी है। इसके अलावा, कौन Minecraft जैसी दुनिया उत्पन्न नहीं करना चाहता है?! सैंडबॉक्स जैसे मेटावर्स भी स्वर अभ्यावेदन का उपयोग करते हैं, और एआई-आधारित स्वर निर्माण उन्हें बेहतर बनाने में भी मदद कर सकता है।
ठीक है, आपने यह अनुमान लगाया: बिंदु बादल 3D अंतरिक्ष में रंगीन बिंदुओं से बने बादल हैं। स्वरों के विपरीत, वे एक ग्रिड के भीतर समाहित नहीं होते हैं, इसलिए आप बिंदु बादलों के साथ वस्तुओं की एक विस्तृत श्रृंखला का बेहतर प्रतिनिधित्व कर सकते हैं। हालाँकि, चूंकि कोई ग्रिड नहीं है, इसलिए आपको 3D अंतरिक्ष में प्रत्येक बिंदु की स्थिति पर विचार करने की भी आवश्यकता है। इसका मतलब है कि आपको प्रत्येक डेटा बिंदु के लिए स्वरों की तुलना में अधिक डेटा रखने की आवश्यकता है।
OpenAI के पॉइंट-ई (2022) जैसे मॉडल ने पॉइंट क्लाउड-आधारित 3D सामग्री निर्माण में सफलता प्रदर्शित की है। हालाँकि, जैसा कि दुनिया में सब कुछ अच्छा है, बिंदु बादलों के अपने फायदे और नुकसान हैं।
बिंदु बादल वास्तव में कई उद्योगों में व्यापक रूप से उपयोग किए जाते हैं। उन्हें ड्रोन या स्मार्ट कारों पर स्थापित LiDARs द्वारा अधिग्रहित किया जा सकता है। बेहतर चालक रहित वाहनों के लिए चलाए जा रहे एल्गोरिदम को बेहतर बनाने के लिए सिमुलेशन के भीतर उपयोग किए जाने वाले एआई के साथ पॉइंट क्लाउड ऑब्जेक्ट्स और वातावरण बना सकते हैं। इसके अलावा, उनका उपयोग मेडिकल इमेजिंग में भी किया जाता है। एआई-आधारित चिकित्सा बिंदु बादलों के निर्माण से रोगियों में रोग और शारीरिक आघात का पता लगाने में भी सुधार हो सकता है।
छवियों के एक सेट और संबंधित कैमरा पोज़ जानकारी को देखते हुए, एक NeRF एक 3D दृश्य का पुनर्निर्माण कर सकता है, यह पता लगाकर कि छवि पर प्रत्येक पिक्सेल 3D स्थान से मेल खाता है। एक बार दृश्य के पुनर्निर्माण के बाद, एक एनईआरएफ अनदेखे कोणों से भी दृश्य का पूर्ण 3डी दृश्य प्रदान कर सकता है। इसके अलावा, प्रतिनिधित्व ही एआई है! मूल रूप से, यह एक तंत्रिका नेटवर्क है जिसमें 3D दृश्य प्रस्तुत करने के लिए आवश्यक संपूर्ण जानकारी होती है। दृश्य को तंत्रिका नेटवर्क के भीतर दर्शाया गया है और जब एक नए कैमरा पोज़ के साथ पूछताछ की जाती है, तो तंत्रिका नेटवर्क उस दृश्य के नए रेंडर के साथ प्रतिक्रिया कर सकता है। जबकि मूल एनईआरएफ नेटवर्क को घंटों (कुछ अवसरों पर दिनों) के लिए प्रशिक्षित किया जाना था, कई उपन्यास एनईआरएफ वेरिएंट केवल सेकंड के भीतर एक उच्च गुणवत्ता वाले 3डी दृश्य का पुनर्निर्माण कर सकते हैं।
न्यूरल रेडिएंस फील्ड्स किसी भी कोण से दृश्यों को प्रस्तुत कर सकते हैं, और वे संभावित रूप से सिनेमाई कलाओं द्वारा व्यापक रूप से उपयोग किए जा सकते हैं। यह व्यापक रूप से ज्ञात है कि छायांकन में कैमरा कोण और गति बहुत महत्वपूर्ण हैं, और एनईआरएफ ऐसे कोणों से रेंडर बना सकते हैं जिनसे कैमरा व्यक्ति को परेशानी हो सकती है।
बहुभुज जाल में बिंदु (अर्थात्, कोने), रेखाएँ होती हैं जो इन बिंदुओं को एक दूसरे से जोड़ती हैं (अर्थात्, किनारे), और बहुभुज जो इन किनारों के बीच में निर्मित होते हैं। कार्यक्षेत्रों को उनके निर्देशांकों द्वारा दर्शाया जाता है; किनारों को दर्शाया जाता है कि वे किस कोने से जुड़ रहे हैं, और बहुभुजों का प्रतिनिधित्व उन किनारों से होता है जिन पर उनका निर्माण किया जा रहा है। इसके अलावा, मेष पर रंग का प्रतिनिधित्व करने के कई तरीके हैं, जिसमें प्रत्येक शीर्ष को लाल, हरे और नीले तीव्रता के मूल्यों के साथ रंगने से लेकर यह तय करना है कि वह रंग प्रसार, स्पेक्युलैरिटी, अपारदर्शिता, अपवर्तक जैसे भौतिक गुण प्रदान करके किसी दिए गए प्रकाश के साथ कैसे इंटरैक्ट करेगा। सूचकांक, सतह सामान्य, आदि।
छवि सेट का उपयोग करके NVDiffrec-MC (2022) जैसे तरीके एक जाल, प्रकाश और सामग्री ट्रिपलेट का अनुमान लगा सकते हैं। हाल ही में, पाठ या छवि इनपुट से जाल और बनावट के पुनर्निर्माण के लिए कई और तरीके विकसित किए गए हैं: GET3D , DreamFusion , Score Jacobian Chaining , Magic3D …
पॉलीगॉनल मेश पहले से ही गेमिंग, सिनेमैटिक आर्ट्स, वेब3 और XR में उपयोग किए जा रहे हैं। ई-कॉमर्स जैसे कई उद्योग 3डी में अपने उत्पादों की कल्पना करके बहुभुज जाल से अत्यधिक लाभान्वित होते हैं। एआई के साथ सामग्री का निर्माण करके, ये सभी उद्योग बड़े पैमाने पर सामग्री उत्पन्न कर सकते हैं और अपने दर्शकों को प्रभावित कर सकते हैं।
आर्टलैब्स में, हम अपनी पाइपलाइन के विभिन्न वर्गों में इन सभी अभ्यावेदन और एआई का उपयोग करते हैं। आर्टलैब्स बड़े पैमाने पर सामग्री बनाने के लिए एआई का उपयोग कैसे करता है, इसे यहां देखें।
पढ़ने के लिए धन्यवाद! मिलते हैं "इनसाइड द लैब" 👋🏻 की अगली पोस्ट में
लेखक: Doğancan Kebude , आर्टलैब्स में R&D लीड