```html مصنفین: Jun Gao, NVIDIA, University of Toronto, Vector Institute (jung@nvidia.com) Tianchang Shen, NVIDIA, University of Toronto, Vector Institute (frshen@nvidia.com) Zian Wang, NVIDIA, University of Toronto, Vector Institute (zianw@nvidia.com) Wenzheng Chen, NVIDIA, University of Toronto, Vector Institute (wenzchen@nvidia.com) Kangxue Yin, NVIDIA (kangxuey@nvidia.com) Daiqing Li, NVIDIA (daiqingl@nvidia.com) Or Litany, NVIDIA (olitany@nvidia.com) Zan Gojcic, NVIDIA (zgojcic@nvidia.com) Sanja Fidler, NVIDIA, University of Toronto, Vector Institute (sfidler@nvidia.com) خلاصہ چونکہ کئی صنعتیں وسیع 3D ورچوئل دنیاؤں کے ماڈلنگ کی طرف بڑھ رہی ہیں، 3D مواد کی مقدار، معیار اور تنوع کے لحاظ سے پیمانے کے لیے مواد تخلیق کے اوزار کی ضرورت واضح ہو رہی ہے۔ ہمارے کام میں، ہمارا مقصد پرفارمنس 3D تخلیقی ماڈلز کو تربیت دینا ہے جو بنائی ہوئی میشوں کو سنتھیسائز کرتے ہیں جنہیں براہ راست 3D رینڈرنگ انجن استعمال کر سکتے ہیں، اس طرح فوری طور پر استعمال کے لیے تیار ہو جاتے ہیں۔ 3D تخلیقی ماڈلنگ پر پچھلے کاموں میں یا تو جیومیٹرک تفصیلات کی کمی ہوتی ہے، میش ٹاپولوجی جو وہ پیدا کر سکتے ہیں اس میں محدود ہوتے ہیں، عام طور پر وہ بناوٹ کو سپورٹ نہیں کرتے ہیں، یا تخلیق کے عمل میں نیورل رینڈرر استعمال کرتے ہیں، جو عام 3D سافٹ ویئر میں ان کے استعمال کو غیر معمولی بناتا ہے۔ اس کام میں، ہم GET3D متعارف کراتے ہیں، ایک enerative ماڈل جو براہ راست xplicit extured میشیں بناتا ہے جن میں پیچیدہ ٹاپولوجی، بھرپور جیومیٹرک تفصیلات اور اعلیٰ وفاداری بناوٹ شامل ہیں۔ ہم 2D امیج کے مجموعوں سے اپنے ماڈل کو تربیت دینے کے لیے قابل فرق سطح ماڈلنگ، قابل فرق رینڈرنگ اور 2D جنریٹو ایڈورسرئیل نیٹ ورکس میں حالیہ کامیابی کو استعمال کرتے ہیں۔ GET3D اعلیٰ معیار کی 3D بنائی ہوئی میشیں بنانے کے قابل ہے، جو کاروں، کرسیوں، جانوروں، موٹرسائیکلوں اور انسانی کرداروں سے لے کر عمارتوں تک پھیلی ہوئی ہیں، اور پچھلے طریقوں پر اہم بہتری حاصل کرتی ہیں۔ ہمارے پروجیکٹ کا صفحہ: G E T 3D https://nv-tlabs.github.io/GET3D 1 تعارف متنوع، اعلیٰ معیار کا 3D مواد گیمنگ، روبوٹکس، فن تعمیر اور سماجی پلیٹ فارمز سمیت کئی صنعتوں کے لیے تیزی سے اہم ہوتا جا رہا ہے۔ تاہم، 3D اثاثوں کی دستی تخلیق بہت وقت طلب ہوتی ہے اور اس کے لیے مخصوص تکنیکی علم کے ساتھ ساتھ فنکارانہ ماڈلنگ کی مہارت کی ضرورت ہوتی ہے۔ ایک بڑا چیلنج پیمانہ ہے – جب کہ 3D مارکیٹ پلیسز جیسے Turbosquid [ ] یا Sketchfab [ ] پر 3D ماڈلز مل سکتے ہیں، بہت سے 3D ماڈلز تخلیق کرنا، مثال کے طور پر، کسی گیم یا فلم کو مختلف نظر آنے والے کرداروں کے ہجوم سے بھرنے کے لیے اب بھی فنکار کے کافی وقت کی ضرورت ہے۔ 4 3 مواد تخلیق کے عمل کو آسان بنانے اور اسے مختلف (نوجوان) صارفین کے لیے قابل رسائی بنانے کے لیے، 3D تخلیقی نیٹ ورکس جو اعلیٰ معیار اور متنوع 3D اثاثے تیار کر سکتے ہیں حال ہی میں تحقیق کا ایک فعال شعبہ بن چکے ہیں [ , , , , , , , , , , ]۔ تاہم، موجودہ حقیقی دنیا کی ایپلی کیشنز کے لیے عملی طور پر مفید ہونے کے لیے، 3D تخلیقی ماڈلز کو مثالی طور پر درج ذیل تقاضوں کو پورا کرنا چاہیے: ان میں تفصیلی جیومیٹری اور کسی بھی ٹاپولوجی کے ساتھ شکلیں پیدا کرنے کی صلاحیت ہونی چاہیے، آؤٹ پٹ ایک بنائی ہوئی میش ہونی چاہیے، جو معیاری گرافکس سافٹ ویئر پیکجز جیسے Blender [ ] اور Maya [ ] کے ذریعہ استعمال کی جانے والی بنیادی نمائندگی ہے، اور ہمیں نگرانی کے لیے 2D امیجز سے فائدہ اٹھانے کے قابل ہونا چاہیے، کیونکہ وہ واضح 3D شکلوں سے زیادہ وسیع پیمانے پر دستیاب ہیں۔ 5 14 43 46 53 68 75 60 59 69 23 (a) (b) 15 1 (c) 3D تخلیقی ماڈلنگ پر پچھلے کام نے مذکورہ بالا تقاضوں کے ذیلی سیٹوں پر توجہ مرکوز کی ہے، لیکن آج تک کوئی بھی طریقہ ان سب کو پورا نہیں کرتا (ٹیبل۔ )۔ مثال کے طور پر، جو طریقے 3D پوائنٹ کلاؤڈز [ , 68, 75] پیدا کرتے ہیں عام طور پر بناوٹ پیدا نہیں کرتے اور پوسٹ پروسیسنگ میں میش میں تبدیل کرنے کی ضرورت ہوتی ہے۔ 1 5 وکسل پیدا کرنے والے طریقے اکثر جیومیٹرک تفصیلات میں ناکام رہتے ہیں اور بناوٹ پیدا نہیں کرتے [ , , , ]۔ نیورل فیلڈز [ , ] پر مبنی تخلیقی ماڈلز جیومیٹری نکالنے پر توجہ مرکوز کرتے ہیں لیکن بناوٹ کو نظر انداز کرتے ہیں۔ ان میں سے زیادہ تر کو واضح 3D نگرانی کی بھی ضرورت ہوتی ہے۔ آخر کار، جو طریقے براہ راست بنائی ہوئی 3D میشیں [ , ] پیدا کرتے ہیں عام طور پر پہلے سے طے شدہ شکل کے ٹیمپلیٹس کی ضرورت ہوتی ہے اور وہ پیچیدہ ٹاپولوجی یا مختلف جینس والی شکلیں پیدا نہیں کر سکتے۔ 66 20 27 40 43 14 54 53 حال ہی میں، نیورل والیوم رینڈرنگ [ ] اور 2D جنریٹو ایڈورسرئیل نیٹ ورکس (GANs) [ , , , , ] میں تیزی سے پیش رفت نے 3D-شعور امیج سنتھیسس [ , , , , , ] کے عروج کا باعث بنا ہے۔ تاہم، اس کام کا مقصد نیورل رینڈرنگ کو سنتھیسس کے عمل میں استعمال کرتے ہوئے ملٹی ویو مستقل امیجز کو سنتھیسائز کرنا ہے اور یہ ضمانت نہیں دیتا کہ بامعنی 3D شکلیں پیدا کی جا سکتی ہیں۔ جب کہ میش کو مارچنگ کیوب الگورتھم [ ] کا استعمال کرتے ہوئے بنیادی نیورل فیلڈ نمائندگی سے حاصل کیا جا سکتا ہے، متعلقہ بناوٹ کو نکالنا غیر معمولی ہے۔ 45 34 35 33 29 52 7 57 8 49 51 25 39 اس کام میں، ہم ایک نیا طریقہ متعارف کراتے ہیں جس کا مقصد ایک عملی طور پر مفید 3D تخلیقی ماڈل کی تمام ضروریات کو پورا کرنا ہے۔ خاص طور پر، ہم GET3D تجویز کرتے ہیں، 3D شکلوں کے لیے ایک enerative ماڈل جو براہ راست xplicit extured میشیں پیدا کرتا ہے جن میں اعلیٰ جیومیٹرک اور بناوٹ کی تفصیلات اور کسی بھی میش ٹاپولوجی ہوتی ہے۔ ہمارے طریقے کے دل میں ایک تخلیقی عمل ہے جو قابل فرق سطح نکالنے کے طریقے [ ] اور قابل فرق رینڈرنگ تکنیک [ , ] کا استعمال کرتا ہے۔ سابقہ ہمیں کسی بھی ٹاپولوجی کے ساتھ واضح میشوں کو براہ راست آپٹیمائز اور آؤٹ پٹ کرنے کی اجازت دیتا ہے، جبکہ مؤخر الذکر ہمیں 2D امیجز کے ساتھ اپنے ماڈل کو تربیت دینے کی اجازت دیتا ہے، اس طرح 2D امیج سنتھیسس کے لیے تیار کردہ طاقتور اور بالغ امتیاز کنندگان سے فائدہ اٹھاتے ہوئے. چونکہ ہمارا ماڈل براہ راست میشیں بناتا ہے اور ایک انتہائی موثر (قابل فرق) گرافکس رینڈرر استعمال کرتا ہے، ہم اپنے ماڈل کو 1024 × 1024 تک امیج کے ریزولوشن کے ساتھ تربیت دینے کے لیے آسانی سے اسکیل اپ کر سکتے ہیں، جس سے ہمیں اعلیٰ معیار کی جیومیٹرک اور بناوٹ کی تفصیلات سیکھنے کی اجازت ملتی ہے۔ G E T 3D واضح 60 47 37 ہم ShapeNet [ ]، Turbosquid [ ] اور Renderpeople [ ] سے پیچیدہ جیومیٹری والی متعدد کیٹیگریز پر غیر مشروط 3D شکل کی تخلیق کے لیے جدید ترین کارکردگی کا مظاہرہ کرتے ہیں، جیسے کاریں، کرسیاں، جانور، موٹر سائیکلیں اور انسانی کردار، عمارتیں۔ واضح میش کے ساتھ آؤٹ پٹ کی نمائندگی کے طور پر، GET3D بھی بہت لچکدار ہے اور اسے آسانی سے دیگر کاموں کے لیے موافقت کیا جا سکتا ہے، بشمول: خودکار مواد اور نقطہ نظر پر منحصر روشنی کے اثرات کو سیکھنا جو قابل فرق رینڈرنگ [ ] کا استعمال کرتے ہیں، بغیر نگرانی کے، CLIP [ ] ایمبیڈنگ کا استعمال کرتے ہوئے متن کی ہدایت کردہ 3D شکل تخلیق۔ 9 4 2 (a) 12 (b) 56 2 متعلقہ کام ہم جیومیٹری اور ظاہری شکل کے لیے حالیہ پیشرفتوں کے ساتھ ساتھ 3D-شعور تخلیقی امیج سنتھیسس میں 3D تخلیقی ماڈلز کا جائزہ لیتے ہیں۔ حالیہ برسوں میں، 2D تخلیقی ماڈلز نے اعلیٰ ریزولوشن امیج سنتھیسس [ , , , , , , ] میں فوٹو ریلسٹک معیار حاصل کیا ہے۔ اس پیش رفت نے 3D مواد تخلیق میں تحقیق کو بھی متاثر کیا ہے۔ ابتدائی طریقوں کا مقصد 2D CNN جنریٹرز کو 3D وکسل گرڈز [ , , , , ] تک براہ راست بڑھانا تھا، لیکن 3D کنولوشنز کے اعلیٰ میموری کے استعمال اور کمپیوٹیشنل پیچیدگی نے اعلیٰ ریزولوشن میں تخلیق کے عمل کو روکا ہے۔ متبادل کے طور پر، دیگر کاموں نے پوائنٹ کلاؤڈ [ , , , ]، امپلیسٹ [ , ]، یا آکٹری [ ] نمائندگیوں کو دریافت کیا ہے۔ تاہم، یہ کام بنیادی طور پر جیومیٹری پیدا کرنے پر توجہ مرکوز کرتے ہیں اور ظاہری شکل کو نظر انداز کرتے ہیں۔ ان کی آؤٹ پٹ نمائندگیوں کو معیاری گرافکس انجنوں کے ساتھ ہم آہنگ بنانے کے لیے پوسٹ پروسیسنگ کی بھی ضرورت ہوتی ہے۔ 3D تخلیقی ماڈلز 34 35 33 52 29 19 16 66 20 27 40 62 5 68 75 46 43 14 30 ہمارے کام سے زیادہ مشابہت رکھنے والے، Textured3DGAN [ , ] اور DIBR [ ] بنائی ہوئی 3D میشیں پیدا کرتے ہیں، لیکن وہ تخلیق کو ایک ٹیمپلیٹ میش کی خرابی کے طور پر تشکیل دیتے ہیں، جو انہیں پیچیدہ ٹاپولوجی یا مختلف جینس والی شکلیں پیدا کرنے سے روکتا ہے، جو ہمارا طریقہ کر سکتا ہے۔ PolyGen [ ] اور SurfGen [ ] کسی بھی ٹاپولوجی کے ساتھ میشیں پیدا کر سکتے ہیں، لیکن وہ بناوٹ کو سنتھیسائز نہیں کرتے ہیں۔ 54 53 11 48 41 نیورل والیوم رینڈرنگ [ ] اور امپلیسٹ نمائندگیوں [ , ] میں کامیابی سے متاثر ہو کر، حالیہ کام نے 3D-شعور امیج سنتھیسس [ , , , , , , , , , ] کے مسئلے کو حل کرنا شروع کر دیا ہے۔ تاہم، نیورل والیوم رینڈرنگ نیٹ ورکس عام طور پر پوچھ گچھ کے لیے سست ہوتے ہیں، جس سے طویل تربیتی اوقات [ , ] ہوتے ہیں، اور محدود ریزولوشن والی امیجز پیدا کرتے ہیں۔ GIRAFFE [ ] اور StyleNerf [ ] نیورل رینڈرنگ کو کم ریزولوشن پر انجام دے کر اور پھر نتائج کو 2D CNN کے ساتھ اپسکیل کر کے تربیتی اور رینڈرنگ کی کارکردگی کو بہتر بناتے ہیں۔ تاہم، کارکردگی میں اضافہ کم ملٹی ویو مستقل مزاجی کی قیمت پر آتا ہے۔ ایک دوہرے امتیاز کنندہ کا استعمال کرتے ہوئے، EG3D [ ] اس مسئلے کو جزوی طور پر کم کر سکتا ہے۔ اس کے باوجود، نیورل رینڈرنگ پر مبنی طریقوں سے بنائی ہوئی سطح کو نکالنا ایک غیر معمولی کوشش ہے۔ اس کے برعکس، GET3D براہ راست بنائی ہوئی 3D میشیں پیدا کرتا ہے جنہیں معیاری گرافکس انجنوں میں آسانی سے استعمال کیا جا سکتا ہے۔ 3D-Aware تخلیقی امیج سنتھیسس 45 43 14 7 57 49 26 25 76 8 51 58 67 7 57 49 25 8 3 طریقہ اب ہم بنائی ہوئی 3D شکلوں کی سنتھیسس کے لیے اپنا GET3D فریم ورک پیش کرتے ہیں۔ ہمارا تخلیقی عمل دو حصوں میں تقسیم ہے: ایک جیومیٹری برانچ، جو کسی بھی ٹاپولوجی کی قابل فرق میش پیدا کرتی ہے، اور ایک بناوٹ برانچ جو ایک بناوٹ فیلڈ پیدا کرتی ہے جسے رنگ پیدا کرنے کے لیے سطح کے پوائنٹس پر پوچھا جا سکتا ہے۔ مؤخر الذکر کو سطح کی دیگر خصوصیات جیسے مثال کے طور پر مواد (سیکشن ) کے لیے بڑھایا جا سکتا ہے۔ تربیت کے دوران، 2D اعلیٰ ریزولوشن امیجز میں نکالی گئی بنائی ہوئی میش کو رینڈر کرنے کے لیے ایک موثر قابل فرق رائج کنندہ کا استعمال کیا جاتا ہے۔ پورا عمل قابل فرق ہے، جس سے امیجز سے ایڈورسرئیل تربیت کی اجازت ملتی ہے (ماسکس کے ساتھ جو دلچسپی کی چیز کی نشاندہی کرتے ہیں) 2D امتیاز کنندہ سے 2D جنریٹر دونوں شاخوں تک گریڈینٹ پھیلا کر۔ ہمارا ماڈل تصویر میں دکھایا گیا ہے۔ مندرجہ ذیل میں، ہم پہلے اپنے 3D جنریٹر کا سیکشن میں تعارف کراتے ہیں، اس سے پہلے کہ قابل فرق رینڈرنگ اور نقصان کے فنکشنز کو سیکشن میں پیش کیا جائے۔ 4.3.1 2 3.1 3.2 3.1 3D بنائی ہوئی میشوں کا تخلیقی ماڈل ہمارا مقصد ایک 3D جنریٹر = ( ) سیکھنا ہے تاکہ ایک گوسیائی تقسیم سے نمونہ M, E G z ∈ N (0*,* ) کو بناوٹ کے ساتھ میش میں نقش کیا جا سکے۔ z I E M چونکہ ایک ہی جیومیٹری کی مختلف بناوٹ ہو سکتی ہیں، اور ایک ہی بناوٹ کو مختلف جیومیٹری پر لاگو کیا جا سکتا ہے، ہم دو بے ترتیب ان پٹ ویکٹرز 1 ∈ R512 اور 2 ∈ R512 نمونہ کرتے ہیں۔ StyleGAN [ , , ] کے بعد، ہم غیر لکیری میپنگ نیٹ ورکس geo اور tex کا استعمال کرتے ہیں تاکہ 1 اور 2 کو انٹرمیڈیٹ لیٹنٹ ویکٹرز 1 = geo( 1) اور 2 = tex( 2) میں نقش کیا جا سکے جو مزید پیدا کرنے کے لیے استعمال ہوتے ہیں جو بالترتیب 3D شکلوں اور بناوٹ کی تخلیق کو کنٹرول کرتے ہیں۔ ہم سیکشن میں جیومیٹری کے لیے جنریٹر اور سیکشن میں بناوٹ جنریٹر کو باضابطہ طور پر متعارف کراتے ہیں۔ z z 34 35 33 f f z z w f z w f z اسٹائل 3.1.1 3.1.2 3.1.1 جیومیٹری جنریٹر ہم DMTet [ ] کو شامل کرنے کے لیے اپنے جیومیٹری جنریٹر کو ڈیزائن کرتے ہیں، جو حال ہی میں تجویز کردہ قابل فرق سطح کی نمائندگی ہے۔ DMTet جیومیٹری کو ایک سائنڈ فاصلہ فیلڈ (SDF) کے طور پر پیش کرتا ہے جو ایک لچکدار ٹیٹراہیڈرل گرڈ [ , ] پر متعین ہے، جس سے مارچنگ ٹیٹراہیڈرا [ ] کے ذریعے سطح کو قابل فرق طور پر بازیافت کیا جا سکتا ہے۔ گرڈ کو اس کے ورٹیکسز کو منتقل کرکے اس کی شکل بدلنا اس کے ریزولوشن کے بہتر استعمال میں مدد کرتا ہے۔ سطح نکالنے کے لیے DMTet کو اپنانے سے، ہم کسی بھی ٹاپولوجی اور جینس کے ساتھ واضح میش پیدا کر سکتے ہیں۔ ہم اگلے DMTet کا ایک مختصر خلاصہ فراہم کرتے ہیں اور مزید تفصیلات کے لیے قاری کو اصل مقالے کی طرف بھیجتے ہیں۔ 60 22 24 17 مان لیں ( ) پوری 3D جگہ کو ظاہر کرتا ہے جس میں آبجیکٹ واقع ہے، جہاں ٹیٹراہیڈرل گرڈ میں ورٹیکسز ہیں. ہر ٹیٹراہیڈرون ∈ کو چار ورٹیکسز { } کا استعمال کرتے ہوئے متعین کیا جاتا ہے، جہاں ∈ {1*, . . . , K*}, ٹیٹراہیڈرونز کی کل تعداد ہے، اور ∈ ∈ R3۔ اس کے 3D کوآرڈینیٹس کے علاوہ، ہر ورٹیکس میں SDF قدر ∈ R اور ورٹیکس کا سموچن ∆ ∈ R3 اس کے ابتدائی کینونیکل کوآرڈینیٹ سے ہوتا ہے۔ یہ نمائندگی قابل فرق مارچنگ ٹیٹراہیڈرا [ ] کے ذریعے واضح میش کو بازیافت کرنے کی اجازت دیتی ہے، جہاں مستقل جگہ میں SDF قدروں کو اس کی قدر کے باری سنٹرک انٹرپولیشن کے ذریعے کمپیوٹر کیا جاتا ہے جو سموچن ورٹیکسز ′ = + ∆ پر ہوتا ہے۔ VT , T VT T Tk T v ak , v bk , v ck , v dk k K v ik VT , v ik i v i si v i 60 si v v i v i ہم 1 ∈ R512 کو کنڈیشنل 3D کنولوشنل اور مکمل طور پر کنیکٹڈ لیئرز کے سلسلے کے ذریعے ہر ورٹیکس پر SDF قدروں اور سموچن میں نقش کرتے ہیں۔ خاص طور پر، ہم پہلے 1 کے لحاظ سے کنڈیشن شدہ فیچر والیوم تیار کرنے کے لیے 3D کنولوشنل لیئرز کا استعمال کرتے ہیں۔ پھر ہم ٹریلینر انٹرپولیشن کا استعمال کرتے ہوئے ہر ورٹیکس ∈ پر فیچر کو پوچھتے ہیں اور اسے MLPs میں فیڈ کرتے ہیں جو SDF قدر اور سموچن ∆ پیدا کرتے ہیں۔ ان صورتوں میں جہاں اعلیٰ ریزولوشن پر ماڈلنگ کی ضرورت ہوتی ہے (مثال کے طور پر پہیوں میں پتلی ساخت والی موٹر بائیک)، ہم [ ] کے بعد والیوم سب ڈویژن کا بھی استعمال کرتے ہیں۔ نیٹ ورک آرکیٹیکچر w v i w v i VT si v i 60 تمام ورٹیکسز کے لیے اور ∆ حاصل کرنے کے بعد، ہم واضح میش کو نکالنے کے لیے قابل فرق مارچنگ ٹیٹراہیڈرا الگورتھم کا استعمال کرتے ہیں۔ مارچنگ ٹیٹراہیڈرا ہر ٹیٹراہیڈرون کے اندر سطح کی ٹاپولوجی کا تعین کرتا ہے جو کے نشانات پر مبنی ہوتا ہے۔ خاص طور پر، جب sign( ) /= sign( ) ہوتا ہے، تو ایک میش چہرہ نکالا جاتا ہے، جہاں ٹیٹراہیڈرون کے کنارے میں ورٹیکسز کے اشارے ہیں، اور اس چہرے کے ورٹیکسز کو لکیری انٹرپولیشن کے طور پر mi,j = v 0 i sj−v 0 j si sj−si کے طور پر متعین کیا جاتا ہے۔ نوٹ کریں کہ اوپر دی گئی مساوات صرف اس صورت میں جب $s_i \neq s_j$ کا جائزہ لیا جاتا ہے، اس لیے یہ قابل فرق ہے، اور mi,j سے گریڈینٹ کو SDF قدروں si اور سموچن ∆vi میں واپس پھیلا سکتا ہے۔ اس نمائندگی کے ساتھ، si کی مختلف علامات کی پیش گوئی کرکے کسی بھی ٹاپولوجی کی شکل آسانی سے پیدا کی جاسکتی ہے۔ قابل فرق میش نکالنا si v i si si sj i, j m i,j 3.1.2 بناوٹ جنریٹر آؤٹ پٹ میش سے مطابقت رکھنے والی بناوٹ کی نقش کو براہ راست تخلیق کرنا غیر معمولی ہے، کیونکہ پیدا شدہ شکل میں کوئی بھی جینس اور ٹاپولوجی ہو سکتی ہے۔ اس لیے ہم بناوٹ کو بناوٹ فیلڈ [ ] کے طور پر پیرامیٹرائز کرتے ہیں۔ 50 خاص طور پر، ہم بناوٹ فیلڈ کو ایک فنکشن کے ساتھ ماڈل کرتے ہیں جو ایک سطح کے پوائنٹ ∈ R3 کے 3D مقام کو، 2 کے لحاظ سے کنڈیشن شدہ، اس مقام پر RGB رنگ ∈ R3 میں نقش کرتا ہے۔ چونکہ بناوٹ فیلڈ جیومیٹری پر منحصر ہے، ہم اضافی طور پر اس میپنگ کو جیومیٹری لیٹنٹ کوڈ 1 پر کنڈیشن کرتے ہیں، اس طرح کہ = ( *,* 1 ⊕ 2)، جہاں ⊕ جوڑ کو ظاہر کرتا ہے۔ ft p w c w c ft p w w ہم اپنے بناوٹ فیلڈ کو ایک ٹرائی-پلین نمائندگی کا استعمال کرتے ہوئے پیش کرتے ہیں، جو 3D آبجیکٹس [ ] کو دوبارہ بنانے اور 3D-شعور امیجز [ ] کو پیدا کرنے میں موثر اور اظہار ہے۔ خاص طور پر، ہم [ , ] کی پیروی کرتے ہیں اور × × ( × 3) کے تین محور سے منسلک اور عام فیچر پلینز کو نقش کرنے کے لیے ایک کنڈیشنل 2D کنولوشنل نیورل نیٹ ورک کا استعمال کرتے ہیں، جہاں = 256 فضائی ریزولوشن کو ظاہر کرتا ہے اور = 32 چینلز کی تعداد ہے۔ نیٹ ورک آرکیٹیکچر 55 8 8 35 N N C N C فیچر پلینز دیے گئے، ایک سطح کے پوائنٹ p کا فیچر ویکٹر f t ∈ R 32 کو f t = P e ρ(πe(p)) کے طور پر بازیافت کیا جاتا ہے، جہاں πe(p) پوائنٹ p کا فیچر پلین e پر پروجیکشن ہے اور ρ(·) فیچرز کی بائلینر انٹرپولیشن کو ظاہر کرتا ہے۔ پھر ایک اضافی مکمل طور پر کنیکٹڈ لیئر کو جمع شدہ فیچر ویکٹر f t کو RGB رنگ c میں نقش کرنے کے لیے استعمال کیا جاتا ہے۔ نوٹ کریں کہ، 3D-شعور امیج سنتھیسس [8, 25, 7, 57] پر دیگر کاموں کے برعکس جو نیورل فیلڈ نمائندگی کا بھی استعمال کرتے ہیں، ہمیں صرف سطح کے پوائنٹس کے مقامات پر بناوٹ فیلڈ کا نمونہ لینے کی ضرورت ہوتی ہے (شعاع کے ساتھ گنجان نمونوں کے برعکس)۔ یہ اعلیٰ ریزولوشن امیجز کو رینڈر کرنے کے لیے کمپیوٹیشنل پیچیدگی کو نمایاں طور پر کم کرتا ہے اور بذات خود کثیر النقطہ مستقل امیجز پیدا کرنے کی ضمانت دیتا ہے۔ 3.2 قابل فرق رینڈرنگ اور تربیت ہمارے ماڈل کو تربیت کے دوران نگرانی کرنے کے لیے، ہم Nvdiffrec [ ] سے الہام لیتے ہیں جو قابل فرق رینڈرر کا استعمال کرتے ہوئے کثیر النقطہ 3D آبجیکٹ کی بحالی کرتا ہے۔ خاص طور پر، ہم نکالی گئی 3D میش اور بناوٹ فیلڈ کو ایک قابل فرق رینڈرر [ ] کا استعمال کرتے ہوئے 2D امیجز میں رینڈر کرتے ہیں، اور اپنے نیٹ ورک کو ایک 2D امتیاز کنندہ کے ساتھ نگرانی کرتے ہیں، جو امیج کو ایک حقیقی آبجیکٹ یا تخلیق شدہ آبجیکٹ سے رینڈر کردہ میں فرق کرنے کی کوشش کرتا ہے۔ 47 37 ہم فرض کرتے ہیں کہ کیمرہ تقسیم C جو ڈیٹا سیٹ میں امیجز حاصل کرنے کے لیے استعمال کی گئی تھی، معلوم ہے۔ تخلیق شدہ شکلوں کو رینڈر کرنے کے لیے، ہم C سے ایک کیمرہ بے ترتیب طور پر نمونہ کرتے ہیں، اور 2D سلہوٹس کے ساتھ ساتھ ایک امیج میں 3D میش کو رینڈر کرنے کے لیے ایک انتہائی بہتر قابل فرق رائج کنندہ Nvdiffrast [ ] کا استعمال کرتے ہیں جہاں ہر پکسل میش کی سطح پر متعلقہ 3D قابل فرق رینڈرنگ c 37 نقطہ کے کوآرڈینیٹس پر مشتمل ہوتا ہے۔ ان کوآرڈینیٹس کا مزید استعمال بناوٹ فیلڈ سے پوچھ گچھ کے لیے RGB قدریں حاصل کرنے کے لیے کیا جاتا ہے۔ چونکہ ہم نکالی گئی میش پر براہ راست کام کرتے ہیں، ہم اعلیٰ کارکردگی کے ساتھ اعلیٰ ریزولوشن امیجز کو رینڈر کر سکتے ہیں، جس سے ہمارے ماڈل کو 1024×1024 تک امیج کے ریزولوشن کے ساتھ تربیت دی جا سکتی ہے۔ ہم ایڈورسرئیل مقصد کا استعمال کرتے ہوئے اپنے ماڈل کو تربیت دیتے ہیں۔ ہم StyleGAN [ ] سے امتیاز کنندہ فن تعمیر کو اپناتے ہیں، اور R1 ریگولرائزیشن [ ] کے ساتھ اسی غیر سنچریٹنگ GAN مقصد کا استعمال کرتے ہیں۔ ہم تجرباتی طور پر پاتے ہیں کہ دو الگ الگ امتیاز کنندگان کا استعمال، ایک RGB امیجز کے لیے اور دوسرا سلہوٹس کے لیے، دونوں پر کام کرنے والے ایک ہی امتیاز کنندہ سے بہتر نتائج دیتا ہے۔ فرض کریں امتیاز کنندہ کو ظاہر کرتا ہے، جہاں یا تو RGB امیج یا سلہوٹ ہے۔ پھر ایڈورسرئیل مقصد کو اس طرح بیان کیا جائے گا: امتیاز کنندہ & مقصد 34 42 Dx x جہاں ( ) کو ( ) = − log(1 +exp(− )) کے طور پر بیان کیا جاتا ہے، حقیقی امیجز کی تقسیم ہے، رینڈرنگ کو ظاہر کرتا ہے، اور ایک ہائپر پیرامیٹر ہے۔ چونکہ قابل فرق ہے، گریڈینٹ کو 2D امیجز سے ہمارے 3D جنریٹرز تک واپس پھیلایا جا سکتا ہے۔ g u g u u px R λ R کسی بھی نقطہ نظر میں نظر نہ آنے والے اندرونی بہاؤ کے چہروں کو ہٹانے کے لیے، ہم مزید پڑوسی ورٹیکسز [ ] کے SDF قدروں کے درمیان طے کردہ کراس-اینٹروپی نقصان کے ساتھ جیومیٹری جنریٹر کو ریگولرائز کرتے ہیں: ریگولرائزیشن 47