```html مصنفین: جون گاو، NVIDIA، یونیورسٹی آف ٹورنٹو، ویکٹر انسٹی ٹیوٹ (jung@nvidia.com) تیانچانگ شین، NVIDIA، یونیورسٹی آف ٹورنٹو، ویکٹر انسٹی ٹیوٹ (frshen@nvidia.com) زیان وانگ، NVIDIA، یونیورسٹی آف ٹورنٹو، ویکٹر انسٹی ٹیوٹ (zianw@nvidia.com) وینزینگ چن، NVIDIA، یونیورسٹی آف ٹورنٹو، ویکٹر انسٹی ٹیوٹ (wenzchen@nvidia.com) کانگ زوئے ین، NVIDIA (kangxuey@nvidia.com) دائی چنگ لی، NVIDIA (daiqingl@nvidia.com) اور لٹانی، NVIDIA (olitany@nvidia.com) زان گوجیک، NVIDIA (zgojcic@nvidia.com) سانجا فیڈلر، NVIDIA، یونیورسٹی آف ٹورنٹو، ویکٹر انسٹی ٹیوٹ (sfidler@nvidia.com) خلاصہ چونکہ کئی صنعتیں بڑے پیمانے پر 3D ورچوئل دنیاؤں کی ماڈلنگ کی طرف بڑھ رہی ہیں، اس لیے 3D مواد کی مقدار، معیار اور تنوع کے لحاظ سے قابل پیمائش مواد تخلیق کے اوزار کی ضرورت واضح ہو رہی ہے۔ اپنے کام میں، ہم کارکرد 3D جنریٹو ماڈلز کو تربیت دینے کا ارادہ رکھتے ہیں جو ٹیکسٹچرڈ میشز تیار کرتے ہیں جنہیں براہ راست 3D رینڈرنگ انجن استعمال کر سکتے ہیں، اس طرح وہ فوری طور پر ڈاؤن سٹریم ایپلی کیشنز میں استعمال کے قابل ہوتے ہیں۔ 3D جنریٹو ماڈلنگ پر پچھلے کاموں میں یا تو جیومیٹرک تفصیلات کی کمی ہے، میش ٹاپولوجی جو وہ تیار کر سکتے ہیں اس میں محدود ہیں، عام طور پر ٹیکسچر کو سپورٹ نہیں کرتے ہیں، یا ترکیب کے عمل میں نیورل رینڈررز استعمال کرتے ہیں، جو عام 3D سافٹ ویئر میں ان کے استعمال کو غیر معمولی بناتا ہے۔ اس کام میں، ہم GET3D متعارف کراتے ہیں، جو ایک enerative ماڈل ہے جو xplicit extured میشز کو پیچیدہ ٹاپولوجی، امیر جیومیٹرک تفصیلات، اور اعلیٰ وفاداری والے ٹیکسچر کے ساتھ براہ راست تیار کرتا ہے۔ ہم 2D امیج کلیکشنز سے اپنے ماڈل کو تربیت دینے کے لیے تفریق پذیر سطح ماڈلنگ، تفریق پذیر رینڈرنگ، اور 2D جنریٹو ایڈورسریل نیٹ ورکس میں حالیہ کامیابیوں کو استعمال کرتے ہیں۔ GET3D اعلیٰ معیار کے 3D ٹیکسٹچرڈ میشز تیار کرنے کے قابل ہے، جو کاروں، کرسیوں، جانوروں، موٹرسائیکلوں اور انسانی کرداروں سے لے کر عمارتوں تک پھیلے ہوئے ہیں، جو پچھلے طریقوں پر نمایاں بہتری حاصل کرتے ہیں۔ ہمارے پروجیکٹ کا صفحہ: G E T 3D https://nv-tlabs.github.io/GET3D 1 تعارف متنوع، اعلیٰ معیار کا 3D مواد گیمنگ، روبوٹکس، فن تعمیر، اور سماجی پلیٹ فارمز سمیت کئی صنعتوں کے لیے تیزی سے اہم ہوتا جا رہا ہے۔ تاہم، 3D اثاثوں کی دستی تخلیق بہت وقت طلب ہے اور اس کے لیے مخصوص تکنیکی علم کے ساتھ ساتھ فنکارانہ ماڈلنگ کی مہارتوں کی ضرورت ہوتی ہے۔ اہم چیلنجوں میں سے ایک پیمانہ ہے - حالانکہ کوئی 3D مارکیٹ پلیسز جیسے کہ Turbosquid [ ] یا Sketchfab [ ] پر 3D ماڈلز تلاش کر سکتا ہے، بہت سے 3D ماڈلز بنانا، مثلاً، کسی گیم یا فلم کو مختلف نظر آنے والے کرداروں کے ہجوم سے بھرنا اب بھی فنکار کے لیے کافی وقت لیتا ہے۔ 4 3 مواد تخلیق کے عمل کو آسان بنانے اور اسے مختلف (نوجوان) صارفین کے لیے قابل رسائی بنانے کے لیے، 3D جنریٹو نیٹ ورکس جو اعلیٰ معیار اور متنوع 3D اثاثے تیار کر سکتے ہیں حال ہی میں تحقیق کا ایک فعال شعبہ بن چکے ہیں [ , , , , , , , , , , ] ۔ تاہم، موجودہ حقیقی دنیا کی ایپلی کیشنز کے لیے عملی طور پر مفید ہونے کے لیے، 3D جنریٹو ماڈلز کو مثالی طور پر درج ذیل ضروریات کو پورا کرنا چاہیے: ان میں تفصیلی جیومیٹری اور غیر معمولی ٹاپولوجی کے ساتھ شکلیں بنانے کی صلاحیت ہونی چاہیے، آؤٹ پٹ ایک ٹیکسٹچرڈ میش ہونا چاہیے، جو کہ بلینڈر [ ] اور مایا [ ] جیسے معیاری گرافکس سافٹ ویئر پیکجز کے ذریعہ استعمال کیا جانے والا بنیادی نمائندگی ہے، اور ہمیں 2D امیجز کو نگرانی کے لیے استعمال کرنے کے قابل ہونا چاہیے، کیونکہ وہ واضح 3D شکلوں کے مقابلے میں زیادہ وسیع پیمانے پر دستیاب ہیں۔ 5 14 43 46 53 68 75 60 59 69 23 (a) (b) 15 1 (c) 3D جنریٹو ماڈلنگ پر پچھلے کام نے مندرجہ بالا ضروریات کے ذیلی سیٹوں پر توجہ مرکوز کی ہے، لیکن اب تک کوئی بھی طریقہ ان سب کو پورا نہیں کرتا (ٹیبل۔ )۔ مثال کے طور پر، جو طریقے 3D پوائنٹ کلاؤڈز [ , 68, 75] بناتے ہیں وہ عام طور پر ٹیکسچر نہیں بناتے ہیں اور انہیں پوسٹ پروسیسنگ میں میش میں تبدیل کرنے کی ضرورت ہوتی ہے۔ 1 5 وکسلز بنانے والے طریقے اکثر جیومیٹرک تفصیلات کی کمی رکھتے ہیں اور ٹیکسچر نہیں بناتے [ , , , ] ۔ نیورل فیلڈز [ , ] پر مبنی جنریٹو ماڈلز جیومیٹری نکالنے پر توجہ مرکوز کرتے ہیں لیکن ٹیکسچر کو نظر انداز کرتے ہیں۔ ان میں سے اکثر کو واضح 3D نگرانی کی بھی ضرورت ہوتی ہے۔ آخر میں، جو طریقے براہ راست ٹیکسٹچرڈ 3D میشز [ , ] تیار کرتے ہیں انہیں عام طور پر پہلے سے متعین شکل کے ٹیمپلیٹس کی ضرورت ہوتی ہے اور وہ پیچیدہ ٹاپولوجی یا بدلتی ہوئی جینرا والی شکلیں نہیں بنا سکتے۔ 66 20 27 40 43 14 54 53 حال ہی میں، نیورل والیم رینڈرنگ [ ] اور 2D جنریٹو ایڈورسریل نیٹ ورکس (GANs) [ , , , , ] میں تیز رفتار پیش رفت نے 3D-aware امیج سنتھیسس [ , , , , , ] میں اضافہ کیا ہے۔ تاہم، اس کام کا مقصد نیورل رینڈرنگ کا استعمال کرتے ہوئے ملٹی ویو مستقل امیجز تیار کرنا ہے اور یہ ضمانت نہیں دیتا کہ بامعنی 3D شکلیں پیدا کی جا سکتی ہیں۔ اگرچہ مارچنگ کیوب الگورتھم [ ] کا استعمال کرتے ہوئے انڈر لائنگ نیورل فیلڈ نمائندگی سے ممکنہ طور پر میش حاصل کیا جا سکتا ہے، متعلقہ ٹیکسچر نکالنا غیر معمولی ہے۔ 45 34 35 33 29 52 7 57 8 49 51 25 39 اس کام میں، ہم ایک نیا طریقہ متعارف کراتے ہیں جو ایک عملی طور پر مفید 3D جنریٹو ماڈل کی تمام ضروریات کو پورا کرنے کا مقصد رکھتا ہے۔ خاص طور پر، ہم GET3D تجویز کرتے ہیں، جو enerative ماڈل برائے 3D شکلیں ہے جو براہ راست xplicit extured میشز کو اعلیٰ جیومیٹرک اور ٹیکسچر تفصیلات اور غیر معمولی میش ٹاپولوجی کے ساتھ تیار کرتا ہے۔ ہمارے نقطہ نظر کے دل میں ایک جنریٹو عمل ہے جو تفریق پذیر سطح نکالنے کے طریقہ کار [ ] اور تفریق پذیر رینڈرنگ تکنیک [ , ] کا استعمال کرتا ہے۔ سابقہ ہمیں غیر معمولی ٹاپولوجی کے ساتھ براہ راست ٹیکسٹچرڈ 3D میشز کو آپٹیمائز اور آؤٹ پٹ کرنے کے قابل بناتا ہے، جبکہ مؤخر الذکر ہمیں 2D امیجز کے ساتھ اپنے ماڈل کو تربیت دینے کی اجازت دیتا ہے، اس طرح 2D امیج سنتھیسس کے لیے تیار کیے گئے طاقتور اور پختہ ڈسکریمینیٹرز سے فائدہ اٹھاتا ہے۔ چونکہ ہمارا ماڈل براہ راست میشز تیار کرتا ہے اور انتہائی موثر (تفریق پذیر) گرافکس رینڈرر کا استعمال کرتا ہے، ہم آسانی سے اپنے ماڈل کو امیج کے ساتھ تربیت دینے کے لیے بڑھا سکتے ہیں۔ G E T 3D واضح 60 47 37 ریزولوشن 1024 × 1024 تک، ہمیں اعلیٰ معیار کی جیومیٹرک اور ٹیکسچر تفصیلات سیکھنے کی اجازت دیتا ہے۔ ہم ShapeNet [ ], Turbosquid [ ] اور Renderpeople [ ] سے کاروں، کرسیوں، جانوروں، موٹرسائیکلوں اور انسانی کرداروں سے لے کر عمارتوں تک پیچیدہ جیومیٹری کے ساتھ متعدد کیٹیگریز پر غیر مشروط 3D شیپ جنریشن کے لیے بہترین کارکردگی کا مظاہرہ کرتے ہیں۔ واضح میش کے ساتھ آؤٹ پٹ کے طور پر، GET3D بھی بہت لچکدار ہے اور اسے دیگر کاموں کے لیے آسانی سے ڈھال لیا جا سکتا ہے، بشمول: تفریق پذیر رینڈرنگ [ ] کا استعمال کرتے ہوئے بغیر نگرانی کے مواد اور ویو-ڈیپینڈنٹ لائٹنگ کے اثرات کی پیدا شدہ تولید سیکھنا، CLIP [ ] ایمبیڈنگ کا استعمال کرتے ہوئے ٹیکسٹ-گرائڈ 3D شیپ جنریشن۔ 9 4 2 (a) 12 (b) 56 2 متعلقہ کام ہم جیومیٹری اور ظاہری شکل کے لیے 3D جنریٹو ماڈلز، نیز 3D-aware جنریٹو امیج سنتھیسس میں حالیہ پیش رفت کا جائزہ لیتے ہیں۔ حالیہ برسوں میں، 2D جنریٹو ماڈلز نے اعلیٰ ریزولوشن امیج سنتھیسس [ , , , , , , ] میں فوٹو ریلسٹک کوالٹی حاصل کی ہے۔ اس پیش رفت نے 3D مواد کی تخلیق میں تحقیق کو بھی متاثر کیا ہے۔ ابتدائی طریقے 2D CNN جنریٹرز کو 3D وکسل گرڈز [ , , , , ] میں براہ راست بڑھانے کا مقصد رکھتے تھے، لیکن 3D کنولوشنز کے اعلیٰ میموری فٹ پرنٹ اور کمپیوٹیشنل پیچیدگی اعلیٰ ریزولوشن پر جنریشن کے عمل میں رکاوٹ ڈالتی ہیں۔ متبادل کے طور پر، دیگر کاموں نے پوائنٹ کلاؤڈ [ , , , ], امپلسٹ [ , ], یا آکٹری [ ] نمائندگیوں کو دریافت کیا ہے۔ تاہم، یہ کام بنیادی طور پر جیومیٹری بنانے پر توجہ مرکوز کرتے ہیں اور ظاہری شکل کو نظر انداز کرتے ہیں۔ ان کی آؤٹ پٹ نمائندگیوں کو معیاری گرافکس انجنوں کے ساتھ ہم آہنگ بنانے کے لیے پوسٹ پروسیسنگ کی ضرورت ہوتی ہے۔ 3D جنریٹو ماڈلز 34 35 33 52 29 19 16 66 20 27 40 62 5 68 75 46 43 14 30 ہمارے کام سے زیادہ مشابہت رکھنے والے، ٹیکسٹچرڈ3D گین [ , ] اور DIBR [ ] ٹیکسٹچرڈ 3D میشز بناتے ہیں، لیکن وہ جنریشن کو ایک ٹیمپلیٹ میش کی اخترتی کے طور پر تیار کرتے ہیں، جو انہیں پیچیدہ ٹاپولوجی یا بدلتی ہوئی جینرا والی شکلیں بنانے سے روکتا ہے، جو ہمارا طریقہ کار کر سکتا ہے۔ PolyGen [ ] اور SurfGen [ ] غیر معمولی ٹاپولوجی کے ساتھ میشز تیار کر سکتے ہیں، لیکن وہ ٹیکسچر نہیں بناتے ہیں۔ 54 53 11 48 41 نیورل والیم رینڈرنگ [ ] اور امپلسٹ نمائشیوں [ , ] میں کامیابی سے متاثر ہو کر، حالیہ کام نے 3D-aware امیج سنتھیسس [ , , , , , , , , , ] کے مسئلے سے نمٹنا شروع کر دیا ہے۔ تاہم، نیورل والیم رینڈرنگ نیٹ ورکس عام طور پر استفسار کرنے میں سست ہوتے ہیں، جس کی وجہ سے طویل تربیت کا وقت [ , ] ہوتا ہے، اور محدود ریزولوشن کی امیجز تیار ہوتی ہیں۔ GIRAFFE [ ] اور StyleNerf [ ] نیورل رینڈرنگ کو کم ریزولوشن پر انجام دے کر اور پھر نتائج کو 2D CNN کے ساتھ اپسکیل کر کے تربیت اور رینڈرنگ کی کارکردگی کو بہتر بناتے ہیں۔ تاہم، کارکردگی میں اضافہ کثیر الجہتی مطابقت میں کمی کی قیمت پر آتا ہے۔ دوہرا ڈسکریمینیٹر استعمال کر کے، EG3D [ ] اس مسئلے کو جزوی طور پر کم کر سکتا ہے۔ بہرحال، نیورل رینڈرنگ پر مبنی طریقوں سے ایک ٹیکسٹچرڈ سطح نکالنا ایک غیر معمولی کوشش ہے۔ اس کے برعکس، GET3D براہ راست ٹیکسٹچرڈ 3D میشز تیار کرتا ہے جنہیں معیاری گرافکس انجنوں میں آسانی سے استعمال کیا جا سکتا ہے۔ 3D-Aware جنریٹو امیج سنتھیسس 45 43 14 7 57 49 26 25 76 8 51 58 67 7 57 49 25 8 3 طریقہ ہم اب ٹیکسٹچرڈ 3D شکلیں تیار کرنے کے لیے اپنے GET3D فریم ورک کو پیش کرتے ہیں۔ ہمارا جنریشن عمل دو حصوں میں تقسیم ہے: ایک جیومیٹری برانچ، جو غیر معمولی ٹاپولوجی کا ایک سطح میش تفریق پذیر طور پر آؤٹ پٹ کرتا ہے، اور ایک ٹیکسچر برانچ جو ایک ٹیکسچر فیلڈ تیار کرتا ہے جسے رنگ پیدا کرنے کے لیے سطح کے پوائنٹس پر استفسار کیا جا سکتا ہے۔ مؤخر الذکر کو دیگر سطح خصوصیات کے لیے بھی بڑھایا جا سکتا ہے جیسے کہ مثال کے طور پر مواد (سیکشن )۔ تربیت کے دوران، 2D اعلیٰ ریزولوشن امیجز میں نتائج سے اخذ شدہ ٹیکسٹچرڈ میش کو رینڈر کرنے کے لیے ایک موثر تفریق پذیر رائسٹرائزر استعمال کیا جاتا ہے۔ پورا عمل تفریق پذیر ہے، جو 2D ڈسکریمینیٹر سے جنریٹر کی دونوں شاخوں تک گرڈینٹس پھیلا کر امیجز (ایک دلچسپی کی چیز کے طور پر اشارہ کرنے والے ماسک کے ساتھ) سے ایڈورسریل تربیت کی اجازت دیتا ہے۔ ہمارا ماڈل تصویر میں دکھایا گیا ہے۔ ذیل میں، ہم پہلے اپنے 3D جنریٹر کو سیکشن میں متعارف کراتے ہیں، اس کے بعد سیکشن میں تفریق پذیر رینڈرنگ اور نقصان کے فنکشنز۔ 4.3.1 2 3.1 3.2 3.1 3D ٹیکسٹچرڈ میشز کا جنریٹو ماڈل ہم 3D جنریٹر = ( ) سیکھنے کا ارادہ رکھتے ہیں تاکہ گوسیائی تقسیم M, E G z ∈ N (0*,* ) سے میش کے ساتھ ٹیکسچر تک نقشہ بنایا جا سکے۔ z I M E چونکہ ایک ہی جیومیٹری مختلف ٹیکسچر رکھ سکتی ہے، اور ایک ہی ٹیکسچر مختلف جیومیٹری پر لاگو کیا جا سکتا ہے، ہم دو بے ترتیب ان پٹ ویکٹرز 1 ∈ R512 اور 2 ∈ R512 نمونے لیتے ہیں۔ StyleGAN [ , , ] کے بعد، ہم دو غیر لکیری میپنگ نیٹ ورکس geo اور tex کا استعمال کرتے ہیں تاکہ 1 اور 2 کو انٹرمیڈیٹ لیٹنٹ ویکٹرز 1 = geo( 1) اور 2 = tex( 2) میں میپ کیا جا سکے جو کہ 3D شکلوں اور ٹیکسچر کی پیدائش کو کنٹرول کرنے والے پیدا کرنے کے لیے مزید استعمال کیے جاتے ہیں۔ ہم سیکشن میں جیومیٹری کے لیے جنریٹر، اور سیکشن میں ٹیکسچر جنریٹر کو باضابطہ طور پر متعارف کراتے ہیں۔ z z 34 35 33 f f z z w f z w f z سٹائل 3.1.1 3.1.2 3.1.1 جیومیٹری جنریٹر ہم اپنی جیومیٹری جنریٹر کو DMTet [ ] کو شامل کرنے کے لیے ڈیزائن کرتے ہیں، جو حال ہی میں تجویز کردہ ایک تفریق پذیر سطح کی نمائندگی ہے۔ DMTet جیومیٹری کو ایک ڈیفارمیبل ٹیٹراہیڈرل گرڈ [ , ] پر متعین کردہ ایک سائنڈ ڈسٹنس فیلڈ (SDF) کے طور پر نمائندہ کرتا ہے، جس سے سطح کو مارچنگ ٹیٹرا ہیڈرا [ ] کے ذریعے تفریق پذیر طور پر بازیافت کیا جا سکتا ہے۔ اس کے ورٹیسز کو منتقل کر کے گرڈ کو ڈیفارم کرنے سے اس کے ریزولوشن کا بہتر استعمال ہوتا ہے۔ سطح نکالنے کے لیے DMTet کو اپنانے سے، ہم غیر معمولی ٹاپولوجی اور جینرا والی واضح میشز تیار کر سکتے ہیں۔ ہم ذیل میں DMTet کا ایک مختصر خلاصہ فراہم کرتے ہیں اور مزید تفصیلات کے لیے قاری کو اصل مقالے کی طرف رجوع کرتے ہیں۔ 60 22 24 17 فرض کریں ( ) مکمل 3D جگہ کو ظاہر کرتا ہے جس میں آبجیکٹ واقع ہے، جہاں ٹیٹراہیڈرل گرڈ کے ورٹیسز ہیں ۔ ہر ٹیٹرا ہیڈرون ∈ کو چار ورٹیسز { } کے ساتھ متعین کیا جاتا ہے، جہاں ∈ {1*, . . . , K*}, جہاں کل ٹیٹرا ہیڈرونز کی تعداد ہے، اور ∈ ∈ R3۔ اس کے 3D کوآرڈینیٹس کے علاوہ، ہر ورٹیکس میں SDF قدر ∈ R اور اس کے ابتدائی کینونیکل کوآرڈینیٹ سے ورٹیکس کا ڈیفارمیشن ∆ ∈ R3 ہوتا ہے۔ یہ نمائندگی ڈیفارمیبل مارچنگ ٹیٹرا ہیڈرا [ ] کے ذریعے واضح میش کو بازیافت کرنے کی اجازت دیتی ہے، جہاں مسلسل جگہ میں SDF اقدار کو ان کی قدر کی بیری سینٹرک انٹرپولیشن کے ذریعے ڈیفارم شدہ ورٹیسز ′ = + ∆ پر شمار کیا جاتا ہے۔ VT , T VT T Tk T v ak , v bk , v ck , v dk k K v ik VT , v ik i v i si v i 60 si v v i v i ہم 1 ∈ R512 کو کنڈیشنل 3D کنولیشنل اور مکمل طور پر کنیکٹڈ لیئرز کے سلسلے کے ذریعے ہر ورٹیکس پر SDF اقدار اور ڈیفارمیشنز میں میپ کرتے ہیں۔ خاص طور پر، ہم پہلے 1 کی کنڈیشن پر فیچر والیم تیار کرنے کے لیے 3D کنولیشنل لیئرز استعمال کرتے ہیں۔ پھر ہم بیری سینٹرک انٹرپولیشن کا استعمال کرتے ہوئے ہر ورٹیکس ∈ پر فیچر سے استفسار کرتے ہیں اور اسے MLPs میں فیڈ کرتے ہیں جو SDF قدر اور ڈیفارمیشن ∆ کو آؤٹ پٹ کرتے ہیں۔ ان صورتوں میں جہاں اعلیٰ ریزولوشن پر ماڈلنگ کی ضرورت ہوتی ہے (مثلاً وہیلز میں پتلی ساختوں والی موٹر بائیک)، ہم [ ] کے بعد والیم سب ڈویژن کا مزید استعمال کرتے ہیں۔ نیٹ ورک آرکیٹیکچر w v i w v i VT si v i 60 تمام ورٹیسز کے لیے اور ∆ حاصل کرنے کے بعد، ہم واضح میش نکالنے کے لیے تفریق پذیر مارچنگ ٹیٹرا ہیڈرا الگورتھم استعمال کرتے ہیں۔ مارچنگ ٹیٹرا ہیڈرا ٹیٹرا ہیڈرون کے اندر سطح کی ٹاپولوجی کا تعین کرتا ہے جو کے نشانات پر مبنی ہوتا ہے۔ خاص طور پر، جب sign( ) /= sign( ) ہوتا ہے، جہاں ٹیٹرا ہیڈرون کے کنارے میں ورٹیسز کے انڈیکس ہیں، تو ایک میش چہرہ نکالا جاتا ہے، اور اس چہرے کے ورٹیسز کو لکیری انٹرپولیشن کے طور پر mi,j = v 0 i sj−v 0 j si sj−si کے طور پر مقرر کیا جاتا ہے۔ نوٹ کریں کہ مندرجہ بالا مساوات صرف اس وقت سمجھی جاتی ہے جب si 6= sj ، اس طرح یہ تفریق پذیر ہے، اور mi,j کا گرڈینٹ SDF اقدار si اور ڈیفارمیشنز ∆vi میں واپس پھیلایا جا سکتا ہے۔ اس نمائندگی کے ساتھ، si کی مختلف نشانات کی پیش گوئی کر کے غیر معمولی ٹاپولوجی والی شکلیں آسانی سے تیار کی جا سکتی ہیں۔ تفریق پذیر میش نکالنا si v i si si sj i, j m i,j 3.1.2 ٹیکسچر جنریٹر آؤٹ پٹ میش کے ساتھ ہم آہنگ ایک ٹیکسچر میپ براہ راست تیار کرنا غیر معمولی نہیں ہے، کیونکہ پیدا شدہ شکل میں غیر معمولی جینرا اور ٹاپولوجی ہو سکتی ہے۔ ہم اس طرح ٹیکسچر کو ٹیکسچر فیلڈ [ ] کے طور پر پیرامیٹرائز کرتے ہیں۔ 50 خاص طور پر، ہم اپنے ٹیکسچر فیلڈ کو ایک فنکشن کے ساتھ ماڈل کرتے ہیں جو سطح کے پوائنٹ ∈ R3 کے 3D مقام کو 2 کی کنڈیشن پر، اس مقام پر RGB رنگ ∈ R3 تک میپ کرتا ہے۔ چونکہ ٹیکسچر فیلڈ جیومیٹری پر منحصر ہے، ہم اس میپنگ کو جیومیٹری لیٹنٹ کوڈ 1 کی کنڈیشن پر بھی رکھتے ہیں، تاکہ = ( *,* 1 ⊕ 2) ہو، جہاں ⊕ کنکیٹینیشن کو ظاہر کرتا ہے۔ ft p w c w c ft p w w ہم اپنے ٹیکسچر فیلڈ کو ایک ٹرائی-پلین نمائندگی کے ساتھ پیش کرتے ہیں، جو 3D آبجیکٹس [ ] کی تعمیر نو اور 3D-aware امیجز [ ] تیار کرنے میں موثر اور اظہار کرنے والا ہے۔ خاص طور پر، ہم [ , ] کے بعد اور لیٹنٹ کوڈ 1 ⊕ 2 کو × × ( × 3) کے تین ایکسس-ایڈجسٹڈ آرتھوگونل فیچر پلینز میں میپ کرنے کے لیے ایک کنڈیشنل 2D کنولیشنل نیورل نیٹ ورک کا استعمال کرتے ہیں، جہاں = 256 اسپیشل ریزولوشن کو ظاہر کرتا ہے اور = 32 چینلز کی تعداد ہے۔ نیٹ ورک آرکیٹیکچر 55 8 8 35 w w N N C N C فیچر پلینز کو دیکھتے ہوئے، سطح کے پوائنٹ p کی فیچر ویکٹر f t ∈ R 32 کو f t = P e ρ(πe(p)) کے طور پر بحال کیا جا سکتا ہے، جہاں πe(p) پوائنٹ p کا فیچر پلین e پر پروجیکشن ہے اور ρ(·) فیچرز کی بیلیینر انٹرپولیشن کو ظاہر کرتا ہے۔ ایک اضافی مکمل طور پر کنیکٹڈ لیئر پھر جمع شدہ فیچر ویکٹر f t کو RGB رنگ c میں میپ کرنے کے لیے استعمال کیا جاتا ہے۔ نوٹ کریں کہ، 3D-aware امیج سنتھیسس [8, 25, 7, 57] پر دیگر کاموں کے برعکس جو نیورل فیلڈ نمائندگی کا بھی استعمال کرتے ہیں، ہمیں ٹیکسچر فیلڈ سے صرف سطح کے پوائنٹس کی لوکیشنز پر استفسار کرنے کی ضرورت ہے (ایک شعاع کے ساتھ گہری نمونوں کے برعکس)۔ یہ اعلیٰ ریزولوشن امیجز کو رینڈر کرنے کے لیے کمپیوٹیشنل پیچیدگی کو بہت کم کرتا ہے اور تعمیر کے لحاظ سے کثیر الجہتی مستقل امیجز تیار کرنے کی ضمانت دیتا ہے۔ 3.2 تفریق پذیر رینڈرنگ اور تربیت تربیت کے دوران اپنے ماڈل کی نگرانی کرنے کے لیے، ہم Nvdiffrec [ ] سے متاثر ہوتے ہیں جو ایک تفریق پذیر رینڈرر کا استعمال کرتے ہوئے کثیر الجہتی 3D آبجیکٹ کی تعمیر نو کرتا ہے۔ خاص طور پر، ہم تفریق پذیر رینڈرر [ ] کا استعمال کرتے ہوئے نکالی گئی 3D میش اور ٹیکسچر فیلڈ کو 2D امیجز میں رینڈر کرتے ہیں، اور اپنے نیٹ ورک کی نگرانی 2D ڈسکریمینیٹر کے ساتھ کرتے ہیں، جو امیج کو حقیقی آبجیکٹ سے یا تیار کردہ آبجیکٹ سے رینڈر شدہ کے طور پر ممتاز کرنے کی کوشش کرتا ہے۔ 47 37 ہم فرض کرتے ہیں کہ کیمرہ کی تقسیم C جو ڈیٹا سیٹ میں امیجز حاصل کرنے کے لیے استعمال کی گئی تھی، معلوم ہے۔ تیار شدہ اشکال کو رینڈر کرنے کے لیے، ہم C سے بے ترتیب طور پر ایک کیمرہ c کا نمونہ لیتے ہیں، اور 3D میش کو 2D سلہوٹ کے ساتھ ساتھ ایک امیج میں رینڈر کرنے کے لیے انتہائی آپٹیمائزڈ تفریق پذیر رائسٹرائزر Nvdiffrast [ ] کا استعمال کرتے ہیں جہاں ہر پکسل میش کی سطح پر متعلقہ 3D تفریق پذیر رینڈرنگ 37 پوائنٹ کے کوآرڈینیٹس رکھتا ہے۔ ان کوآرڈینیٹس کا استعمال مزید ٹیکسچر فیلڈ سے استفسار کرنے کے لیے RGB اقدار حاصل کرنے کے لیے کیا جاتا ہے۔ چونکہ ہم براہ راست نکالی گئی میش پر کام کرتے ہیں، ہم اعلیٰ کارکردگی کے ساتھ اعلیٰ ریزولوشن امیجز رینڈر کر سکتے ہیں، جس سے ہمارے ماڈل کو 1024×1024 تک امیج ریزولوشن کے ساتھ تربیت کیا جا سکتا ہے۔ ہم اپنے ماڈل کو ایک ایڈورسریل مقصد کا استعمال کرتے ہوئے تربیت دیتے ہیں۔ ہم StyleGAN [ ] سے ڈسکریمینیٹر آرکیٹیکچر کو اپناتے ہیں، اور R1 ریگولرائزیشن [ ] کے ساتھ وہی نان-سیچوریٹنگ GAN مقصد استعمال کرتے ہیں۔ ہم تجرباتی طور پر پاتے ہیں کہ دو الگ الگ ڈسکریمینیٹرز کا استعمال، ایک RGB امیجز کے لیے اور دوسرا سلہوٹس کے لیے، دونوں پر کام کرنے والے واحد ڈسکریمینیٹر سے بہتر نتائج دیتا ہے۔ فرض کریں ڈسکریمینیٹر ہے، جہاں یا تو ایک RGB امیج یا ایک سلہوٹ ہے۔ ایڈورسریل مقصد کو اس طرح بیان کیا جائے گا: ڈسکریمینیٹر اور مقصد 34 42 Dx x