```html مصنفین: Jun Gao, NVIDIA, University of Toronto, Vector Institute (jung@nvidia.com) Tianchang Shen, NVIDIA, University of Toronto, Vector Institute (frshen@nvidia.com) Zian Wang, NVIDIA, University of Toronto, Vector Institute (zianw@nvidia.com) Wenzheng Chen, NVIDIA, University of Toronto, Vector Institute (wenzchen@nvidia.com) Kangxue Yin, NVIDIA (kangxuey@nvidia.com) Daiqing Li, NVIDIA (daiqingl@nvidia.com) Or Litany, NVIDIA (olitany@nvidia.com) Zan Gojcic, NVIDIA (zgojcic@nvidia.com) Sanja Fidler, NVIDIA, University of Toronto, Vector Institute (sfidler@nvidia.com) خلاصہ چونکہ متعدد صنعتیں بڑے پیمانے پر 3D ورچوئل دنیا کی ماڈلنگ کی طرف بڑھ رہی ہیں، اس لیے 3D مواد کی مقدار، معیار اور تنوع کے لحاظ سے اسکیل کرنے والے مواد تخلیق کے اوزار کی ضرورت واضح ہو رہی ہے۔ اپنے کام میں، ہمارا مقصد کارکرد 3D جنریٹو ماڈلز کو تربیت دینا ہے جو بنائی گئی بناوٹ والی میشیں تیار کرتے ہیں جنہیں براہ راست 3D رینڈرنگ انجن استعمال کر سکتے ہیں، اس طرح فوری طور پر ڈاؤن اسٹریم ایپلی کیشنز میں استعمال کے قابل بنایا جا سکتا ہے۔ 3D جنریٹو ماڈلنگ پر سابقہ کاموں میں یا تو جیومیٹرک تفصیلات کی کمی ہوتی ہے، میش ٹوپولوجی جس میں وہ تیار کر سکتے ہیں وہ محدود ہے، عام طور پر بناوٹ کی حمایت نہیں کرتے، یا ترکیب کے عمل میں نیورل رینڈرر استعمال کرتے ہیں، جس کی وجہ سے عام 3D سافٹ ویئر میں ان کا استعمال غیر معمولی ہوتا ہے۔ اس کام میں، ہم GET3D متعارف کرواتے ہیں، ایک enerative ماڈل جو براہ راست xplicit extured میشیں تیار کرتا ہے جس میں پیچیدہ ٹوپولوجی، بھرپور جیومیٹرک تفصیلات، اور اعلیٰ وفاداری کی بناوٹ ہوتی ہے۔ ہم 2D امیج کے مجموعوں سے ہمارے ماڈل کو تربیت دینے کے لیے مختلف سطح کی ماڈلنگ، قابلِ تفریق رینڈرنگ، اور 2D جنریٹو ایڈورسال نیٹ ورکس میں حالیہ کامیابیوں کو استعمال کرتے ہیں۔ GET3D اعلیٰ معیار کی 3D بناوٹ والی میشیں تیار کرنے کے قابل ہے، جو کاروں، کرسیوں، جانوروں، موٹرسائیکلوں اور انسانی کرداروں سے لے کر عمارتوں تک، پچھلی طریقوں پر نمایاں بہتری حاصل کرتی ہے۔ ہمارا پروجیکٹ صفحہ: G E T 3D https://nv-tlabs.github.io/GET3D 1 تعارف متنوع، اعلیٰ معیار کا 3D مواد گیمنگ، روبوٹکس، فن تعمیر، اور سماجی پلیٹ فارمز سمیت متعدد صنعتوں کے لیے تیزی سے اہم ہوتا جا رہا ہے۔ تاہم، 3D اثاثوں کی دستی تخلیق بہت وقت طلب ہے اور اس کے لیے مخصوص تکنیکی علم کے ساتھ ساتھ فنکارانہ ماڈلنگ کی مہارتوں کی ضرورت ہوتی ہے۔ ایک اہم چیلنج اسکیل ہے – جبکہ 3D بازاروں جیسے Turbosquid [ ] یا Sketchfab [ ] پر 3D ماڈلز مل سکتے ہیں، بہت سے 3D ماڈلز بنانے کے لیے، مثلاً، کسی گیم یا فلم کو مختلف نظر آنے والے کرداروں کی بھیڑ سے بھرنے کے لیے، اب بھی فنکار کے کافی وقت کی ضرورت ہوتی ہے۔ 4 3 مواد تخلیق کے عمل کو آسان بنانے اور اسے مختلف (نوجوان) صارفین کے لیے قابل رسائی بنانے کے لیے، 3D جنریٹو نیٹ ورکس جو اعلیٰ معیار اور متنوع 3D اثاثے تیار کر سکتے ہیں حال ہی میں تحقیق کا ایک فعال شعبہ بن چکے ہیں [ , , , , , , , , , , ]۔ تاہم، موجودہ حقیقی دنیا کی ایپلی کیشنز کے لیے عملی طور پر مفید ہونے کے لیے، 3D جنریٹو ماڈلز کو مثالی طور پر مندرجہ ذیل ضروریات کو پورا کرنا چاہیے: ان میں تفصیلی جیومیٹری اور من مانی ٹوپولوجی کے ساتھ شکلیں تیار کرنے کی صلاحیت ہونی چاہیے، آؤٹ پٹ ایک بناوٹ والی میش ہونی چاہیے، جو معیاری گرافکس سافٹ ویئر پیکجز جیسے Blender [ ] اور Maya [ ] کے ذریعہ استعمال کی جانے والی ایک بنیادی نمائندگی ہے، اور ہمیں 2D امیجز کو نگرانی کے لیے استعمال کرنے کے قابل ہونا چاہیے، کیونکہ وہ واضح 3D شکلوں سے زیادہ وسیع پیمانے پر دستیاب ہیں۔ 5 14 43 46 53 68 75 60 59 69 23 (a) (b) 15 1 (c) 3D جنریٹو ماڈلنگ پر پچھلے کام نے مذکورہ بالا ضروریات کے ذیلی سیٹوں پر توجہ مرکوز کی ہے، لیکن آج تک کوئی بھی طریقہ ان سب کو پورا نہیں کرتا (ٹیبل۔ )۔ مثال کے طور پر، جو طریقے 3D پوائنٹ کلاؤڈز [ , 68, 75] تیار کرتے ہیں وہ عام طور پر بناوٹ تیار نہیں کرتے اور انہیں پوسٹ پروسیسنگ میں میش میں تبدیل کرنا پڑتا ہے۔ 1 5 ووکسل تیار کرنے والے طریقے اکثر جیومیٹرک تفصیلات کی کمی رکھتے ہیں اور بناوٹ تیار نہیں کرتے [ , , , ]۔ نیورل فیلڈز [ , ] پر مبنی جنریٹو ماڈلز جیومیٹری نکالنے پر توجہ مرکوز کرتے ہیں لیکن بناوٹ کو نظر انداز کرتے ہیں۔ ان میں سے اکثر کو واضح 3D نگرانی کی بھی ضرورت ہوتی ہے۔ آخر کار، جو طریقے براہ راست بناوٹ والی 3D میشیں [ , ] تیار کرتے ہیں ان کے لیے عام طور پر پہلے سے طے شدہ شکل کے ٹیمپلیٹس کی ضرورت ہوتی ہے اور وہ پیچیدہ ٹوپولوجی یا مختلف جنر کی شکلیں تیار نہیں کر سکتے۔ 66 20 27 40 43 14 54 53 حال ہی میں، نیورل والیم رینڈرنگ [ ] اور 2D جنریٹو ایڈورسال نیٹ ورکس (GANs) [ , , , , ] میں تیزی سے پیش رفت نے 3D-aware امیج سنتھیسس [ , , , , , ] کے عروج کو جنم دیا ہے۔ تاہم، اس کام کا مقصد نیورل رینڈرنگ کو ترکیب کے عمل میں استعمال کرتے ہوئے ملٹی ویو مستقل امیجز کی ترکیب کرنا ہے اور یہ ضمانت نہیں دیتا کہ بامعنی 3D شکلیں تیار کی جا سکتی ہیں۔ اگرچہ مارچنگ کیوب الگورتھم [ ] کا استعمال کرتے ہوئے بنیادی نیورل فیلڈ نمائندگی سے ایک میش ممکنہ طور پر حاصل کی جا سکتی ہے، لیکن متعلقہ بناوٹ نکالنا غیر معمولی ہے۔ 45 34 35 33 29 52 7 57 8 49 51 25 39 اس کام میں، ہم ایک نیا طریقہ متعارف کرواتے ہیں جس کا مقصد عملی طور پر مفید 3D جنریٹو ماڈل کی تمام ضروریات کو پورا کرنا ہے۔ خاص طور پر، ہم GET3D متعارف کرواتے ہیں، 3D شکلوں کے لیے ایک enerative ماڈل جو براہ راست xplicit extured میشیں تیار کرتا ہے جس میں اعلیٰ جیومیٹرک اور بناوٹ کی تفصیلات اور من مانی میش ٹوپولوجی ہوتی ہے۔ ہمارے طریقے کے دل میں ایک جنریٹو عمل ہے جو قابلِ تفریق سطح نکالنے کا طریقہ [ ] اور قابلِ تفریق رینڈرنگ تکنیک [ , ] استعمال کرتا ہے۔ سابقہ ہمیں من مانی ٹوپولوجی کے ساتھ واضح بناوٹ والی 3D میشیں براہ راست آپٹیمائز اور تیار کرنے کے قابل بناتا ہے، جبکہ مؤخر الذکر ہمیں 2D امیجز کے ساتھ اپنے ماڈل کو تربیت دینے کی اجازت دیتا ہے، اس طرح 2D امیج سنتھیسس کے لیے تیار کردہ طاقتور اور بالغ امتیازات سے فائدہ اٹھاتا ہے۔ چونکہ ہمارا ماڈل براہ راست میشیں تیار کرتا ہے اور ایک انتہائی موثر (قابلِ تفریق) گرافکس رینڈرر استعمال کرتا ہے، ہم اپنے ماڈل کو امیج ریزولوشن 1024 × 1024 تک تربیت دینے کے لیے آسانی سے اسکیل اپ کر سکتے ہیں، جس سے ہمیں اعلیٰ معیار کی جیومیٹرک اور بناوٹ کی تفصیلات سیکھنے کی اجازت ملتی ہے۔ G E T 3D واضح 60 47 37 ہم ShapeNet [ ]، Turbosquid [ ] اور Renderpeople [ ] سے کاروں، کرسیوں، جانوروں، موٹرسائیکلوں اور انسانی کرداروں سے لے کر عمارتوں تک پیچیدہ جیومیٹری والی متعدد اقسام پر غیر مشروط 3D شکل کی تخلیق کے لیے جدید ترین کارکردگی کا مظاہرہ کرتے ہیں۔ واضح میش کے ساتھ آؤٹ پٹ نمائندگی کے طور پر، GET3D بھی بہت لچکدار ہے اور اسے آسانی سے دیگر کاموں کے مطابق ڈھالا جا سکتا ہے، بشمول: ترقی یافتہ قابلِ تفریق رینڈرنگ [ ] کا استعمال کرتے ہوئے غیر مشروط طور پر، گنجائش مواد اور منظر پر منحصر روشنی کے اثرات کی ترکیب سیکھنا، CLIP [ ] ایمبیڈنگ کا استعمال کرتے ہوئے متن کی ہدایت کردہ 3D شکل کی ترکیب۔ 9 4 2 (a) 12 (b) 56 2 متعلقہ کام ہم جیومیٹری اور ظاہری شکل کے لیے 3D جنریٹو ماڈلز میں حالیہ پیشرفت کا جائزہ لیتے ہیں، اور ساتھ ہی 3D-aware جنریٹو امیج سنتھیسس کا بھی جائزہ لیتے ہیں۔ حالیہ برسوں میں، 2D جنریٹو ماڈلز نے اعلیٰ ریزولوشن امیج سنتھیسس [ , , , , , , ] میں فوٹو ریلسٹک کوالٹی حاصل کی ہے۔ اس پیشرفت نے 3D مواد کی تخلیق میں بھی تحقیق کو متاثر کیا ہے۔ ابتدائی طریقے 2D CNN جنریٹرز کو 3D ووکسل گرڈز [ , , , , ] میں براہ راست بڑھانے کا مقصد رکھتے تھے، لیکن 3D کنولوشنز کے لیے اعلیٰ میموری فٹ پرنٹ اور کمپیوٹیشنل پیچیدگی اعلیٰ ریزولوشن پر تخلیق کے عمل میں رکاوٹ ڈالتی ہیں۔ متبادل کے طور پر، دیگر کاموں نے پوائنٹ کلاؤڈ [ , , , ]، ضمنی [ , ]، یا آکٹری [ ] کی نمائندگیوں کو دریافت کیا ہے۔ تاہم، یہ کام بنیادی طور پر جیومیٹری تیار کرنے پر توجہ مرکوز کرتے ہیں اور ظاہری شکل کو نظر انداز کرتے ہیں۔ ان کے آؤٹ پٹ کی نمائندگیوں کو بھی معیاری گرافکس انجنوں کے ساتھ مطابقت پذیر بنانے کے لیے پوسٹ پروسیسنگ کی ضرورت ہوتی ہے۔ 3D جنریٹو ماڈلز 34 35 33 52 29 19 16 66 20 27 40 62 5 68 75 46 43 14 30 ہمارے کام سے زیادہ مماثل، Textured3DGAN [ , ] اور DIBR [ ] بناوٹ والی 3D میشیں تیار کرتے ہیں، لیکن وہ ایک ٹیمپلیٹ میش کی خرابی کے طور پر تخلیق کو فارمولیٹ کرتے ہیں، جو انہیں پیچیدہ ٹوپولوجی یا مختلف جنر والی شکلیں تیار کرنے سے روکتا ہے، جو ہمارا طریقہ کر سکتا ہے۔ PolyGen [ ] اور SurfGen [ ] من مانی ٹوپولوجی کے ساتھ میشیں تیار کر سکتے ہیں، لیکن بناوٹ تیار نہیں کرتے۔ 54 53 11 48 41 نیورل والیم رینڈرنگ [ ] اور ضمنی نمائندگیوں [ , ] میں کامیابی سے متاثر ہو کر، حالیہ کام نے 3D-aware امیج سنتھیسس [ , , , , , , , , , ] کے مسئلے کو حل کرنا شروع کر دیا ہے۔ تاہم، نیورل والیم رینڈرنگ نیٹ ورکس عام طور پر استفسار کرنے میں سست ہوتے ہیں، جس کی وجہ سے تربیت کا وقت طویل ہوتا ہے [ , ]، اور محدود ریزولوشن کی امیجز تیار کرتے ہیں۔ GIRAFFE [ ] اور StyleNerf [ ] کم ریزولوشن پر نیورل رینڈرنگ کرکے تربیت اور رینڈرنگ کی کارکردگی کو بہتر بناتے ہیں اور پھر نتائج کو 2D CNN کے ساتھ اپسکیل کرتے ہیں۔ تاہم، کارکردگی میں اضافہ کم ملٹی ویو مستقل مزاجی کی قیمت پر آتا ہے۔ ایک دوہری امتیاز کے استعمال سے، EG3D [ ] اس مسئلے کو جزوی طور پر کم کر سکتا ہے۔ اس کے باوجود، نیورل رینڈرنگ پر مبنی طریقوں سے بناوٹ والی سطح نکالنا ایک غیر معمولی کوشش ہے۔ اس کے برعکس، GET3D براہ راست بناوٹ والی 3D میشیں تیار کرتا ہے جنہیں معیاری گرافکس انجنوں میں آسانی سے استعمال کیا جا سکتا ہے۔ 3D-Aware جنریٹو امیج سنتھیسس 45 43 14 7 57 49 26 25 76 8 51 58 67 7 57 49 25 8 3 طریقہ اب ہم بنائی گئی 3D شکلوں کے لیے اپنا GET3D فریم ورک پیش کرتے ہیں۔ ہمارا تخلیقی عمل دو حصوں میں تقسیم ہے: ایک جیومیٹری برانچ، جو من مانی ٹوپولوجی کی ایک قابلِ تفریق سطح میش آؤٹ پٹ کرتی ہے، اور ایک بناوٹ برانچ جو ایک بناوٹ فیلڈ تیار کرتی ہے جسے رنگ حاصل کرنے کے لیے سطح کے پوائنٹس پر استفسار کیا جا سکتا ہے۔ مؤخر الذکر کو دیگر سطح کی خصوصیات جیسے، مثال کے طور پر، مواد (سیکشن ) کے لیے بڑھایا جا سکتا ہے۔ تربیت کے دوران، 2D اعلیٰ ریزولوشن امیجز میں نکالی گئی بناوٹ والی میش کو رینڈر کرنے کے لیے ایک موثر قابلِ تفریق راسٹرائزر استعمال کیا جاتا ہے۔ پورا عمل قابلِ تفریق ہے، جس سے 2D امتیاز کے ساتھ امیجز سے ایڈورسال تربیت کی اجازت ملتی ہے (مختصری ماسک جو دلچسپی کی ایک شے کی نشاندہی کرتے ہیں) دونوں جنریٹر برانچز میں ڈھلوانوں کو پھیلانے سے۔ ہمارا ماڈل فِگ میں دکھایا گیا ہے۔ مندرجہ ذیل میں، ہم پہلے سیکشن میں اپنے 3D جنریٹر کا تعارف کرواتے ہیں، اس سے پہلے کہ سیکشن میں قابلِ تفریق رینڈرنگ اور نقصانات کے فنکشنز پر آگے بڑھیں۔ 4.3.1 2 3.1 3.2 3.1 3D بناوٹ والی میشوں کا جنریٹو ماڈل ہم 3D جنریٹر = ( ) کا مقصد ایک گوسیئن تقسیم سے نمونہ M, E G z ∈ N (0*,* ) کو ایک میش میں بناوٹ کے ساتھ نقشہ بنانا ہے۔ z I M E چونکہ ایک ہی جیومیٹری مختلف بناوٹ کی حامل ہو سکتی ہے، اور ایک ہی بناوٹ کو مختلف جیومیٹریز پر لاگو کیا جا سکتا ہے، ہم دو بے ترتیب ان پٹ ویکٹرز 1 ∈ R512 اور 2 ∈ R512 نمونہ لیتے ہیں۔ StyleGAN [ , , ] کے مطابق، ہم غیر لکیری میپنگ نیٹ ورکس geo اور tex کا استعمال کرتے ہیں تاکہ 1 اور 2 کو انٹرمیڈیٹ لیٹنٹ ویکٹرز 1 = geo( 1) اور 2 = tex( 2) میں نقشہ بنایا جا سکے جو 3D شکلوں اور بناوٹ کی تخلیق کو کنٹرول کرنے کے لیے پیدا کرنے کے لیے مزید استعمال ہوتے ہیں۔ ہم سیکشن میں جیومیٹری کے لیے جنریٹر اور سیکشن میں بناوٹ جنریٹر کا رسمی طور پر تعارف کرواتے ہیں۔ z z 34 35 33 f f z z w f z w f z اسٹائل 3.1.1 3.1.2 3.1.1 جیومیٹری جنریٹر ہم اپنے جیومیٹری جنریٹر کو DMTet [ ] کو شامل کرنے کے لیے ڈیزائن کرتے ہیں، جو حال ہی میں تجویز کردہ ایک قابلِ تفریق سطح کی نمائندگی ہے۔ DMTet جیومیٹری کو ایک سائنڈ ڈسٹنس فیلڈ (SDF) کے طور پر پیش کرتا ہے جو ایک ڈیفارمیبل ٹیٹراہیڈرال گرڈ [ , ] پر متعین ہے، جس سے سطح کو مارچنگ ٹیٹراہیڈرا [ ] کے ذریعے قابلِ تفریق طور پر بازیافت کیا جا سکتا ہے۔ گرڈ کو اس کے عمودی کو منتقل کر کے ڈیفارم کرنے سے اس کے ریزولوشن کا بہتر استعمال ہوتا ہے۔ سطح نکالنے کے لیے DMTet کو اپنانے سے، ہم من مانی ٹوپولوجی اور جنر والی واضح میشیں تیار کر سکتے ہیں۔ ہم اگے DMTet کا ایک مختصر خلاصہ فراہم کرتے ہیں اور مزید تفصیلات کے لیے قاری کو اصل کاغذ کی طرف رجوع کرتے ہیں۔ 60 22 24 17 فرض کریں ( ) اس پورے 3D خلا کو ظاہر کرتا ہے جس میں شے موجود ہے، جہاں ٹیٹراہیڈرال گرڈ کے عمودی ہیں. ہر ٹیٹراہیڈرون ∈ کو چار عمودی { } کا استعمال کرتے ہوئے متعین کیا جاتا ہے، جس میں ∈ {1*, . . . , K*}, جہاں ٹیٹراہیڈرون کی کل تعداد ہے، اور ∈ ∈ R3۔ اس کے 3D کوآرڈینیٹس کے علاوہ، ہر عمودی میں SDF ویلیو ∈ R اور عمودی کے کینونیکل کوآرڈینیٹ سے ڈیفارمیشن ∆ ∈ R3 شامل ہوتا ہے۔ یہ نمائندگی قابلِ تفریق مارچنگ ٹیٹراہیڈرا [ ] کے ذریعے واضح میش کی بازیافت کی اجازت دیتی ہے، جہاں مسلسل جگہ میں SDF قدریں ان کی قدر کے باری سنٹرک انٹراپولیشن کے ذریعے گنتی کی جاتی ہیں جو ڈیفارم شدہ عمودی ′ = + ∆ پر ہوتی ہیں۔ VT , T VT T Tk T v ak , v bk , v ck , v dk k K v ik VT , v ik i v i si v i 60 si v v i v i ہم 1 ∈ R512 کو ہر عمودی پر SDF قدروں اور ڈیفارمیشنز میں مشروط 3D کنولیشنل اور مکمل طور پر جڑے ہوئے تہوں کے سلسلے کے ذریعے نقشہ بناتے ہیں۔ خاص طور پر، ہم پہلے 1 کی شرائط پر مبنی فیچر والیم تیار کرنے کے لیے 3D کنولیشنل تہوں کا استعمال کرتے ہیں۔ پھر ہم ٹرائلیئنئر انٹراپولیشن کا استعمال کرتے ہوئے ہر عمودی ∈ پر فیچر کو استفسار کرتے ہیں اور اسے MLPs میں فیڈ کرتے ہیں جو SDF ویلیو اور ڈیفارمیشن ∆ آؤٹ پٹ کرتا ہے۔ ان صورتوں میں جہاں اعلیٰ ریزولوشن پر ماڈلنگ کی ضرورت ہوتی ہے (مثلاً، وہیل میں باریک ڈھانچے والی موٹر بائیک)، ہم [ ] کے مطابق والیم سب ڈویژن کا مزید استعمال کرتے ہیں۔ نیٹ ورک آرکیٹیکچر w v i w v i VT si v i 60 تمام عمودیوں کے لیے اور ∆ حاصل کرنے کے بعد، ہم واضح میش نکالنے کے لیے قابلِ تفریق مارچنگ ٹیٹراہیڈرا الگورتھم کا استعمال کرتے ہیں۔ مارچنگ ٹیٹراہیڈرا ہر ٹیٹراہیڈرون کے اندر سطح کی ٹوپولوجی کا تعین کرتا ہے جو کے نشانات پر مبنی ہوتا ہے۔ خاص طور پر، ایک میش چہرہ نکالا جاتا ہے جب sign( ) /= sign( )، جہاں ٹیٹراہیڈرون کے کنارے میں عمودی کی انڈیکس ہیں، اور اس چہرے کے عمودی کو لکیری انٹراپولیشن کے طور پر mi,j = v 0 i sj−v 0 j si sj−si کے طور پر متعین کیا جاتا ہے۔ نوٹ کریں کہ اوپر دی گئی مساوات صرف اس صورت میں کی جاتی ہے جب si 6= sj ، اس طرح یہ قابلِ تفریق ہے، اور mi,j کی ڈھلوان کو SDF قدروں si اور ڈیفارمیشنز ∆vi میں واپس پھیلایا جا سکتا ہے۔ اس نمائندگی کے ساتھ، si کے مختلف نشانات کی پیشین گوئی کر کے کسی بھی ٹوپولوجی والی شکلیں آسانی سے تیار کی جا سکتی ہیں۔ قابلِ تفریق میش نکالنا si v i si si sj i, j m i,j 3.1.2 بناوٹ جنریٹر آؤٹ پٹ میش کے مطابق ایک بناوٹ کا نقشہ براہ راست تیار کرنا غیر معمولی ہے، کیونکہ تیار شدہ شکل میں من مانی جنر اور ٹوپولوجی ہو سکتی ہے۔ اس لیے ہم بناوٹ کو ایک بناوٹ فیلڈ [ ] کے طور پر پیرامیٹرائز کرتے ہیں۔ 50 خاص طور پر، ہم بناوٹ فیلڈ کو ایک فنکشن کے ساتھ ماڈل کرتے ہیں جو سطح کے نقطہ ∈ R3 کے 3D مقام کو، 2 کی شرائط پر، اس مقام پر RGB رنگ ∈ R3 میں نقشہ بناتا ہے۔ چونکہ بناوٹ کا میدان جیومیٹری پر منحصر ہے، ہم اضافی طور پر اس میپنگ کو جیومیٹری لیٹنٹ کوڈ 1 کی شرائط پر منحصر کرتے ہیں، تاکہ = ( *,* 1 ⊕ 2) ہو، جہاں ⊕ کنکیٹینیشن کی نمائندگی کرتا ہے۔ ft p w c w c ft p w w ہم اپنے بناوٹ فیلڈ کو ٹرائی-پلین نمائندگی کا استعمال کرتے ہوئے پیش کرتے ہیں، جو 3D اشیاء [ ] کو دوبارہ بنانے اور 3D-aware امیجز [ ] تیار کرنے میں موثر اور تاثراتی ہے۔ خاص طور پر، ہم [ , ] کی پیروی کرتے ہیں اور لیٹنٹ کوڈ 1 ⊕ 2 کو × × ( × 3) کے تین محور سے منسلک عمودی فیچر پلینز میں نقشہ بنانے کے لیے ایک مشروط 2D کنولیشنل نیورل نیٹ ورک کا استعمال کرتے ہیں، جہاں = 256 مکانی ریزولوشن کی نمائندگی کرتا ہے اور = 32 چینلز کی تعداد ہے۔ نیٹ ورک آرکیٹیکچر 55 8 8 35 w w N N C N C فیچر پلینز دیے گئے، سطح کے نقطہ p کا فیچر ویکٹر f t ∈ R 32 کو f t = P e ρ(πe(p)) کے طور پر بازیافت کیا جا سکتا ہے، جہاں πe(p) نقطہ p کا فیچر پلین e پر پروجیکشن ہے اور ρ(·) فیچرز کی بائی لینیئر انٹراپولیشن کی نمائندگی کرتا ہے۔ پھر ایک اضافی مکمل طور پر جڑا ہوا پرت استعمال کیا جاتا ہے تاکہ مجموعی فیچر ویکٹر f t کو RGB رنگ c میں نقشہ بنایا جا سکے۔ نوٹ کریں کہ، 3D-aware امیج سنتھیسس [8, 25, 7, 57] پر دیگر کاموں کے برعکس جو نیورل فیلڈ نمائندگی کا بھی استعمال کرتے ہیں، ہمیں صرف سطح کے پوائنٹس کے مقامات پر (شعاع کے ساتھ گھنے نمونوں کے برعکس) بناوٹ کے میدان سے نمونہ لینے کی ضرورت ہے۔ یہ اعلیٰ ریزولوشن امیجز کو رینڈر کرنے کے لیے کمپیوٹیشنل پیچیدگی کو بہت کم کرتا ہے اور تعمیر کے لحاظ سے ملٹی ویو مستقل امیجز تیار کرنے کی ضمانت دیتا ہے۔ 3.2 قابلِ تفریق رینڈرنگ اور تربیت تربیت کے دوران اپنے ماڈل کی نگرانی کرنے کے لیے، ہم Nvdiffrec [ ] سے متاثر ہوتے ہیں جو قابلِ تفریق رینڈرر کا استعمال کرتے ہوئے ملٹی ویو 3D آبجیکٹ کی تعمیر نو کرتا ہے۔ خاص طور پر، ہم نکالی گئی 3D میش اور بناوٹ کے میدان کو قابلِ تفریق رینڈرر [ ] کا استعمال کرتے ہوئے 2D امیجز میں رینڈر کرتے ہیں، اور ہم اپنے نیٹ ورک کی نگرانی ایک 2D امتیاز کے ساتھ کرتے ہیں، جو امیج کو ایک حقیقی شے یا تیار شدہ شے سے رینڈر کی گئی امیج سے ممتاز کرنے کی کوشش کرتا ہے۔ 47 37 ہم فرض کرتے ہیں کہ کیمرہ تقسیم C جو ڈیٹا سیٹ میں امیجز حاصل کرنے کے لیے استعمال کی گئی تھی، معلوم ہے۔ تیار شدہ شکلوں کو رینڈر کرنے کے لیے، ہم C سے بے ترتیب طور پر ایک کیمرہ کا نمونہ لیتے ہیں، اور 3D میش کو 2D سلہیٹ کے ساتھ ساتھ ایک ایسی امیج میں رینڈر کرنے کے لیے ایک انتہائی آپٹمائزڈ قابلِ تفریق راسٹرائزر Nvdiffrast [ ] کا استعمال کرتے ہیں جہاں ہر پکسل میش کی سطح پر متعلقہ 3D نقطہ کے کوآرڈینیٹس پر مشتمل ہوتا ہے۔ ان کوآرڈینیٹس کو مزید بناوٹ کے میدان کو استفسار کرنے کے لیے استعمال کیا جاتا ہے تاکہ RGB قدریں حاصل کی جا سکیں۔ چونکہ ہم نکالی گئی میش پر براہ راست کام کرتے ہیں، ہم اعلیٰ کارکردگی کے ساتھ اعلیٰ ریزولوشن امیجز رینڈر کر سکتے ہیں، جس سے ہمارے ماڈل کو 1024×1024 تک کی امیج ریزولوشن کے ساتھ تربیت دی جا سکتی ہے۔ قابلِ تفریق رینڈرنگ c 37 ہم اپنے ماڈل کو ایک ایڈورسال مقصد کے ساتھ تربیت دیتے ہیں۔ ہم StyleGAN [ ] سے امتیاز آرکیٹیکچر کو اپناتے ہیں، اور R1 ریگولرائزیشن [ ] کے ساتھ وہی نان-سیچوریٹنگ GAN مقصد استعمال کرتے ہیں۔ ہم عملی طور پر پاتے ہیں کہ دو الگ الگ امتیازات کا استعمال، ایک RGB امیجز کے لیے اور دوسرا سلہیٹس کے لیے، دونوں پر کام کرنے والے ایک واحد امتیاز سے بہتر نتائج دیتا ہے۔ فرض کریں امتیاز کی نمائندگی کرتا ہے، جہاں یا تو ایک RGB امیج یا ایک سلہیٹ ہو سکتا ہے۔ پھر ایڈورسال مقصد کو اس طرح بیان کیا جاتا ہے: امتیاز اور مقصد 34 42 Dx x جہاں ( ) کو ( ) = − log(1 +exp(− )) کے طور پر بیان کیا جاتا ہے، حقیقی امیجز کی تقسیم ہے، رینڈرنگ کی نمائندگی کرتا ہے، اور ایک ہائپر پیرامیٹر ہے۔ چونکہ قابلِ تفریق ہے، ڈھلوانوں کو 2D امیجز سے ہمارے 3D جنریٹرز میں واپس پھیلایا جا سکتا ہے۔ g u g u u px R λ R ان اندرونی بہتی ہوئی چہروں کو ہٹانے کے لیے جو کسی بھی منظر میں نظر نہیں آتے، ہم پڑوسی عمودیوں [ ] کے SDF قدروں کے درمیان طے شدہ کراس-اینٹروپی نقصان کے ساتھ جیومیٹری جنریٹر کو مزید ریگولرائزیشن 47