ليکوالان: Jun Gao, NVIDIA، د تورنتو پوهنتون، ویکٹر انسټیټیوټ (jung@nvidia.com) Tianchang Shen, NVIDIA، د تورنتو پوهنتون، ویکٹر انسټیټیوټ (frshen@nvidia.com) Zian Wang, NVIDIA، د تورنتو پوهنتون، ویکٹر انسټیټیوټ (zianw@nvidia.com) Wenzheng Chen, NVIDIA، د تورنتو پوهنتون، ویکٹر انسټیټیوټ (wenzchen@nvidia.com) Kangxue Yin, NVIDIA (kangxuey@nvidia.com) Daiqing Li, NVIDIA (daiqingl@nvidia.com) Or Litany, NVIDIA (olitany@nvidia.com) Zan Gojcic, NVIDIA (zgojcic@nvidia.com) Sanja Fidler, NVIDIA، د تورنتو پوهنتون، ویکٹر انسټیټیوټ (sfidler@nvidia.com) لنډیز لکه څنګه چې څو صنعتونه د لوی 3D مجازی نړۍ ماډل کولو ته ځي، د مینځپانګې رامینځته کولو وسیلو ته اړتیا چې د 3D مینځپانګې مقدار، کیفیت او تنوع له مخې پراخ شي، څرګنده کیږي. زموږ په کار کې، موږ موخه لرو چې د 3D تولیدي ماډلونه روزنه وکړو چې جوړښت لرونکي میشونه تولیدوي چې مستقیم د 3D رینډرینګ انجنونو لخوا مصرف کیدی شي، پدې توګه سمدلاسه په لاندې غوښتنلیکونو کې د کارونې وړ دي. د 3D تولیدي ماډلینګ باندې پخوانۍ لیکنې یا توجیهي جزییات نلري، د میش ټاپولوژي پورې محدود دي چې دوی یې تولید کولی شي، معمولا ټیکسچر نه ملاتړ کوي، یا د تولید په پروسه کې عصبي رینډررز کاروي، کوم چې په عام 3D سافټویر کې د دوی کارول غیر معمولي کوي. پدې کار کې، موږ GET3D معرفي کوو، یو enerative ماډل چې مستقیم xplicit extured میشونه د پیچلي ټاپولوژي، بډایه توجیهي جزییات، او لوړ وفادارۍ ټیکسچر تولیدوي. موږ په وروستي بریالیتوبونو کې په توپیري سطح ماډلینګ، توپیري رینډرینګ او همدارنګه 2D تولیدي مخالف شبکو ته لاسرسی لرو ترڅو زموږ ماډل له 2D عکسونو مجموعو څخه روزنه ورکړو. GET3D د لوړ کیفیت 3D جوړښت لرونکي میشونه تولیدولو توان لري، له موټرو، څوکیو، حیواناتو، موټرسایکلونو او انساني شخصیتونو څخه تر ودانیو پورې، چې پخوانۍ میتودونو ته د پام وړ پرمختګ ترلاسه کوي. زموږ د پروژې پاڼه: G E T 3D https://nv-tlabs.github.io/GET3D 1 معرفي متنوع، لوړ کیفیت 3D مینځپانګه د څو صنعتونو لپاره په زیاتیدونکي توګه مهمه کیږي، پشمول د لوبې، روبوټکس، معمارۍ، او ټولنیز پلیټ فارمونه. په هرصورت، د 3D شتمنیو لاسي جوړول خورا وخت نیسي او ځانګړي تخنیکي پوهه او همدارنګه هنري ماډلینګ مهارتونه غواړي. یو له اصلي ننګونو څخه د اندازې - پداسې حال کې چې یو څوک کولی شي د 3D بازارونو لکه Turbosquid [ ] یا Sketchfab [ ] څخه 3D ماډلونه ومومي، ډیری 3D ماډلونه رامینځته کول، ووایاست، د لوبې یا فلم د خلکو سره د کرکټرونو ډله چې ټول مختلف ښکاري لاهم د هنرمند وخت یوه پام وړ مقدار اخلي. 4 3 د مینځپانګې رامینځته کولو پروسې اسانه کولو او دا د مختلفو (نویو) کاروونکو لپاره د لاسرسي وړ کولو لپاره، 3D تولیدي شبکې چې کولی شي د لوړ کیفیت او متنوع 3D شتمنۍ تولید کړي په وروستیو کې د تحقیق یوه فعاله ساحه ګرځیدلې [ , , , , , , , , , , ]. په هرصورت، د اوسني واقعیتي غوښتنلیکونو لپاره په عملي توګه د کارونې وړ کیدو لپاره، 3D تولیدي ماډلونه باید په مثالي توګه لاندې اړتیاوې پوره کړي: دوی باید د تفصيلي توجیه او اختیاري ټاپولوژي سره شکلونه تولید کولو وړتیا ولري، محصول باید یو جوړښت لرونکی میش وي، کوم چې د معیاري ګرافیک سافټویر کڅوړو لکه بلینډر [ ] او ماییا [ ] لخوا کارول شوي لومړني نمایش دي، او موږ باید د 2D عکسونو د نظارت لپاره کارولی شو، ځکه چې دوی د واضح 3D شکلونو په پرتله خورا په پراخه کچه شتون لري. 5 14 43 46 53 68 75 60 59 69 23 (a) (b) 15 1 (c) د 3D تولیدي ماډلینګ باندې پخوانۍ کار د پورتنیو اړتیاو فرعي سیټونو باندې تمرکز کړی، مګر تر اوسه هیڅ میتود دا ټول نه پوره کوي (ټب. ). د مثال په توګه، میتودونه چې د 3D نقطې ورېځې [ , 68, 75] تولیدوي معمولا ټیکسچر نه تولیدوي او باید په وروسته پروسس کې میش ته واړول شي. 1 5 ووکسیل تولیدونکي ماډلونه اکثرا توجیهي جزییات نلري او ټیکسچر نه تولیدوي [ , , , ]. د عصبي ساحو [ , ] پر بنسټ جوړ شوي ماډلونه د توجیه استخراج باندې تمرکز کوي مګر ټیکسچر له پامه غورځوي. له دې څخه ډیری یې د واضح 3D نظارت ته هم اړتیا لري. په نهایت کې، میتودونه چې مستقیم جوړښت لرونکي 3D میشونه [ , ] تولیدوي معمولا مخکې تعریف شوي شکل نمونې ته اړتیا لري او نشي کولی پیچلي ټاپولوژي یا متغیر جننس سره شکلونه تولید کړي. 66 20 27 40 43 14 54 53 په وروستیو کې، په توپیري حجم رینډرینګ [ ] او 2D تولیدي مخالف شبکو (GANs) [ , , , , ] کې چټک پرمختګ د 3D-پوه شوي عکس تولید [ , , , , , ] ظهور لامل شوی. په هرصورت، د دې کار هدف د عصبي رینډرینګ په کارولو سره څو-نظري همغږي عکسونه تولیدول دي او تضمین نه کوي چې معنی لرونکي 3D شکلونه رامینځته کیدی شي. پداسې حال کې چې میش کولی شي په احتمالي توګه د مارشینګ کیوب الګوریتم [ ] په کارولو سره د لاندې عصبي ساحې نمایش څخه ترلاسه شي، مطابقت لرونکي ټیکسچر استخراج غیر معمولي دی. 45 34 35 33 29 52 7 57 8 49 51 25 39 پدې کار کې، موږ یوه نوې طریقه معرفي کوو چې د عملي 3D تولیدي ماډل لپاره د ټولو اړتیاو پوره کولو هدف لري. په ځانګړې توګه، موږ GET3D وړاندیز کوو، یو enerative ماډل د 3D شکلونو لپاره چې مستقیم xplicit extured میشونه د لوړ توجیهي او ټیکسچر جزییات او اختیاري میش ټاپولوژي سره تولیدوي. زموږ د تګلارې په زړه کې یو تولیدي پروسه ده چې د توپیري سطح استخراج میتود [ ] او د توپیري رینډرینګ تخنیک [ , ] کاروي. لومړنی موږ ته اجازه راکوي چې مستقیم جوړښت لرونکي 3D میشونه د اختیاري ټاپولوژي سره تنظیم او تولید کړو، پداسې حال کې چې وروستی موږ ته اجازه راکوي چې زموږ ماډل د 2D عکسونو سره وروزو، پدې توګه د 2D عکس تولید لپاره رامینځته شوي قوي او بالغ تبعیض کونکو څخه ګټه پورته کوو. له هغه وخته چې زموږ ماډل مستقیم میشونه تولیدوي او یو خورا مؤثره (توپیري) ګرافیک رینډرر کاروي، موږ کولی شو خپل ماډل تر 1024 × 1024 پورې د عکس ریزولوشن سره روزنې ته په اسانۍ سره پراخ کړو، کوم چې موږ ته اجازه راکوي د لوړ کیفیت توجیهي او ټیکسچر جزییات زده کړو. G E T 3D واضح 60 47 37 موږ د ShapeNet [ ]، Turbosquid [ ] او Renderpeople [ ] څخه موټرو، څوکیو، موټرسایکلونو، انساني شخصیتونو او ودانیو په څیر پیچلي توجیه لرونکي کټګوریو کې په څو کټګوریو کې د بې شرطه 3D شکل تولید لپاره د دولت - د - هنر فعالیت ښیي. د محصول نمایش په توګه د واضح میش سره، GET3D هم خورا انعطاف منونکی دی او په اسانۍ سره نورو کارونو ته تطبیق کیدی شي، پشمول: د پرمختللي توپیري رینډرینګ [ ] په کارولو سره د تخریب شوي موادو او نظر-تکیه لرونکي ر lightingا اغیزو تولیدولو لپاره زده کول، پرته له نظارت، د CLIP [ ] امبیډینګ په کارولو سره د متن-لارښود 3D شکل تولید. 9 4 2 (a) 12 (b) 56 2 اړونده کار موږ د توجیه او بڼې لپاره د 3D تولیدي ماډلونو وروستي پرمختګونه، او همدارنګه د 3D-پوه شوي تولیدي عکس ترکیب بیاکتنه کوو. په وروستیو کلونو کې، 2D تولیدي ماډلونو په لوړ ریزولوشن عکس ترکیب [ , , , , , , ] کې فوټوریالیسټیک کیفیت ترلاسه کړی. دا پرمختګ د 3D مینځپانګې تولید کې هم الهام بخښونکی و. لومړنۍ طریقې د 2D CNN جنراتورونو مستقیم 3D ووکسیل گرډونو ته پراخول [ , , , , ] هدف لري، مګر د 3D convolutions لوړ حافظې نښان او محاسباتی پیچلتیا په لوړ ریزولوشن کې د تولید پروسه خنډوي. د بدیل په توګه، نورو کارونو د نقطې ورېځ [ , , , ]، ضمني [ , ]، یا اوکټري [ ] نمایشونه سپړلي دي. په هرصورت، دا کارونه په عمده توګه د توجیه تولید باندې تمرکز کوي او ظاهري بڼه له پامه غورځوي. د دوی د محصول نمایشونه باید د معیاري ګرافیک انجنونو سره مطابقت لپاره وروسته پروسس ته هم اړتیا ولري. 3D تولیدي ماډلونه 34 35 33 52 29 19 16 66 20 27 40 62 5 68 75 46 43 14 30 زموږ کار ته ډیر ورته، Textured3DGAN [ , ] او DIBR [ ] جوړښت لرونکي 3D میشونه تولیدوي، مګر دوی د یوې نمونې میش د تحریف په توګه تولید د تدوین کوي، کوم چې دوی د پیچلي ټاپولوژي یا مختلف جننس سره شکلونو تولیدولو څخه منع کوي، کوم چې زموږ طریقه کولی شي. PolyGen [ ] او SurfGen [ ] کولی شي د اختیاري ټاپولوژي سره میشونه تولید کړي، مګر ټیکسچر نه تولیدوي. 54 53 11 48 41 د عصبي حجم رینډرینګ [ ] او ضمني نمایشونو [ , ] له بریالیتوب څخه الهام اخیستل شوي، وروستي کار د 3D-پوه شوي عکس ترکیب [ , , , , , , , , , ] ستونزې سره مخ شوې. په هرصورت، عصبي حجم رینډرینګ شبکې معمولا د پوښتنه کولو لپاره ورو دي، چې د اوږدې روزنې وختونو لامل کیږي [ , ]، او محدود ریزولوشن عکسونه تولیدوي. GIRAFFE [ ] او StyleNerf [ ] د ټیټ ریزولوشن کې عصبي رینډرینګ ترسره کولو او بیا د 2D CNN سره پایلې پورته کولو سره د روزنې او رینډرینګ موثریت ښه کوي. په هرصورت، د فعالیت لاسته راوړنه د کم شوي څو-نظري همغږي په قیمت راځي. د دوه ګوني تبعیض کونکي په کارولو سره، EG3D [ ] کولی شي دا ستونزه په جزوي ډول حل کړي. په هرصورت، له عصبي رینډرینګ پر بنسټ میتودونو څخه جوړښت لرونکي سطح استخراج یو غیر معمولي هڅه ده. په مقابل کې، GET3D مستقیم جوړښت لرونکي 3D میشونه تولیدوي چې په معیاري ګرافیک انجنونو کې په اسانۍ سره کارول کیدی شي. 3D-پوه شوي تولیدي عکس ترکیب 45 43 14 7 57 49 26 25 76 8 51 58 67 7 57 49 25 8 3 طریقه موږ اوس زموږ د GET3D چوکاټ د جوړښت لرونکي 3D شکلونو ترکیب لپاره وړاندې کوو. زموږ د تولیدي پروسه په دوه برخو ویشل شوې: یو توجیهي څانګه، چې په توپیري توګه د اختیاري ټاپولوژي میش تولیدوي، او یو ټیکسچر څانګه چې یو ټیکسچر ساحه تولیدوي چې د رنګونو تولید لپاره د سطحې نقطو کې پوښتل کیدی شي. وروستی د نورو سطحې ملکیتونو لپاره پراخ کیدی شي لکه د مثال په توګه مواد (Sec. ). د روزنې په جریان کې، یو مؤثره توپیري راسټریزیشن کارول کیږي ترڅو پایله لرونکي جوړښت لرونکي میش په 2D لوړ ریزولوشن عکسونو کې رینډر کړي. ټوله پروسه توپیري ده، د 2D تبعیض کونکي څخه دواړو جنراتور څانګو ته د ګریډینټس په خپرولو سره د عکسونو (د ماسکونو سره چې د ګټو یو څیز په ګوته کوي) سره مخالف روزنې ته اجازه ورکوي. زموږ ماډل په شکل کې ښودل شوی. په لاندې کې، موږ لومړی زموږ د 3D جنراتور په Sec کې معرفي کوو، مخکې له دې چې په Sec کې توپیري رینډرینګ او خسارې ته لاړ شو. 4.3.1 2 3.1 3.2 3.1 د 3D جوړښت لرونکي میشونو تولید ماډل موږ د 3D جنراتور = ( ) زده کولو هدف لرو ترڅو د ګاسیان توزیع څخه نمونه نقشه کړو M, E G z ∈ N (0*,* ) تر میش پورې د ټیکسچر سره. z I M E له هغه وخته چې ورته توجیه مختلف ټیکسچرونه درلودلی شي، او ورته ټیکسچر د مختلفو توجیهاتو لپاره پلي کیدی شي، موږ دوه تصادفی ان پټ ویکٹرونه 1 ∈ R512 او 2 ∈ R512 نمونې کوو. د StyleGAN [ , , ] تعقیب، موږ بیا غیر خطي نقشه کولو شبکې geo او tex کاروو ترڅو 1 او 2 د انٹرمیډیټ پټ شوي ویکٹرونو 1 = geo( 1) او 2 = tex( 2) ته نقشه کړو چې د 3D شکلونو او ټیکسچر د تولید کنټرول لپاره نور د تولید لپاره کارول کیږي. موږ په رسمي ډول په Sec. کې د توجیه لپاره جنراتور معرفي کوو او په Sec. کې د ټیکسچر جنراتور. z z 34 35 33 f f z z w f z w f z سټایلونو 3.1.1 3.1.2 3.1.1 توجیه جنراتور موږ زموږ د توجیه جنراتور ډیزاین کوو ترڅو DMTet [ ] شامل کړو، یو په وروستیو کې وړاندیز شوي توپیري سطح نمایش. DMTet توجیه د لاسلیک شوي فاصلې ساحې (SDF) په توګه نمایشوي چې د تخریب شوي ټیټرا هیډرل گرډ [ , ] باندې تعریف شوي، له کوم څخه چې سطح په توپیري توګه د مارشینګ ټیټرا هیډرا [ ] له لارې ترلاسه کیدی شي. د گرډ د دې د عمودیو په حرکت سره تخریب کول د دې ریزولوشن ښه کارول پایله کوي. د سطحې استخراج لپاره DMTet غوره کولو سره، موږ کولی شو د اختیاري ټاپولوژي او جننس سره واضح میشونه تولید کړو. موږ بیا لنډ لنډیز د DMTet لپاره چمتو کوو او د نورو جزیاتو لپاره لوستونکي اصلي مقالې ته راجع کوو. 60 22 24 17 اجازه راکړئ ( ) د بشپړ 3D ځای څخه عبارت وي چې څیز پکې موقعیت لري، چیرته چې د ټیټرا هیډرل گرډ عمودي دي. هر ټیټرا هیډرون ∈ د څلورو عمودیو { } سره تعریف شوی، چیرته چې ∈ {1*, . . . , K*}, چیرته چې د ټیټرا هیډرا ټول شمیر دی، او ∈ ∈ R3. د دې د 3D همغږي سربیره، هر عمودی د SDF ارزښت ∈ R او د عمودی تخریب ∆ ∈ R3 د دې اصلي معمولي همغږي څخه لري. دا نمایش د توپیري مارشینګ ټیټرا هیډرا [ ] له لارې د واضح میش ترلاسه کولو ته اجازه ورکوي، چیرې چې په دوامداره ځای کې SDF ارزښتونه د دې ارزښت په تخریب شوي عمودیو ′ = + ∆ باندې د باریسنټریک انټرپولیشن لخوا محاسبه کیږي. VT , T VT T Tk T v ak , v bk , v ck , v dk k K v ik VT , v ik i v i si v i 60 si v v i v i موږ 1 ∈ R512 هر عمودی ته د SDF ارزښتونو او تخریبونو ته د مشروط 3D کانوولوشنل او بشپړ وصل شوي پرتونو له لارې نقشه کوو. په ځانګړې توګه، موږ لومړی د 1 په اساس د فیچر حجم تولیدولو لپاره 3D کانوولوشنل پرتونه کاروو. بیا موږ د ټرایلینیر انټرپولیشن په کارولو سره په هر عمودی ∈ کې فیچر پوښتنه کوو او دا د MLPs ته تغذیه کوو چې SDF ارزښت او تخریب ∆ تولیدوي. په هغه قضیو کې چې د لوړ ریزولوشن ماډلینګ ته اړتیا وي (د مثال په توګه، موټرسایکل د څرخونو سره پتلی جوړښتونه لري)، موږ د [ ] په تعقیب د حجم فرعي ویش کاروو. شبکه معمار w v i w v i VT si v i 60 د ټولو عمودیو لپاره او ∆ ترلاسه کولو وروسته، موږ د واضح میش استخراج لپاره د توپیري مارشینګ ټیټرا هیډرا الګوریتم کاروو. مارشینګ ټیټرا هیډرا د د نښو پراساس د هر ټیټرا هیډرون دننه د سطحې ټاپولوژي ټاکي. په ځانګړې توګه، یو میش مخ د هغه وخت استخراج کیږي کله چې sign( ) /= sign( )، چیرې چې د ټیټرا هیډرون د څنډې د عمودیو شاخصونه په ګوته کوي، او د هغه مخ عمودی د خطي انټرپولیشن په توګه mi,j = v 0 i sj−v 0 j si sj−si ټاکل کیږي. یادونه وکړئ چې پورته مساوي یوازې هغه وخت ارزیابي کیږي کله چې si 6= sj ، له همدې امله دا توپیري ده، او له mi,j څخه ګریډینټ د SDF ارزښتونو si او تخریبونو ∆vi ته بیرته خپور کیدی شي. د دې نمایش سره، د اختیاري ټاپولوژي سره شکلونه د مختلف نښو په وړاندوینه کولو سره په اسانۍ سره رامینځته کیدی شي. توپیري میش استخراج si v i si si sj i, j m i,j si 3.1.2 ټیکسچر جنراتور د محصول میش سره مطابقت لرونکي ټیکسچر نقشه مستقیم تولیدول غیر معمولي دي، ځکه چې تولید شوي شکل ممکن یو اختیاري جننس او ټاپولوژي ولري. موږ له همدې امله ټیکسچر د ټیکسچر ساحې [ ] په توګه پارامیټریز کوو. 50 په ځانګړې توګه، موږ ټیکسچر ساحه د فنکشن سره ماډل کوو چې د سطحې نقطې ∈ R3 د 3D موقعیت، په 2 باندې مشروط، د هغه موقعیت کې RGB رنګ ∈ R3 ته نقشه کوي. له هغه وخته چې ټیکسچر ساحه له توجیه سره تړاو لري، موږ په اضافي توګه دا نقشه په توجیه پټ شوي کوډ 1 باندې شرط کوو، په داسې ډول چې = ( *,* 1 ⊕ 2)، چیرته چې ⊕ یوځای کیدل په ګوته کوي. ft p w c w c ft p w w موږ زموږ د ټیکسچر ساحه د ټری-پلین نمایش سره نمایشوو، کوم چې د 3D څیزونو [ ] په تطبیق کې او د 3D-پوه شوي عکسونه [ ] تولیدولو کې مؤثره او څرګنده ده. په ځانګړې توګه، موږ [ , ] تعقیب کوو او د 3D شکلونو او ټیکسچر د تولید کنټرول لپاره د غیر خطي نقشه کولو شبکې geo او tex کاروو ترڅو د پټ شوي ویکٹرونو 1 = geo( 1) او 2 = tex( 2) ته نقشه کړو چې د 3D شکلونو او ټیکسچر د تولید کنټرول لپاره نور د تولید لپاره کارول کیږي. له همدې امله، موږ د 1 ⊕ 2 په اساس د دریو محور-تطبیق شوي اورتوګونال فیچر پلینونو اندازه × × ( × 3) سره د غیر خطي نقشه کولو شبکې geo او tex کاروو، چیرې چې = 256 د ځایي ریزولوشن او = 32 د چینلونو شمیر په ګوته کوي. د شبکې معمار 55 8 8 35 f f w f z w f z سټایلونو w w N N C f f N C د فیچر پلینونو په پام کې نیولو سره، د سطحې نقطې p فیچر ویکٹر f t ∈ R 32 د f t = P e ρ(πe(p)) په توګه ترلاسه کیدی شي، چیرې چې πe(p) د فیچر پلین e ته د نقطې p پروجیکشن دی او ρ(·) د فیچرونو بلینیر انټرپولیشن په ګوته کوي. بیا د فیچر ویکٹر f t د RGB رنګ c تولیدولو لپاره کارول کیږي. یادونه وکړئ چې، د 3D-پوه شوي عکس ترکیب په نورو کارونو برخلاف چې د عصبي ساحې نمایش هم کاروي، موږ یوازې د سطحې نقطو په موقعیتونو کې د ټیکسچر ساحه نمونې کولو ته اړتیا لرو (د شعاع په اوږدو کې د ګense نمونو برخلاف). دا د لوړ ریزولوشن عکسونو رینډر کولو لپاره د محاسباتی پیچلتیا په ډراماتیک ډول کموي او د جوړښت له مخې د څو-نظري همغږي عکسونو تولید تضمینوي. 3.2 توپیري رینډرینګ او روزنه زموږ د ماډل د روزنې په جریان کې د څارنې لپاره، موږ د Nvdiffrec [ ] څخه الهام اخلو چې د توپیري رینډرر په کارولو سره د څو-نظري 3D څیز بیا رغونه ترسره کوي. په ځانګړې توګه، موږ د استخراج شوي 3D میش او ټیکسچر ساحه د توپیري رینډرر [ ] په کارولو سره په 2D عکسونو کې رینډر کوو، او زموږ شبکه د 2D تبعیض کونکي سره څارنه کوو، کوم چې د عکس د ریښتیني څیز یا د تولید شوي څیز څخه رینډر شوي توپیر هڅه کوي. 47 37 موږ فرض کوو چې د کیمرې توزیع C چې د ډیټا سیټ کې توپیري رینډرینګ