Mualliflar: Jun Gao, NVIDIA, Toronto universiteti, Vektor instituti (jung@nvidia.com) Tianchang Shen, NVIDIA, Toronto universiteti, Vektor instituti (frshen@nvidia.com) Zian Wang, NVIDIA, Toronto universiteti, Vektor instituti (zianw@nvidia.com) Wenzheng Chen, NVIDIA, Toronto universiteti, Vektor instituti (wenzchen@nvidia.com) Kangxue Yin, NVIDIA (kangxuey@nvidia.com) Daiqing Li, NVIDIA (daiqingl@nvidia.com) Or Litany, NVIDIA (olitany@nvidia.com) Zan Gojcic, NVIDIA (zgojcic@nvidia.com) Sanja Fidler, NVIDIA, Toronto universiteti, Vektor instituti (sfidler@nvidia.com) Abstrakt Ko'pgina sanoat tarmoqlari katta hajmdagi 3D virtual dunyolarni modellashtirishga intilayotganligi sababli, 3D kontentning miqdori, sifati va xilma-xilligi bo'yicha kengayadigan kontent yaratish vositalariga bo'lgan ehtiyoj aniq namoyon bo'lmoqda. O'zimizning ishimizda biz 3D renderlash dasturlarida to'g'ridan-to'g'ri ishlatiladigan, ya'ni keyingi ilovalarda darhol foydalanish mumkin bo'lgan to'qimali meshlarni sintez qiluvchi samarali 3D generativ modellarini o'qitishni maqsad qilganmiz. 3D generativ modellashtirish bo'yicha oldingi ishlar geometrik detalllarning etishmasligi, ular ishlab chiqarishi mumkin bo'lgan mesh topologiyasida cheklanganligi, odatda teksturalarni qo'llab-quvvatlamasligi yoki sintez jarayonida neyron renderlovchilardan foydalanishi bilan ajralib turadi, bu esa ularning umumiy 3D dasturlarida foydalanishni murakkablashtiradi. Ushbu ishda biz murakkab topologiya, boy geometrik detallar va yuqori aniqlikdagi teksturalarga ega bo'lgan to'qimali 3D meshlarni to'g'ridan-to'g'ri yaratadigan GET3D, enerativ modelini taqdim etamiz. Biz 2D tasvirlar to'plamlaridan modelimizni o'qitish uchun differensial sirt modellashtirish, differensial renderlash, shuningdek, 2D Generativ Qarama-Qarshi Tarmoqlardagi (GAN) so'nggi yutuqlarimizdan foydalanamiz. GET3D avtomobillar, stullar, hayvonlar, mototsikllar va inson obrazlaridan tortib binolargacha bo'lgan yuqori sifatli 3D to'qimali meshlarni yaratishga qodir va avvalgi usullardan sezilarli yaxshilanishlarga erishdi. Bizning loyiha sahifamiz: G https://nv-tlabs.github.io/GET3D 1 Kirish Xilma-xil, yuqori sifatli 3D kontent o'yinlar, robototexnika, arxitektura va ijtimoiy platformalar kabi bir qancha sanoat tarmoqlari uchun tobora muhim ahamiyat kasb etmoqda. Biroq, 3D aktivlarini qo'lda yaratish juda ko'p vaqt talab qiladi va maxsus texnik bilimlar, shuningdek, badiiy modellashtirish ko'nikmalarini talab qiladi. Asosiy qiyinchiliklardan biri bu kenglikdir – Turbosquid [ ] yoki Sketchfab [ ] kabi 3D bozorlarida 3D modellarni topish mumkin bo'lsa-da, ko'p sonli 3D modellarni yaratish, masalan, har biri o'ziga xos ko'rinishga ega bo'lgan qahramonlar to'dasi bilan o'yinni yoki filmni to'ldirish uchun katta miqdorda rassom vaqti talab etadi. 4 3 Kontent yaratish jarayonini osonlashtirish va uni turli xil (yangi boshlanuvchilar) foydalanuvchilari uchun qulay qilish maqsadida, yuqori sifatli va xilma-xil 3D aktivlarini yaratishi mumkin bo'lgan generativ 3D tarmoqlari yaqinda tadqiqotlarning faol sohasi sifatida paydo bo'ldi [ , , , , , , , , , , ]. Biroq, joriy real dunyo ilovalari uchun amaliy foydali bo'lish uchun 3D generativ modellar ideal holda quyidagi talablarni qondirishi kerak: ular detallangan geometriya va o'zboshimcha topologiyaga ega shakllarni yaratish qobiliyatiga ega bo'lishi kerak, Chiqish to'qimali mesh bo'lishi kerak, bu Blender [ ] va Maya [ ] kabi standart grafika dasturiy paketlari tomonidan ishlatiladigan asosiy vakillikdir va biz 2D tasvirlardan nazorat qilish uchun foydalanishimiz kerak, chunki ular aniq 3D shakllarga qaraganda ko'proq mavjud. 5 14 43 46 53 68 75 60 59 69 23 (a) (b) 15 1 (c) 3D generativ modellashtirish bo'yicha oldingi ishlar yuqoridagi talablarning ba'zilariga qaratilgan, ammo hozirgi kungacha hech bir usul ularning barchasini qondirmagan (1-jadval. ). Masalan, 3D nuqta bulutlarini yaratadigan usullar [ , 68, 75] odatda teksturalarni yaratmaydi va keyingi qayta ishlashda meshga aylantirilishi kerak. 1 5 Voksel yaratadigan usullar ko'pincha geometrik detalllarning etishmasligi va tekstura yaratmasligi bilan ajralib turadi [ , , , ]. Neyron maydonlariga asoslangan generativ modellar [ , ] geometriyani olishga qaratilgan, ammo teksturani e'tiborsiz qoldiradi. Ularning aksariyati aniq 3D nazoratini ham talab qiladi. Nihoyat, to'qimali 3D meshlarni to'g'ridan-to'g'ri chiqaradigan usullar [ , ] odatda oldindan belgilangan shakl shablonlarini talab qiladi va murakkab topologiyaga yoki o'zgaruvchan genusli shakllarni yaratolmaydi. 66 20 27 40 43 14 54 53 Yaqinda neyron hajmiy renderlash [ ] va 2D Generativ Qarama-Qarshi Tarmoqlar (GAN) [ , , , , ] sohasidagi tez rivojlanish 3D-ga mos tasvir sintezining [ , , , , , ] paydo bo'lishiga olib keldi. Biroq, ushbu ishlar sintez jarayonida neyron renderlashdan foydalangan holda ko'p nuqtali mos keladigan tasvirlarni sintez qilishni maqsad qiladi va ma'noli 3D shakllarni yaratish mumkinligiga kafolat bermaydi. Neyron maydon vakiliyatidan mart simob algoritmi [ ] yordamida mesh olish mumkin bo'lsa-da, mos keladigan teksturani olish murakkab ishdir. 45 34 35 33 29 52 7 57 8 49 51 25 39 Ushbu ishda biz amaliy foydali 3D generativ modelning barcha talablarini qondirishga qaratilgan noyob yondashuvni taqdim etamiz. Xususan, biz GET3D, yuqori geometrik va tekstura detalliga ega va o'zboshimcha mesh topologiyasiga ega bo'lgan aniq to'qimali 3D meshlarni to'g'ridan-to'g'ri chiqaradigan 3D shakllar uchun enerativ modelini taqdim etamiz. Bizning yondashuvimizning asosida differensial sirtni chiqarish usuli [ ] va differensial renderlash texnikasi [ , ] dan foydalanadigan generativ jarayon yotadi. Birinchisi bizga o'zboshimcha topologiyaga ega aniq to'qimali 3D meshlarni to'g'ridan-to'g'ri optimallashtirish va chiqarish imkonini beradi, ikkinchisi esa bizga 2D tasvirlar bilan modelimizni o'qitish imkonini beradi, shu bilan 2D tasvir sintezi uchun ishlab chiqilgan kuchli va etuk diskriminatorlardan foydalanamiz. Modelimiz to'g'ridan-to'g'ri meshlarni yaratadi va yuqori samarali (differensial) grafika renderlovchisidan foydalanganligi sababli, biz modelimizni 1024 × 1024 gacha bo'lgan tasvir aniqligida o'qitish uchun kengaytirib, yuqori sifatli geometrik va tekstura detallarini o'rganishimizga imkon beradi. G aniq 60 47 37 Biz ShapeNet [ ], Turbosquid [ ] va Renderpeople [ ] dan avtomobillar, stullar, mototsikllar, inson obrazlari va binolar kabi murakkab geometriyaga ega bir nechta toifalar bo'yicha yuqori sifatli 3D to'qimali meshlar uchun davlat-san'at avtomat sintezini namoyish etamiz. Aniqlangan mesh asosiy vakiliyati sifatida GET3D boshqa vazifalarga ham osongina moslashtirilishi mumkin, jumladan: ilg'or differensial renderlashdan foydalangan holda ajratilgan material va ko'rinishga bog'liq yoritish effektlarini yaratishni o'rganish [ ], nazoratsiz, CLIP [ ] embeddingidan foydalangan holda matn nazoratidagi 3D shakl sintezi. 9 4 2 (a) 12 (b) 56 2 Tegishli Ishlar Biz geometriya va ko'rinish uchun 3D generativ modellar, shuningdek, 3D ga mos generativ tasvir sintezi bo'yicha so'nggi yutuqlarni ko'rib chiqamiz. So'nggi yillarda 2D generativ modellar yuqori aniqlikdagi tasvir sintezida fotorealistik sifatga erishdi [ , , , , , , ]. Bu rivojlanish 3D kontent yaratish sohasida ham ilhomlantirgan. Dastlabki yondashuvlar 2D CNN generatorlarini 3D voksel gridlariga to'g'ridan-to'g'ri kengaytirishni maqsad qilgan [ , , , , ], ammo 3D konvolyutsiyalarining yuqori xotira talabi va hisoblash murakkabligi yuqori aniqlikda generatsiya jarayonini sekinlashtiradi. Alternativ sifatida, boshqa ishlar nuqta buluti [ , , , ], yashirin [ , ] yoki oktaedr [ ] vakiliyatlarini o'rgangan. Biroq, bu ishlar asosan geometriya yaratishga qaratilgan va ko'rinishni e'tiborsiz qoldiradi. Ularning chiqish vakiliyatlarini standart grafika mexanizmlariga moslashtirish uchun keyingi qayta ishlash ham talab etiladi. 3D Generativ Modellar 34 35 33 52 29 19 16 66 20 27 40 62 5 68 75 46 43 14 30 Bizning ishimizga yaqinroq bo'lgan Textured3DGAN [ , ] va DIBR [ ] to'qimali 3D meshlarni yaratadi, ammo ular generatsiyani shablon meshni deformatsiya qilish sifatida shakllantiradi, bu esa ularni murakkab topologiya yoki o'zgaruvchan genusli shakllarni yaratishdan to'xtatadi, bu bizning usulimiz qila oladi. PolyGen [ ] va SurfGen [ ] o'zboshimcha topologiyaga ega meshlarni yaratishi mumkin, ammo teksturalarni sintez qilmaydi. 54 53 11 48 41 Neyron hajmiy renderlash [ ] va yashirin vakiliyatlar [ , ] muvaffaqiyatidan ilhomlanib, so'nggi ishlar 3D-ga mos tasvir sintezi [ , , , , , , , , , ] muammosini hal qila boshladi. Biroq, neyron hajmiy renderlash tarmoqlari odatda so'rov uchun sekin, bu esa uzoq o'qitish vaqtlariga [ , ] olib keladi va cheklangan aniqlikdagi tasvirlarni yaratadi. GIRAFFE [ ] va StyleNerf [ ] neyron renderlashni past aniqlikda bajarish va keyin 2D CNN bilan natijalarni yuqoriga ko'paytirish orqali o'qitish va renderlash samaradorligini oshiradi. Biroq, unumdorlikning oshishi ko'p nuqtali moslikning pasayishi hisobiga keladi. Ikkita diskriminatordan foydalangan holda, EG3D [ ] bu muammoni qisman bartaraf eta oladi. Shunga qaramay, neyron renderlashga asoslangan usullardan to'qimali sirtni olish murakkab ishdir. Buning aksi o'laroq, GET3D to'g'ridan-to'g'ri standart grafika mexanizmlarida ishlatilishi mumkin bo'lgan to'qimali 3D meshlarni chiqaradi. 3D-ga mos Generativ Tasvir Sintezi 45 43 14 7 57 49 26 25 76 8 51 58 67 7 57 49 25 8 3 Usul Endi biz to'qimali 3D shakllarni sintez qilish uchun GET3D freymvorkimizni taqdim etamiz. Generatsiya jarayonimiz ikki qismga bo'lingan: geometriya shoxobchasi, u o'zboshimcha topologiyali sirt meshini differensial ravishda chiqaradi va sirt nuqtalarida ranglarni olish uchun ishlatilishi mumkin bo'lgan tekstura maydonini yaratadigan tekstura shoxobchasi. Ikkinchisi boshqa sirt xususiyatlari, masalan, materiallar (4.3.1-bo'lim) uchun kengaytirilishi mumkin. O'qitish paytida, 2D yuqori aniqlikdagi tasvirlarni renderlash uchun samarali differensial rasterizator ishlatiladi. Butun jarayon differensial bo'lib, 2D diskriminatoridan gradientlarni ikkala generator shoxobchalariga tarqatish orqali tasvirlar (ob'ektning maskalari ko'rsatilgan) bilan dushmanga o'qitishga imkon beradi. Modelimiz 2-rasmda ko'rsatilgan. Quyida biz avval 3D generatorimizni 3.1-bo'limda, keyin esa differensial renderlash va yo'qotish funksiyalarini 3.2-bo'limda taqdim etamiz. 3.1 3D To'qimali Meshlarning Generativ Modeli Biz Gaussian distributsiyasidan namuna oladigan ∈ N (0*,* ) ni to'qima bilan birga mesh ga o'tkazadigan = ( ) 3D generatorini o'rganishni maqsad qilganmiz. z I E M M, E G z Bir xil geometriya turli xil teksturalarga ega bo'lishi mumkinligi va bir xil tekstura turli geometriyaga qo'llanilishi mumkinligi sababli, biz ikkita tasodifiy kirish vektorini 1 ∈ R512 va 2 ∈ R512 namunasini olamiz. StyleGAN [ , , ] ga amal qilib, biz keyin 1 va 2 ni oraliq latent vektorlar 1 = geo( 1) va 2 = tex( 2) ga o'tkazish uchun nomutanosiblikka ega bo'lmagan xaritalash tarmoqlarini geo va tex dan foydalanamiz. ular keyinchalik mos ravishda 3D shakllar va teksturani yaratishni boshqaradigan hosil qilish uchun ishlatiladi. Biz geometriya uchun generatorni 3.1.1-bo'limda va tekstura generatorini 3.1.2-bo'limda rasmiy ravishda taqdim etamiz. z z 34 35 33 z z w f z w f z f f uslublarni 3.1.1 Geometriya Generatori Biz geometriya generatorimizni yaqinda taklif qilingan differensial sirt vakiliyati bo'lgan DMTet [ ] ni o'z ichiga olish uchun ishlab chiqdik. DMTet geometriyani deformatsiyalanuvchi tetraedr gridida [ , ] aniqlangan imzolangan masofa maydoni (SDF) sifatida ifodalaydi, undan sirt mart simoblar orqali differensial ravishda tiklanishi mumkin [ ]. Gridni uning uchlarini siljitish orqali deformatsiya qilish uning aniqligini yaxshiroq ishlatishga olib keladi. Sirtni chiqarish uchun DMTetni qabul qilish orqali biz o'zboshimcha topologiya va genusga ega aniq meshlarni ishlab chiqarishimiz mumkin. Keyin biz DMTetni qisqacha umumlashtiramiz va qo'shimcha ma'lumotlar uchun asl maqolaga murojaat qilamiz. 60 22 24 17 Agar ( ) ob'ekt joylashgan butun 3D fazoni ifodalasa, bu yerda tetraedr gridi dagi uchlaridir. Har bir tetraedr ∈ to'rtta uchdan { } iborat, bu yerda ∈ {1*, . . . , K*}, umumiy tetraedrlar soni va ∈ ∈ R3. O'zining 3D koordinatalariga qo'shimcha ravishda, har bir uchida SDF qiymati ∈ R va uning boshlang'ich kanonik koordinatasidan ∆ ∈ R3 deformatsiyasi mavjud. Ushbu vakiliyat deformatsiyalangan uchlar ′ = + ∆ dagi ularning qiymatini barysentrik interpolatsiya orqali uzluksiz fazodagi SDF qiymatlarini hisoblaydigan differensial mart simoblar orqali aniq meshni tiklash imkonini beradi. VT , T VT T Tk T v ak , v bk , v ck , v dk k K v ik VT , v ik v i si v i v v i v i si Biz 1 ∈ R512 ni har bir uchidagi SDF qiymatlari va deformatsiyalariga va ∆ ni chiqaradigan bir qator shartli 3D konvolyutsiyali va to'liq bog'langan qatlamlar orqali o'tkazamiz. Xususan, biz avval 1 ga asoslangan xususiyatlar hajmini yaratish uchun 3D konvolyutsiyali qatlamlardan foydalanamiz. Keyin biz har bir uchdan ∈ xususiyatini trilineyar interpolatsiya yordamida so'raymiz va uni SDF qiymati va deformatsiyani ∆ chiqaradigan MLP larga kiritamiz. Yuqori aniqlikda modellashtirish talab qilinadigan hollarda (masalan, g'ildiraklardagi nozik tuzilmalarga ega mototsikl), biz [ ] ga amal qilib, hajmiy bo'linishdan qo'shimcha foydalanamiz. Tarmoq Arhitekturasi w si v i w v i VT si v i 60 Barcha uchlar uchun va ∆ ni olganimizdan so'ng, biz aniq meshni chiqarish uchun differensial mart simoblar algoritmidan foydalanamiz. Mart simoblari tetraedr ichidagi sirt topologiyasini belgilariga asoslanib aniqlaydi. Xususan, mesh yuzasi sign( ) /= sign( ) bo'lganida chiqariladi, bu yerda tetraedr qirrasidagi uchlar indekslarini bildiradi, va yuzaning uchlari chiziqli interpolatsiya sifatida mi,j = v 0 i sj−v 0 j si sj−si aniqlanadi. Yuqoridagi tenglama faqat si 6= sj bo'lganida baholanadi, shuning uchun u differensialdir va mi,j dan gradient si va ∆vi SDF qiymatlariga teskari tarqatilishi mumkin. Ushbu vakiliyat bilan, o'zboshimcha topologiyaga ega shakllar si ning turli belgilarini bashorat qilish orqali osongina yaratilishi mumkin. Differensial Mesh Chiqarish si v i si si sj i, j m i,j 3.1.2 Tekstura Generatori Chiqarilgan meshga mos keladigan tekstura xaritasini to'g'ridan-to'g'ri yaratish murakkab ish emas, chunki yaratilgan shakl o'zboshimcha genus va topologiyaga ega bo'lishi mumkin. Shuning uchun biz teksturani tekstura maydoni [ ] sifatida parametrlaymiz. 50 Xususan, biz tekstura maydonini 2 ga asoslangan holda, ushbu joydagi RGB rang ∈ R3 ga 3D nuqtasi ∈ R3 ning 3D joylashuvini xaritalaydigan funksiyasi bilan modellashtiramiz. Tekstura maydoni geometriyaga bog'liq bo'lganligi sababli, biz ushbu xaritalashni geometriya latent kodi 1 ga asoslaymiz, shuning uchun = ( *,* 1 ⊕ 2), bu yerda ⊕ birlashuvni bildiradi. w c p ft w c ft p w w Biz tekstura maydonimizni tri-planar vakiliyatidan foydalangan holda ifodalaymiz, bu 3D ob'ektlarni [ ] tiklashda va 3D-ga mos tasvirlarni [ ] yaratishda samarali va ifodali. Xususan, biz [ , ] ga amal qilamiz va 1 ⊕ 2 latent kodini × × ( × 3) o'lchamdagi uchta o'qga parallel ortogonal xususiyat tekisliklariga o'tkazish uchun shartli 2D konvolyutsiyali neyron tarmog'idan foydalanamiz, bu yerda = 256 fazoviy aniqlikni va = 32 kanal sonini bildiradi. Tarmoq Arhitekturasi 55 8 8 35 w w N N C N C Xususiyat tekisliklarini hisobga olgan holda, sirt nuqtasi p ning xususiyat vektori f t ∈ R 32 P e ρ(πe(p)) sifatida tiklanishi mumkin, bu yerda πe(p) nuqta p ning xususiyat tekisligiga proektsiyasi va ρ(·) xususiyatlarning ikki chiziqli interpolatsiyasini bildiradi. Keyin qo'shimcha to'liq bog'langan qatlam f t agregat xususiyat vektorini RGB rangiga c o'tkazish uchun ishlatiladi. Shuni ta'kidlash kerakki, neyron maydon vakiliyatidan foydalanadigan 3D-ga mos tasvir sintezi bo'yicha boshqa ishlardan farqli o'laroq, biz faqat sirt nuqtalarining joylashuvida tekstura maydonini namuna olamiz (zaryad bo'ylab zich namunalarga qarshi). Bu yuqori aniqlikdagi tasvirlarni renderlash uchun hisoblash murakkabligini sezilarli darajada kamaytiradi va qurilish bo'yicha ko'p nuqtali mos keladigan tasvirlarni yaratishga kafolat beradi. 3.2 Differensial Renderlash va O'qitish O'qitish paytida modelimizni nazorat qilish uchun biz Nvdiffrec [ ] dan ilhom olamiz, u differensial renderlovchidan foydalangan holda ko'p nuqtali 3D ob'ektni tiklashni amalga oshiradi. Xususan, biz chiqarilgan 3D mesh va tekstura maydonini differensial renderlovchi [ ] yordamida 2D tasvirlarga renderlaymiz va modelimizni 2D diskriminatordan foydalangan holda nazorat qilamiz, bu esa tasvirni haqiqiy ob'ekt yoki yaratilgan ob'ektdan renderlangan deb ajratishga harakat qiladi. 47 37 Biz tasvirlar to'plamidan tasvirlarni olish uchun ishlatilgan kamera distributsiyasi C ma'lum ekanligini taxmin qilamiz. Yaratilgan shakllarni renderlash uchun biz C dan kamerani tasodifiy tanlaymiz va chiqarilgan 3D meshni 2D siluetga, shuningdek, har bir pikselda mesh yuzasidagi mos keladigan 3D nuqtasining koordinatalarini o'z ichiga olgan tasvirga renderlash uchun yuqori darajada optimallashtirilgan differensial rasterizator Nvdiffrast [ ] dan foydalanamiz. Ushbu koordinatalar RGB qiymatlarini olish uchun tekstura maydonini so'rash uchun qo'shimcha ishlatiladi. Chiqarilgan mesh bilan to'g'ridan-to'g'ri ish olib borishimiz sababli, biz yuqori samaradorlik bilan yuqori aniqlikdagi tasvirlarni renderlashimiz mumkin, bu esa modelimizni 1024 × 1024 gacha bo'lgan tasvir aniqligida o'qitishga imkon beradi. Differensial Renderlash 37 Biz modelimizni dushmanga o'xshash maqsad bilan o'qitamiz. Biz StyleGAN [ ] dan diskriminator arhitekturasini qabul qilamiz va R1 regulyarizatsiyasi [ ] bilan bir xil nomutanosib GAN maqsadidan foydalanamiz. Empirik ravishda ikkita alohida diskriminatordan foydalanish, biri RGB tasvirlari uchun, ikkinchisi esa siluetlar uchun, ikkalasida ham ishlaydigan bitta diskriminatordan yaxshiroq natijalar berishini aniqladik. Keling, diskriminatorni belgilaylik, bu yerda RGB tasvir yoki siluet bo'lishi mumkin. Dushmanga o'xshash maqsad quyidagicha aniqlanadi: Diskriminator va Maqsad 34 42 Dx x bu yerda ( ) ( ) = − log(1 +exp(− )) sifatida aniqlanadi, haqiqiy tasvirlar distributsiyasi, renderlashni bildiradi va giperparametr hisoblanadi. differensial bo'lganligi sababli, gradientlar 2D tasvirlardan 3D generatorlarimizga teskari tarqatilishi mumkin. g u g u u px R λ R Har qanday ko'rinishda ko'rinmaydigan ichki suzuvchi yuzalarni olib tashlash uchun biz qo'shimcha ravishda qo'shni uchlarining SDF qiymatlari orasidagi xoch-entropiya yo'qotishi bilan geometriya generatorini tartibga solamiz [ ]: Regulyarizatsiya 47 bu yerda ikkilik xoch-entropiya yo'qotishini va sigmoid funksiyasini bildiradi. Eq. dagi yig'indi tetraedr grididagi noyob qirralar S to'plamida aniqlanadi, bu yerda sign( ) /= sign( ). H σ 2 e si sj Umumiy yo'qotish funksiyasi quyidagicha aniqlanadi: bu yerda regulyarizatsiya darajasini nazorat qiluvchi giperparametr hisoblanadi. µ 4 Tajribalar Biz modelimizni baholash uchun keng qamrovli tajribalar o'tkazamiz. Birinchidan, biz GET3D tomonidan yaratilgan 3D to'qimali meshlarning sifatini ShapeNet [ ] va Turbosquid [ ] ma'lumotlar to'plamlari yordamida mavjud usullar bilan taqqoslaymiz. Keyin, biz 4.2-bo'limda dizayn tanlovlarimizni qisqartiramiz. Nihoyat, biz 4.3-bo'limda GET3D ning moslashuvchanligini keyingi ilovalarga moslashtirish orqali namoyish etamiz. Qo'shimcha tajriba natijalari va dasturiy tafsilotlar Ilovada keltirilgan. 9 4 4.1 Sintetik Ma'lumotlar To'plamlarida Tajribalar ShapeNet [ ] da baholash uchun biz murakkab geometriyaga ega uchta toifadan foydalanamiz – , va , ular mos ravishda 7497, 6778 va 337 shakllarni o'z ichiga oladi. Biz har bir toifani tasodifiy ravishda o'quv (70%), validatsiya (10%) va test (20%) ga ajratamiz va test to'plamidan o'quv to'plamida dublikatlarga ega bo'lgan shakllarni olib tashlaymiz. O'quv ma'lumotlarini renderlash uchun biz har bir shaklning yuqori yarim shardan tasodifiy kamera pozitsiyalarini tanlaymiz. va toifalari uchun biz 24 ta tasodifiy ko'rinishdan, uchun esa shakllar soni kamligi sababli 100 ta ko'rinishdan foydalanamiz. ShapeNetdagi modellar faqat oddiy teksturalarga ega bo'lganligi sababli, biz GET3D ni Turbosquid [ ] dan olingan ma'lumotlar to'plamida (442 ta shakl) ham baholaymiz, bu yerda teksturalar batafsilroq va uni yuqorida belgilangan tartibda o'quv, validatsiya va testga ajratamiz. Nihoyat, GET3D ning ko'p qirraliligini namoyish qilish uchun biz Turbosquid (563 ta shakl) dan olingan ma'lumotlar to'plami va Renderpeople [ ] dan ma'lumotlar to'plami (500 ta shakl) bo'yicha sifatli natijalarni ham taqdim etamiz. Biz har bir toifa uchun alohida modelni o'rgatamiz. Ma'lumotlar To'plamlari 9 Avtomobil Stul Mototsikl Avtomobil Stul Mototsikl 4 Hayvonlar Uy 2 Inson tanasi Biz GET3D ni ikki guruh ishlar bilan taqqoslaymiz: 3D nazoratiga tayanadigan 3D generativ modellar: PointFlow [ ] va OccNet [ ]. Shuni ta'kidlash kerakki, bu usullar faqat geometriyani teksturasiz yaratadi. 3D ga mos tasvir generatsiyasi usullari: GRAF [ ], PiGAN [ ], va EG3D [ ]. Asosiy Usullar 1) 68 43 2) 57 7 8 Sintez sifatimizni baholash uchun biz geometriya va tekstura sifatini hisobga olamiz. Geometriya uchun biz dan metrikalarni qabul qilamiz va Coverage ballini va Minimum Matching Distance ni hisoblash uchun Chamfer Distance (CD) va Light Field Distance [ ] (LFD) dan foydalanamiz. OccNet [ ], GRAF [ ], PiGAN [ ] va EG3D [ ] uchun biz asosiy geometriyani chiqarish uchun mart kublarini ishlatamiz. LFD ni baholashda nuqta bulutini meshga aylantirish uchun Poisson sirt tiklashdan foydalanamiz. Tekstura sifatini baholash uchun biz tasvir sintezini baholash uchun keng ishlatiladigan FID [ ] metrikasini qabul qilamiz. Xususan, har bir toifa uchun biz test shakllarini 2D tasvirlarga renderlaymiz va shuningdek, har bir modeldan yaratilgan 3D shakllarni bir xil kamera distributsiyasidan foydalangan holda 50 ming tasvirga renderlaymiz. Keyin biz ikkita tasvir to'plamida FID ni hisoblaymiz. 3D ga mos tasvir sintezi dan asosiy usullar to'qimali meshlarni to'g'ridan-to'g'ri chiqaradigan usullar bo'lmaganligi sababli, biz FID ballini ikki usulda hisoblaymiz: ( ) biz ularning neyron hajmiy renderlashdan foydalangan holda 2D tasvirlarni olamiz, bu FID-Ori deb ataladi, va ( ) biz ularning neyron maydon vakiliyatidan mart kublar yordamida meshni chiqarib, uni renderlaymiz va keyin har bir pikselning 3D joylashuvidan foydalanib tarmoqdan RGB qiymatlarini olamiz. Haqiqiy 3D shaklni ko'proq biladigan ushbu ballni FID-3D deb ataymiz. Baholash metrikalari haqida qo'shimcha ma'lumotlar Ilovada B.3 qismida mavjud. Metrikalar 10 43 57 7 8 28 i ii Miqdoriy natijalarni 9-jadvolda. va sifatli misollarni 3-rasmda. va 12-rasmda. keltiramiz. Qo'shimcha natijalar qo'shimcha videoda mavjud. OccNet [ ] bilan taqqoslaganda, u o'qitish paytida 3D nazoratidan foydalanadi, GET3D diversifikatsiya (COV) va sifat (MMD) bo'yicha yaxshiroq natijalarga erishadi va bizning yaratgan shakllarimizda ko'proq geometrik detallar mavjud. Tajriba Natijalari 2 3 4 43 PointFlow [ ] CD bo'yicha MMD bo'yicha GET3D dan ustun, ammo GET3D LFG bo'yicha MMD da yaxshiroq. Biz buni PointFlow to'g'ridan-to'g'ri nuqta joylashuvlari bo'yicha optimallashtirilganligi sababli, CD ni afzal ko'radi deb taxmin qilamiz. GET3D shuningdek, 3D-ga mos tasvir sintezi usullari bilan taqqoslaganda yaxshi natijalarga erishadi, biz PiGAN [ ] va GRAF [ ] dan barcha metrikalar bo'yicha barcha ma'lumotlar to'plamlarida sezilarli yaxshilanishlarga erishdik. Bizning yaratgan shakllarimizda ko'proq detallangan geometriya va tekstura mavjud. EG3D [ ] ga nisbatan. Biz 2D tasvirlarni yaratishda (FID-ori) taqqoslanadigan natijalarga erishdik, shu bilan birga FID-3D bo'yicha 3D shakl sintezida sezilarli yaxshilanishlarga erishdik, bu esa modelimizning haqiqiy 3D geometri va teksturani o'rganishdagi samaradorligini ko'rsatadi. 68 7 57 8 Biz to'qimali meshlarni sintez qilganimiz sababli, biz shakllarimizni Blenderga eksport qilishimiz mumkin . Biz renderlash natijalarini 1-rasmda. va 5-rasmda. keltiramiz. GET3D xilma-xil va yuqori sifatli geometriya va topologiyaga ega shakllarni, juda yupqa tuzilmalarni (mototsikllar), shuningdek, avtomobillar, hayvonlar va uylardagi murakkab teksturalarni yaratishga qodir. 1 1 5 GET3D, shuningdek, tahrirlash maqsadlari uchun foydali bo'lishi mumkin bo'lgan shakl interpolatsiyasini ham ta'minlaydi. Biz 6-rasmdagi. GET3D ning latent fazosini o'rganamiz, bu yerda biz har bir shaklni chapdan o'ngga yaratish uchun latent kodlarni interpolatsiya qilamiz. GET3D bir shakldan boshqasiga silliq va mazmunli o'tishni ishonchli yaratishga qodir. Biz latent kodlarni tasodifiy yo'nalishda ozgina o'zgartirib, mahalliy latent fazoni yanada o'rganamiz. GET3D latent fazoda mahalliy tahrirni qo'llashda yangi va xilma-xil shakllarni ishlab chiqaradi (7-rasm. ). Shakl Interpolatsiyasi 6 7 4.2 Ablyatsiyalar Biz modelimizni ikki usul bilan qisqartiramiz: hajmiy bo'linish bilan va bo'linishsiz, turli tasvir aniqliklarida o'qitish. Qo'shimcha ablyatsiyalar Ilovada C.3 qismida keltirilgan. 1) 2) 2-jadvolda ko'rsatilganidek. , hajmiy bo'linish nozik tuzilmalarga ega toifalar (masalan, mototsikllar) uchun samaradorlikni sezilarli darajada oshiradi, boshqa toifalar uchun esa foyda keltirmaydi. Biz boshlang'ich tetraedr aniqligi Stullar va Avtomobillar uchun batafsil geometriyani qamrab olish uchun allaqachon etarli deb taxmin qilamiz va shuning uchun bo'linish qo'shimcha yaxshilanishlarni ta'minlay olmaydi. Hajmiy Bo'linishning Ablatsiyasi 2 Turli Tasvir Aniqliklarini Ablatsiyalash Biz o'qitish tasvir aniqligining ta'sirini 3-jadvolda qisqartiramiz. . Kutilganidek, tasvir aniqligining oshishi FID va shakl sifati bo'yicha samaradorlikni oshiradi, chunki tarmoq ko'proq detallarni ko'ra oladi, ular ko'pincha past aniqlikdagi tasvirlarda mavjud emas. Bu yuqori aniqlikdagi tasvirlar bilan o'qitishning muhimligini tasdiqlaydi, ular ko'pincha yashirin asosidagi usullar uchun foydalanish qiyin. 3 4.3 Ilovalar 4.3.1 Ko'rinishga Bog'liq Yoritish Effektlari uchun Material Yaratish GET3D zamonaviy grafika mexanizmlarida to'g'ridan-to'g'ri ishlatilishi mumkin bo'lgan sirt materiallarini yaratish uchun ham osongina kengaytirilishi mumkin. Xususan, biz keng tarqalgan Disney BRDF [ , ] ga amal qilamiz va materiallarni asosiy rang (R3), metall (R) va dag'allik (R) xususiyatlari bo'yicha tasvirlaymiz. Natijada, biz tekstura generatorimizni faqat RGB emas, balki 5-kanalli aks ettirish maydonini chiqarish uchun qayta ishlatamiz. Materiallarning differensial renderlanishini qo'llash uchun biz samarali sharoitli Gauss (SG) ga asoslangan kechiktirilgan renderlash quvur liniyasidan [ ] foydalanamiz. Xususan, biz aks ettirish maydonini G-buffer ga rasterlashtiramiz va haqiqiy dunyo tashqi HDR panoramalarining to'plamidan tasodifiy HDR tasvirni Slight = { } tanlaymiz, bu yerda ∈ R32×7 har bir panoramasiga 32 SG loblarini moslashtirish orqali olinadi. SG renderlovchisi [ ] kamera dan foydalanib, ko'rinishga bog'liq yoritish effektlari bilan RGB tasvirni renderlaydi, uni biz o'qitish paytida diskriminatorga kiritamiz. Shuni ta'kidlash kerakki, GET3D o'qitish paytida material nazoratini talab qilmaydi va materiallarni nazoratsiz ravishda ajratishni o'rganadi. 6 32 12 LSG K LSG 12 c Yaratilgan sirt materiallarining sifatli natijalarini 19-rasmda. keltiramiz. Nazoratsiz bo'lishiga qaramay, GET3D qiziqarli material ajratishni kashf etadi, masalan, oynalar avtomobil kuzoviga qaraganda kamroq dag'allik qiymatiga ega bo'lishi uchun to'g'ri bashorat qilinadi va avtomobil kuzovi ko'proq dielektrik sifatida, deraza esa ko'proq metall sifatida kashf etiladi. Yaratilgan materiallar bizga turli yoritish sharoitida murakkab yorqin effektlarni hisobga oladigan real relighting natijalarini ishlab chiqarishga imkon beradi. 8 4.3.2 Matn Nazoratidagi 3D Sintez Tasvir GANlariga o'xshash tarzda, GET3D shuningdek, CLIP [ ] nazoratida oldindan o'qitilgan modelni qayta sozlash orqali matn nazoratidagi 3D kontent sintezini qo'llab-quvvatlaydi. Shuni ta'kidlash kerakki, bizning yakuniy sintez natijamiz to'qimali 3D mesh hisoblanadi. Buning uchun biz styleGAN-NADA [ ] dan ikkita generator dizayniga amal qilamiz, bu yerda oldindan o'qitilgan generatorning o'zgaruvchan nusxasi va muzlatilgan nusxasi qabul qilinadi. Optimizatsiya paytida va ikkalasi ham 16 ta tasodifiy kamera ko'rinishidan tasvirlarni renderlaydi. Matn so'rovi berilgan bo'lsa, biz 500 juft shovqin vektorlari 1 va 2 ni tanlaymiz. Har bir namuna uchun biz ning parametrlarni yo'naltirilgan CLIP yo'qotishini [ ] kamaytirish uchun optimallashtiramiz (asosiy matn yorliqlari mos keladigan toifalar uchun "avtomobil", "hayvon" va "uy" dir) va eng kichik yo'qotishga ega namunalarini tanlaymiz. Ushbu jarayonni tezlashtirish uchun biz avval 500 ta namunalar uchun kichik miqdordagi optimallashtirish qadamlarini bajaramiz, keyin eng past yo'qotishga ega eng yaxshi 50 ta namuna tanlaymiz va 300 ta qadam uchun optimallashtirishni bajaramiz. Natijalar va SOTA matn yo'nalishidagi mesh stilizatsiyasi usuli, Text2Mesh [ ] bilan taqqoslaganda 9-rasmda. keltirilgan. Shuni ta'kidlash kerakki, usul uchun shaklning meshini usulga kirish sifatida talab qiladi. Biz muzlatilgan generatordan yaratilgan meshlarimizni unga kirish meshlari sifatida taqdim etamiz. U mesh uchlarining zich bo'lishini talab qiladi, chunki u vertex deformatsiyalari bilan sirt detallarini sintez qilish uchun, biz kirish meshlarini o'rtacha 50k-150k uchlarga ega bo'lishini ta'minlash uchun o'rtacha nuqta bo'linishini qo'llagan holda qo'shimcha ravishda bo'linamiz. 56 21 Gt Gf Gt Gf z z Gt 21 44 9 5 Xulosa Biz GET3D, o'zboshimcha topologiyaga ega yuqori sifatli 3D to'qimali meshlarni sintez qila oladigan noyob 3D generativ modelini taqdim etdik. GET3D faqat 2D tasvirlarni nazorat sifatida ishlatgan holda o'qitiladi. Biz tajribalar orqali ko'p toifalar bo'yicha avvalgi davlat-san'at usullaridan ustun 3D shakllarni yaratishda sezilarli yaxshilanishlarni namoyish etdik. Biz ushbu ish sun'iy intellekt yordamida 3D kontent yaratishni demokratlashtirishga bir qadam yaqinlashtiradi degan umiddamiz. GET3D 3D to'qimali shakllarning amaliy foydali 3D generativ modeliga qarab sezilarli qadam tashlagan bo'lsa-da, u hali ham ba'zi cheklovlarga ega. Xususan, biz o'qitish paytida hali ham 2D siluetlar va kamera distributsiyasi haqidagi bilimlariga tayanar edik. Natijada, GET3D hozircha faqat sintetik ma'lumotlar bo'yicha baholangan. Istiqbolli kengaytirish ushbu muammoni hal qilish va GET3D ni haqiqiy dunyo ma'lumotlariga kengaytirish uchun misolni segmentatsiyalash va kamera pozitsiyasini baholash bo'yicha yangiliklardan foydalanishi mumkin. GET3D ham toifa bo'yicha o'qitiladi; kelajakda uni ko'p toifalarga kengaytirish, toifalararo diversifikatsiyani yaxshiroq ifodalashga yordam berishi mumkin. Cheklovlar Biz zamonaviy grafika mexanizmlariga osongina import qilinishi mumkin bo'lgan 3D to'qimali meshlarni yaratadigan noyob 3D generativ modelini taklif qildik. Modelimiz o'zboshimcha topologiya, yuqori sifatli teksturalar va boy geometrik detallarga ega shakllarni yaratishga qodir, bu sun'iy intellekt vositasi uchun 3D kontent yaratishni demokratlashtirish yo'lini ochib beradi. Barcha mashhur o'quv modellari singari, GET3D ham o'quv ma'lumotlarida kiritilgan moyilliklarga moyil. Shuning uchun, 3D inson tanasi kabi nozik ilovalar bilan ishlayotganda ehtiyotkorlik bilan harakat qilish kerak, chunki GET3D bu ilovalar uchun moslashtirilmagan. Biz GET3D ni maxfiylik yoki xatoli tan olinish potentsial noto'g'ri foydalanishga yoki boshqa zararli ilovalarga olib kelishi mumkin bo'lsa, undan foydalanishni tavsiya etmaymiz. Buning o'rniga, biz mutaxassislarni ushbu modelni o'qitishdan oldin ma'lumotlar to'plamlarini diqqat bilan tekshirish va moyillikni bartaraf etishga undaymiz, bu mumkin bo'lgan teri ranglari, irqlari yoki jinsiy identifikatorlarining adolatli va keng taqsimotini tasvirlash uchun. Kengroq Ta'sir 6 Moliyalashtirishni Ochib Berish Ushbu ish NVIDIA tomonidan moliyalashtirilgan. Jun Gao, Tianchang Shen, Zian Wang va Wenzheng Chen Toronto universiteti va Vektor institutidan talabalar stipendiyalari shaklidagi qo'shimcha daromadni tan oladilar, bu ushbu ishni to'g'ridan-to'g'ri qo'llab-quvvatlamaydi. Manbalar Autodesk Maya, . Kirish: 2022-05-19. https://www.autodesk.com/products/maya/overview Renderpeople, . Kirish: 2022-05-19. http://https://renderpeople.com/ Sketchfab, . Kirish: 2022-05-19. https://sketchfab.com/ Turbosquid by Shutterstock, . Kirish: 2022-05-19. https://www.turbosquid.com/ Panos Achlioptas, Olga Diamanti, Ioannis Mitliagkas, va Leonidas Guibas. 3d nuqta bulutlari uchun vakiliyatlar va generativ modellar o'rganish. , sah. 40–49. PMLR, 2018. Machine Learning xalqaro konferensiyasi Brent Burley va Walt Disney Animation Studios. Disneydagi jismoniy asoslangan soyalash. , jild. 2012, sah. 1–7. jild. 2012, 2012. ACM SIGGRAPH Eric Chan, Marco Monteiro, Petr Kellnhofer, Jiajun Wu, va Gordon Wetzstein. pi-gan: 3D-ga mos tasvir sintezi uchun davriy yashirin generativ qarama-qarshi tarmoqlar. , 2021. CVPR jarayoni Eric R Chan, Connor Z Lin, Matthew A Chan, Koki Nagano, Boxiao Pan, Shalini De Mello, Orazio Gallo, Leonidas J Guibas, Jonathan Tremblay, Sameh Khamis va boshqalar. Samarali geometriyaga mos 3D generativ qarama-qarshi tarmoqlar. , sah. 16123–16133, 2022. Kompyuter ko'rinishi va naqshni aniqlash bo'yicha IEEE/CVF konferensiyasi materiallari Angel X Chang, Thomas Funkhouser, Leonidas Guibas, Pat Hanrahan, Qixing Huang, Zimo Li, Silvio Savarese, Manolis Savva, Shuran Song, Hao Su va boshqalar. ShapeNet: ma'lumotga boy 3d model ombori. , 2015. arXiv preprint arXiv:1512.03012