```html Waandishi: Jun Gao, NVIDIA, Chuo Kikuu cha Toronto, Taasisi ya Vector (jung@nvidia.com) Tianchang Shen, NVIDIA, Chuo Kikuu cha Toronto, Taasisi ya Vector (frshen@nvidia.com) Zian Wang, NVIDIA, Chuo Kikuu cha Toronto, Taasisi ya Vector (zianw@nvidia.com) Wenzheng Chen, NVIDIA, Chuo Kikuu cha Toronto, Taasisi ya Vector (wenzchen@nvidia.com) Kangxue Yin, NVIDIA (kangxuey@nvidia.com) Daiqing Li, NVIDIA (daiqingl@nvidia.com) Or Litany, NVIDIA (olitany@nvidia.com) Zan Gojcic, NVIDIA (zgojcic@nvidia.com) Sanja Fidler, NVIDIA, Chuo Kikuu cha Toronto, Taasisi ya Vector (sfidler@nvidia.com) Muhtasari Wakati viwanda kadhaa vinahamia katika kuunda ulimwengu mkuu wa 3D, hitaji la zana za kuunda bidhaa zinazoweza kuongezeka kwa wingi, ubora, na utofauti wa bidhaa za 3D linaonekana wazi. Katika kazi yetu, tunalenga kufundisha mifumo ya uzalishaji ya 3D yenye utendaji mzuri ambayo huunda nyavu zenye maandishi ambazo zinaweza kutumiwa moja kwa moja na injini za utoaji wa 3D, hivyo basi zinaweza kutumiwa mara moja katika programu zinazofuata. Kazi za awali kwenye uundaji wa 3D kwa ujumla hazina maelezo ya kijiometri, zimepunguzwa kwa topolojia ya nyavu wanazoweza kuzalisha, kwa kawaida haziungi mkono maandishi, au hutumia viendeleshi vya neural katika mchakato wa awali, ambao hufanya matumizi yao katika programu za kawaida za 3D kuwa si rahisi. Katika kazi hii, tunatambulisha GET3D, mfumo wa enerative unaozalisha moja kwa moja xplicit extured meshes na topolojia tata, maelezo ya kina ya kijiometri, na maandishi ya juu ya uaminifu. Tunajumuisha mafanikio ya hivi karibuni katika uundaji wa nyuso zinazoweza kutofautishwa, utoaji wa picha unaoweza kutofautishwa, na pia Mifumo ya Picha ya 2D (GANs) ili kufundisha mfumo wetu kutoka kwa makusanyo ya picha za 2D. GET3D ina uwezo wa kuzalisha nyavu za maandishi za 3D za ubora wa juu, kuanzia magari, viti, wanyama, pikipiki na wahusika wa binadamu hadi majengo, na kufikia maboresho makubwa juu ya mbinu za awali. Ukurasa wetu wa mradi: G E T 3D https://nv-tlabs.github.io/GET3D 1 Utangulizi Bidhaa za 3D zenye ubora wa juu na tofauti zinazidi kuwa muhimu kwa tasnia kadhaa, pamoja na michezo, roboti, usanifu, na majukwaa ya kijamii. Hata hivyo, uundaji wa mali za 3D kwa mikono unachukua muda mrefu sana na unahitaji maarifa maalum ya kiufundi na ujuzi wa kuunda kisanii. Moja ya changamoto kuu ni hivyo kiwango - wakati mtu anaweza kupata miundo ya 3D kwenye masoko ya 3D kama vile Turbosquid [ ] au Sketchfab [ ], kuunda miundo mingi ya 3D ili, sema, kuijaza mchezo au filamu na kundi la wahusika ambao wote wanaonekana tofauti bado huchukua muda mwingi wa msanii. 4 3 Ili kuwezesha mchakato wa uundaji wa bidhaa na kuufanya upatikane kwa watumiaji mbalimbali (wapya), mitandao ya 3D ya uzalishaji ambayo inaweza kuzalisha bidhaa za 3D za ubora wa juu na tofauti imekuwa eneo la utafiti hai hivi karibuni [ , , , , , , , , , , ]. Hata hivyo, ili ziwe na manufaa kwa programu halisi za dunia, mifumo ya uzalishaji ya 3D inapaswa kutimiza mahitaji yafuatayo: Zinapaswa kuwa na uwezo wa kuzalisha maumbo yenye maelezo ya kina ya kijiometri na topolojia yoyote, Matokeo yanapaswa kuwa nyavu zenye maandishi, ambayo ni mwakilishi mkuu unaotumiwa na vifaa vya kawaida vya programu za picha kama vile Blender [ ] na Maya [ ], na Tunapaswa kuweza kutumia picha za 2D kwa usimamizi, kwani zinapatikana zaidi kuliko maumbo halisi ya 3D. 5 14 43 46 53 68 75 60 59 69 23 (a) (b) 15 1 (c) Kazi za awali kwenye uundaji wa 3D kwa ujumla zimejikita kwenye sehemu ndogo za mahitaji hapo juu, lakini hakuna njia hadi sasa inayotimiza yote (Jed. ). Kwa mfano, mbinu zinazozalisha mawingu ya pointi za 3D [ , 68, 75] kwa kawaida hazizalishi maandishi na lazima zibadilishwe kuwa nyavu baada ya mchakato. 1 5 Mbinu zinazozalisha voxels mara nyingi hukosa maelezo ya kijiometri na haizalishi maandishi [ , , , ]. Mifumo ya uzalishaji inayotokana na nyanja za neural [ , ] hujikita katika kutoa jiometri lakini hupuuza maandishi. Nyingi ya hizi pia zinahitaji usimamizi wa 3D. Mwishowe, mbinu zinazotoa moja kwa moja nyavu za 3D zenye maandishi [ , ] kwa kawaida zinahitaji templeti za maumbo zilizofafanuliwa awali na haziwezi kuzalisha maumbo yenye topolojia tata na aina mbalimbali. 66 20 27 40 43 14 54 53 Hivi karibuni, maendeleo ya haraka katika utoaji wa kiasi cha neural [ ] na Mifumo ya Picha ya 2D (GANs) [ , , , , ] yamesababisha kuongezeka kwa uzalishaji wa picha unaojua 3D [ , , , , , ]. Hata hivyo, mstari huu wa kazi unalenga kuzalisha picha zinazoendana na maoni mengi kwa kutumia utoaji wa picha wa neural katika mchakato wa uzalishaji na hauhakikishi kuwa maumbo ya 3D yenye maana yanaweza kuzalishwa. Wakati nyavu zinaweza kupatikana kutoka kwa uwakilishi wa nyanja ya neural inayotumika kwa algorithm ya cubes za kupanda [ ], kutoa maandishi yanayolingana si rahisi. 45 34 35 33 29 52 7 57 8 49 51 25 39 Katika kazi hii, tunatambulisha mbinu mpya inayolenga kushughulikia mahitaji yote ya mfumo wa uzalishaji wa 3D unaofaa. Hasa, tunatambulisha GET3D, mfumo wa enerative kwa maumbo ya 3D unaotoa moja kwa moja xplicit extured meshes na maelezo ya juu ya kijiometri na maandishi na topolojia yoyote ya nyavu. Katikati ya mbinu yetu ni mchakato wa uzalishaji unaotumia njia ya uondoaji wa nyuso ya inayoweza kutofautishwa [ ] na mbinu ya utoaji wa picha inayoweza kutofautishwa [ , ]. Ya kwanza inatuwezesha kuweka na kutoa moja kwa moja nyavu za 3D zenye maandishi na topolojia yoyote, wakati ya pili inatuwezesha kufundisha mfumo wetu kwa picha za 2D, hivyo kutumia vizuri vizindua vyenye nguvu na kukomaa kwa ajili ya uzalishaji wa picha za 2D. Kwa kuwa mfumo wetu unazalisha moja kwa moja nyavu na unatumia kiendeleshi cha picha cha 3D chenye ufanisi (kinachoweza kutofautishwa), tunaweza kuongeza kwa urahisi mfumo wetu ili kufundisha na picha G E T 3D wazi 60 47 37 azimio hadi 1024 × 1024, ikituruhusu kujifunza maelezo ya juu ya kijiometri na maandishi. Tunaonyesha utendaji wa hali ya juu kwa ajili ya uzalishaji wa maumbo ya 3D bila masharti kwenye makundi mengi yenye jiometri tata kutoka ShapeNet [ ], Turbosquid [ ] na Renderpeople [ ], kama vile viti, pikipiki, magari, wahusika wa binadamu, na majengo. Kwa uwakilishi wa wazi wa nyavu kama matokeo, GET3D pia ni rahisi sana na inaweza kuendeshwa kwa urahisi kwa kazi zingine, pamoja na: kujifunza kuzalisha mali za nyuso zilizogawanywa na athari za taa zinazotegemea mtazamo kwa kutumia utoaji wa picha unaoweza kutofautishwa [ ], bila usimamizi, uzalishaji wa maumbo ya 3D unaoongozwa na maandishi kwa kutumia CLIP [ ] embedding. 9 4 2 (a) 12 (b) 56 2 Kazi Zinazohusiana Tunapitia maendeleo ya hivi karibuni katika mifumo ya uzalishaji ya 3D kwa jiometri na mwonekano, na pia uzalishaji wa picha unaojua 3D. Katika miaka ya hivi karibuni, mifumo ya uzalishaji ya 2D imefikia ubora wa kweli katika uzalishaji wa picha zenye azimio la juu [ , , , , , , ]. Maendeleo haya yamechochea utafiti katika uzalishaji wa bidhaa za 3D. Mbinu za awali zililenga kupanua moja kwa moja vizalishi vya CNN vya 2D kwa gridi za voxel za 3D [ , , , , ], lakini kiwango cha juu cha kumbukumbu na ugumu wa hesabu wa convolutions za 3D unazuia mchakato wa uzalishaji kwa azimio la juu. Kama mbadala, kazi zingine zimechunguza mawingu ya pointi [ , , , ], miundo ya ndani [ , ], au miundo ya octree [ ]. Hata hivyo, kazi hizi hujikita zaidi katika kuzalisha jiometri na kupuuza mwonekano. Miundo yao ya matokeo pia inahitaji kuchakatwa zaidi ili kufanya iwe sambamba na injini za kawaida za picha. Mifumo ya Uzalishaji ya 3D 34 35 33 52 29 19 16 66 20 27 40 62 5 68 75 46 43 14 30 Zaidi ya karibu na kazi yetu, Textured3DGAN [ , ] na DIBR [ ] huzalisha nyavu za 3D zenye maandishi, lakini huunda uzalishaji kama mabadiliko ya nyavu ya templeti, ambayo inazuia kuzalisha topolojia tata au maumbo yenye aina mbalimbali, ambayo njia yetu inaweza kufanya. PolyGen [ ] na SurfGen [ ] wanaweza kuzalisha nyavu zenye topolojia yoyote, lakini hawaletoi maandishi. 54 53 11 48 41 Ulihamasishwa na mafanikio ya utoaji wa kiasi cha neural [ ] na miundo ya ndani [ , ], kazi ya hivi karibuni ilianza kushughulikia tatizo la uzalishaji wa picha unaojua 3D [ , , , , , , , , , ]. Hata hivyo, mitandao ya utoaji wa kiasi cha neural huwa polepole kuuliza, ikisababisha muda mrefu wa mafunzo [ , ], na kuzalisha picha za azimio la mdogo. GIRAFFE [ ] na StyleNerf [ ] huboresha ufanisi wa mafunzo na utoaji wa picha kwa kufanya utoaji wa picha wa neural kwa azimio la chini na kisha kupanua matokeo na CNN ya 2D. Hata hivyo, faida ya utendaji huja kwa gharama ya kupunguzwa kwa maelewano ya maoni mengi. Kwa kutumia vizindua viwili, EG3D [ ] inaweza kupunguza tatizo hili kwa sehemu. Hata hivyo, kutoa uso wenye maandishi kutoka kwa mbinu zinazotegemea utoaji wa picha wa neural ni kazi ngumu. Kinyume chake, GET3D hutoa moja kwa moja nyavu za 3D zenye maandishi ambazo zinaweza kutumiwa kwa urahisi katika injini za kawaida za picha. Uzalishaji wa Picha Unaojua 3D 45 43 14 7 57 49 26 25 76 8 51 58 67 7 57 49 25 8 3 Njia Sasa tunawasilisha mfumo wetu wa GET3D kwa ajili ya kuzalisha maumbo ya 3D yenye maandishi. Mchakato wetu wa uzalishaji umegawanywa katika sehemu mbili: tawi la jiometri, ambalo kwa kutofautisha hutoa nyavu za uso za topolojia yoyote, na tawi la maandishi ambalo hutoa nyanja ya maandishi ambayo inaweza kuulizwa katika pointi za uso ili kutoa rangi. Ya mwisho inaweza kupanuliwa kwa sifa zingine za uso kama vile, kwa mfano, vifaa (Sehemu. ). Wakati wa mafunzo, kiendeleshi cha picha chenye ufanisi kinachoweza kutofautishwa kinatumika kutoa nyavu za maandishi zilizotolewa kwenye picha za 2D zenye azimio la juu. Mchakato mzima unaweza kutofautishwa, kuruhusu mafunzo ya ushindani kutoka kwa picha (na vinyago vinavyoonyesha kitu kinachovutiwa) kwa kusambaza gradients kutoka kwa vizindua vya 2D hadi matawi yote ya vizalishaji. Mfumo wetu umeonyeshwa katika Mch. . Katika yafuatayo, kwanza tunatambulisha vizalishaji vyetu vya 3D katika Sehemu , kabla ya kuendelea na utoaji wa picha unaoweza kutofautishwa na kazi za hasara katika Sehemu . 4.3.1 2 3.1 3.2 3.1 Mzalishaji wa Mifumo ya 3D Yenye Maandishi Tunalenga kujifunza vizalishaji vya 3D = ( ) kuunda sampuli kutoka usambazaji wa Gaussian M, E G z ∈ N (0*,* ) hadi nyavu na maandishi . z I M E Kwa kuwa jiometri sawa inaweza kuwa na maandishi tofauti, na maandishi sawa yanaweza kutumika kwa jiometri tofauti, tunachukua sampuli za vekta mbili za pembejeo 1 ∈ R512 na 2 ∈ R512. Kufuatia StyleGAN [ , , ], tunatumia mitandao ya ramani isiyo ya mstari geo na tex kuunda 1 na 2 hadi vekta za siri za kati 1 = geo( 1) na 2 = tex( 2) ambazo hutumiwa zaidi kutoa inayodhibiti uzalishaji wa maumbo ya 3D na maandishi, kwa mtiririko huo. Tunatoa rasmi vizalishaji kwa ajili ya jiometri katika Sehemu. na vizalishaji vya maandishi katika Sehemu. . z z 34 35 33 f f z z w f z w f z mitindo 3.1.1 3.1.2 3.1.1 Mzalishaji wa Jiometri Tunatengeneza mzalishaji wetu wa jiometri ili kujumuisha DMTet [ ], uwakilishi wa uso unaotofautishwa uliopendekezwa hivi karibuni. DMTet huwakilisha jiometri kama uwanja wa umbali wenye ishara (SDF) uliofafanuliwa kwenye gridi ya tetrahedral inayoweza kubadilika [ , ], ambayo uso unaweza kurejeshwa kwa kutofautisha kupitia uondoaji wa tetrahedra [ ]. Kubadilisha gridi kwa kusonga vertices zake husababisha matumizi bora ya azimio lake. Kwa kutumia DMTet kwa uondoaji wa uso, tunaweza kuzalisha nyavu wazi na topolojia na jenasi yoyote. Ifuatayo tunatoa muhtasari mfupi wa DMTet na kumrejelea msomaji kwa karatasi asili kwa maelezo zaidi. 60 22 24 17 Wacha ( ) iwakilishe nafasi kamili ya 3D ambayo kitu kiko ndani, ambapo ni vertices katika gridi ya tetrahedral . Kila tetrahedron ∈ hufafanuliwa kwa kutumia vertices nne { }, na ∈ {1*, . . . , K*}, ambapo ni jumla ya idadi ya tetrahedra, na ∈ ∈ R3. Mbali na kuratibu zake za 3D, kila vertex ina thamani ya SDF ∈ R na deformation ∆ ∈ R3 ya vertex kutoka kuratibu zake za canonical za awali. Uwakilishi huu unaruhusu kurejesha nyavu wazi kupitia uondoaji wa tetrahedra unaoweza kutofautishwa [ ], ambapo maadili ya SDF katika nafasi inayoendelea huhesabiwa kwa interpolesheni ya barycentric ya thamani yao kwenye vertices zilizobadilishwa ′ = + ∆ . VT , T VT T Tk T v ak , v bk , v ck , v dk k K v ik VT , v ik v i si v i 60 si v v i v i Tunaunda 1 ∈ R512 hadi maadili ya SDF na mabadiliko kwa kila vertex kupitia mfululizo wa convolutions za 3D na tabaka kamili za muunganisho. Hasa, kwanza tunatumia tabaka za convolution za 3D kutoa kiasi cha sifa kilichoendeshwa na 1. Kisha tunauliza sifa katika kila vertex ∈ kwa kutumia interpolesheni ya trilinear na kuipa kwa MLPs ambayo hutoa thamani ya SDF na deformation ∆ . Katika kesi ambapo uundaji kwa azimio la juu unahitajika (k.m. pikipiki yenye miundo nyembamba kwenye magurudumu), tunatumia mgawanyiko wa kiasi kufuatia [ ]. Usanifu wa Mtandao w v i w v i VT si v i 60 Baada ya kupata na ∆ kwa vertices zote, tunatumia algorithm ya uondoaji wa tetrahedra inayoweza kutofautishwa ili kutoa nyavu wazi. Uondoaji wa tetrahedra huamua topolojia ya uso ndani ya kila tetrahedron kulingana na ishara za . Hasa, uso wa nyavu hutolewa wakati sign( ) /= sign( ), ambapo huashiria fahirisi za vertices kwenye ukingo wa tetrahedron, na vertices za uso huo huamuliwa na interpolesheni ya mstari kama mi,j = v 0 i sj−v 0 j si sj−si . Kumbuka kuwa equation hapo juu inatathminiwa tu wakati si 6= sj , hivyo inaweza kutofautishwa, na gradient kutoka mi,j inaweza kurudishwa nyuma kwenye maadili ya SDF si na mabadiliko ∆vi . Kwa uwakilishi huu, maumbo yenye topolojia yoyote yanaweza kuzalishwa kwa urahisi kwa kutabiri ishara tofauti za si . Uondoaji wa Nyavu Unaoweza Kutofautishwa si v i si si sj i, j m i,j 3.1.2 Mzalishaji wa Maandishi Kuzalisha moja kwa moja ramani ya maandishi inayoelewana na nyavu zinazotolewa si rahisi, kwani umbo lililozalishwa linaweza kuwa na jenasi na topolojia yoyote. Kwa hivyo tunaweka mipaka ya maandishi kama nyanja ya maandishi [ ]. 50 Hasa, tunaunda nyanja ya maandishi na kazi ambayo inatoa ramani ya eneo la 3D la pointi ya uso ∈ R3, kwa kuzingatia 2, kwa rangi ya RGB ∈ R3 katika eneo hilo. Kwa kuwa nyanja ya maandishi inategemea jiometri, tunaongeza pia kundishaji la ramani hii kwa nambari ya siri ya jiometri 1, ili = ( *,* 1 ⊕ 2), ambapo ⊕ inamaanisha kuunganishwa. ft p w c w c ft p w w Tunawakilisha nyanja yetu ya maandishi kwa kutumia uwakilishi wa tri-plane, ambao ni mzuri na wenye nguvu katika kurejesha miundo ya 3D [ ] na kuzalisha picha zinazojua 3D [ ]. Hasa, tunafuata [ , ] na kutumia mtandao wa neural wa convolution wa 2D unaoweza kuendeshwa ili kuunda nambari ya siri 1 ⊕ 2 hadi nyanja tatu za sifa za pande zote za mhimili zenye ukubwa wa × × ( × 3), ambapo = 256 inawakilisha azimio la nafasi na = 32 idadi ya chaneli. Usanifu wa Mtandao 55 8 8 35 w w N N C N C Kutokana na nyanja za sifa, vekta ya sifa f t ∈ R 32 ya pointi ya uso p inaweza kurejeshwa kama f t = P e ρ(πe(p)), ambapo πe(p) ni makadirio ya pointi p kwenye nyanja ya sifa e na ρ(·) inawakilisha interpolesheni ya bilinear ya sifa. Kisha tabaka la ziada la muunganisho hutumiwa kuunda vekta ya sifa iliyojumuishwa f t hadi rangi ya RGB c. Kumbuka kuwa, tofauti na kazi zingine za uzalishaji wa picha unaojua 3D [8, 25, 7, 57] ambazo pia hutumia uwakilishi wa nyanja ya neural, tunahitaji tu kuchukua sampuli ya nyanja ya maandishi katika maeneo ya pointi za uso (kwa kinyume na sampuli za msongamano kando ya mshale). Hii inapunguza sana ugumu wa hesabu kwa ajili ya utoaji wa picha zenye azimio la juu na huhakikisha kuzalisha picha zinazoendana na maoni mengi kwa ujenzi. 3.2 Utoaji wa Picha Unaoweza Kutofautishwa na Mafunzo Ili kusimamia mfumo wetu wakati wa mafunzo, tunachukua msukumo kutoka kwa Nvdiffrec [ ] ambayo hufanya urejeshaji wa vitu vya 3D wa maoni mengi kwa kutumia kiendeleshi cha picha kinachoweza kutofautishwa. Hasa, tunatoa nyavu za 3D zilizotolewa na nyanja ya maandishi kwenye picha za 2D kwa kutumia kiendeleshi cha picha kinachoweza kutofautishwa [ ], na tunasimamia mtandao wetu na vizindua vya 2D, ambavyo vinajaribu kutofautisha picha kutoka kwa kitu halisi au kilichotolewa kutoka kwa kitu kilichozalishwa. 47 37 Tunadhania kuwa usambazaji wa kamera C uliotumiwa kupata picha kwenye hifadhidata unajulikana. Ili kutoa maumbo yaliyozalishwa, tunachukua kwa nasibu kamera kutoka C, na kutumia kiendeleshi cha picha cha rasterization kinachoweza kutofautishwa Nvdiffrast [ ] kutoa nyavu za 3D kwenye silhouette ya 2D na pia picha ambapo kila pikseli ina kuratibu za pointi ya 3D inayolingana kwenye uso wa nyavu. Kuratibu hizi hutumiwa zaidi kuuliza nyanja ya maandishi ili kupata maadili ya RGB. Kwa kuwa tunafanya kazi moja kwa moja kwenye nyavu zilizotolewa, tunaweza kutoa picha zenye azimio la juu kwa ufanisi mkubwa, kuruhusu mfumo wetu kufunzwa na azimio la picha hadi 1024×1024. Utoaji wa Picha Unaoweza Kutofautishwa c 37 Tunafundisha mfumo wetu kwa kutumia lengo la ushindani. Tunachukua usanifu wa vizindua kutoka kwa StyleGAN [ ], na kutumia lengo sawa la GAN lisilo na msongo Vizindua & Lengo 34