Waandishi: Jun Gao, NVIDIA, Chuo Kikuu cha Toronto, Taasisi ya Vector (jung@nvidia.com) Tianchang Shen, NVIDIA, Chuo Kikuu cha Toronto, Taasisi ya Vector (frshen@nvidia.com) Zian Wang, NVIDIA, Chuo Kikuu cha Toronto, Taasisi ya Vector (zianw@nvidia.com) Wenzheng Chen, NVIDIA, Chuo Kikuu cha Toronto, Taasisi ya Vector (wenzchen@nvidia.com) Kangxue Yin, NVIDIA (kangxuey@nvidia.com) Daiqing Li, NVIDIA (daiqingl@nvidia.com) Or Litany, NVIDIA (olitany@nvidia.com) Zan Gojcic, NVIDIA (zgojcic@nvidia.com) Sanja Fidler, NVIDIA, Chuo Kikuu cha Toronto, Taasisi ya Vector (sfidler@nvidia.com) Muhtasari Kadiri tasnia kadhaa zinavyoelekea kuunda ulimwengu mkuu wa 3D, hitaji la zana za kuunda bidhaa ambazo zinaweza kuongezeka kwa idadi, ubora, na utofauti wa bidhaa za 3D linazidi kuwa dhahiri. Katika kazi yetu, tunalenga kufundisha miundo mikuu ya uzalishaji ya 3D yenye utendaji mzuri ambayo inatengeneza nyavu za maandishi ambazo zinaweza kutumiwa moja kwa moja na injini za utoaji za 3D, hivyo basi kutumika mara moja katika programu zinazofuata. Kazi za awali juu ya miundo mikuu ya uzalishaji ya 3D ama hukosa maelezo ya kijiometri, ni mdogo kwa topolojia ya wavu wanayoweza kuzalisha, kwa kawaida haziungi mkono maandishi, au hutumia watoaji wa neural katika mchakato wa usanisi, ambao huwafanya matumizi yao katika programu za kawaida za 3D kuwa si rahisi. Katika kazi hii, tunaleta GET3D, mfumo mkuu wa enerative ambao hutengeneza moja kwa moja nyavu za xplicit za extured zenye topolojia tata, maelezo mengi ya kijiometri, na maandishi ya juu zaidi. Tunaziba mafanikio ya hivi majuzi katika uundaji wa nyuso unaotofautiana, utoaji unaotofautiana pamoja na Mitandao ya Picha ya Kukuza Picha (GANs) ya 2D ili kufundisha mfumo wetu kutoka kwa makusanyo ya picha za 2D. GET3D inaweza kutengeneza nyavu za 3D zenye ubora wa juu, kuanzia magari, viti, wanyama, pikipiki na wahusika wa binadamu hadi majengo, ikipata maboresho makubwa kuliko mbinu za awali. Ukurasa wetu wa mradi: G E T 3D https://nv-tlabs.github.io/GET3D 1 Utangulizi Bidhaa za 3D zenye ubora wa juu na tofauti zinazidi kuwa muhimu kwa tasnia kadhaa, ikiwa ni pamoja na michezo ya kubahatisha, robotiki, usanifu, na majukwaa ya kijamii. Hata hivyo, uundaji wa mikono wa mali za 3D unachukua muda mwingi na unahitaji maarifa maalum ya kiufundi pamoja na ujuzi wa kuunda kisanii. Moja ya changamoto kuu ni hivyo kiwango – wakati mtu anaweza kupata miundo ya 3D kwenye masoko ya 3D kama vile Turbosquid [ ] au Sketchfab [ ], kuunda miundo mingi ya 3D, sema, kujaza mchezo au sinema na umati wa wahusika ambao wote wanaonekana tofauti bado unachukua muda mwingi wa msanii. 4 3 Ili kuwezesha mchakato wa uundaji wa bidhaa na kuufanya upatikane kwa watumiaji mbalimbali (waanzilishi), mitandao mikuu ya uzalishaji ya 3D inayoweza kutoa mali za 3D zenye ubora wa juu na tofauti imekuwa eneo la utafiti wa hivi karibuni [ , , , , , , , , , , ]. Hata hivyo, ili kutumika kikamilifu kwa programu za sasa za ulimwengu halisi, miundo mikuu ya uzalishaji ya 3D inapaswa kutimiza mahitaji yafuatayo: Wanapaswa kuwa na uwezo wa kutengeneza maumbo yenye maelezo ya kijiometri na topolojia yoyote, Matokeo yanapaswa kuwa wavu wa maandishi, ambao ni uwakilishi wa msingi unaotumiwa na vifurushi vya kawaida vya programu za picha kama vile Blender [ ] na Maya [ ], na Tunapaswa kuweza kutumia picha za 2D kwa usimamizi, kwani zinapatikana zaidi kuliko maumbo halisi ya 3D. 5 14 43 46 53 68 75 60 59 69 23 (a) (b) 15 1 (c) Kazi za awali juu ya uundaji wa miundo mikuu ya 3D zimezingatia sehemu ndogo za mahitaji hapo juu, lakini hakuna mbinu hadi sasa inayotimiza yote (Jed. ). Kwa mfano, mbinu zinazotengeneza mawingu ya sehemu za 3D [ , 68, 75] kwa kawaida hazitengenezi maandishi na lazima zibadilishwe kuwa wavu katika uchakataji wa baadaye. 1 5 Mbinu zinazotengeneza vokseli mara nyingi hukosa maelezo ya kijiometri na hazitengenezi maandishi [ , , , ]. Miundo mikuu ya uzalishaji kulingana na uga wa neural [ , ] huzingatia uchimbaji wa kijiometri lakini hupuuza maandishi. Nyingi ya hizi pia zinahitaji usimamizi halisi wa 3D. Hatimaye, mbinu zinazotoa moja kwa moja nyavu za 3D za maandishi [ , ] kwa kawaida zinahitaji miundo maalum ya umbo iliyofafanuliwa awali na haziwezi kutengeneza maumbo yenye topolojia tata na jenasi tofauti. 66 20 27 40 43 14 54 53 Hivi karibuni, maendeleo ya haraka katika utoaji wa kiasi cha neural [ ] na Mitandao ya Picha ya Kukuza Picha (GANs) ya 2D [ , , , , ] imeongoza kuongezeka kwa usanisi wa picha wa 3D-aware [ , , , , , ]. Hata hivyo, mstari huu wa kazi unalenga kutengeneza picha zenye msimamo wa mtazamo mingi kwa kutumia utoaji wa neural katika mchakato wa usanisi na hauahakikishi kuwa maumbo halisi ya 3D yanaweza kuzalishwa. Ingawa wavu unaweza kupatikana kutoka kwa uwakilishi wa uga wa neural ulio chini kwa kutumia algorithm ya cubes za kumenya [ ], uchimbaji wa maandishi yanayolingana si kazi rahisi. 45 34 35 33 29 52 7 57 8 49 51 25 39 Katika kazi hii, tunaleta mbinu mpya inayolenga kushughulikia mahitaji yote ya mfumo mkuu wa uzalishaji wa 3D unaotumika. Hasa, tunaleta GET3D, mfumo mkuu wa enerative kwa maumbo ya 3D ambayo hutengeneza moja kwa moja nyavu za xplicit za extured zenye maelezo mengi ya kijiometri na maandishi na topolojia yoyote ya wavu. Katika moyo wa mbinu yetu ni mchakato wa uzalishaji unaotumia mbinu ya uchimbaji wa uso wa *explicit* inayoweza kutofautiana [ ] na mbinu ya utoaji unaoweza kutofautiana [ , ]. Ya kwanza inatuwezesha kuongeza moja kwa moja na kutoa nyavu za 3D za maandishi zenye topolojia yoyote, wakati wa mwisho unatuwezesha kufundisha mfumo wetu na picha za 2D, hivyo basi kutumia watofautishi wenye nguvu na wenye uzoefu waliotengenezwa kwa ajili ya usanisi wa picha wa 2D. Kwani mfumo wetu hutengeneza moja kwa moja nyavu na hutumia mtoaji wa picha wa 3D unaofaa (unaoweza kutofautiana), tunaweza kuongeza mfumo wetu kufundisha na azimio la picha hadi 1024 × 1024, kuturuhusu kujifunza maelezo ya kijiometri na maandishi ya ubora wa juu. G E T 3D 60 47 37 Tunaonyesha utendaji wa hali ya juu kwa ajili ya uzalishaji wa umbo la 3D bila masharti kwenye makundi mengi yenye kijiometri tata kutoka kwa ShapeNet [ ], Turbosquid [ ] na Renderpeople [ ], kama vile viti, pikipiki, magari, wahusika wa binadamu, na majengo. Kwa uwakilishi wa wavu kama matokeo, GET3D pia ni rahisi sana na inaweza kuendeshwa kwa urahisi kwa programu zingine, pamoja na: kujifunza kutengeneza mali zilizogawanywa na athari za taa zinazotegemea mtazamo kwa kutumia utoaji wa hali ya juu unaoweza kutofautiana [ ], bila usimamizi, usanisi wa umbo la 3D unaoongozwa na maandishi kwa kutumia CLIP [ ] msisitizo. 9 4 2 (a) 12 (b) 56 2 Kazi Zinazohusiana Tunachunguza maendeleo ya hivi karibuni katika miundo mikuu ya uzalishaji wa 3D kwa kijiometri na mwonekano, pamoja na usanisi wa picha wa uzalishaji unaotambua 3D. Kwa miaka ya hivi karibuni, miundo mikuu ya uzalishaji ya 2D imefikia ubora wa picha halisi katika usanisi wa picha wa azimio la juu [ , , , , , , ]. Maendeleo haya pia yamehamasisha utafiti katika uzalishaji wa bidhaa za 3D. Mbinu za awali zililenga kupanua moja kwa moja vizalishi vya CNN vya 2D kwa gridi za vokseli za 3D [ , , , , ], lakini mzigo mkubwa wa kumbukumbu na ugumu wa kompyuta wa mikunjo ya 3D unazuia mchakato wa uzalishaji kwa azimio la juu. Kama njia mbadala, kazi zingine zimechunguza mawingu ya sehemu za [ , , , ], fomu za ndani [ , ], au uwakilishi wa oktaili [ ]. Hata hivyo, kazi hizi huzingatia zaidi utengenezaji wa kijiometri na hupuuza mwonekano. Uwanda wao wa matokeo pia unahitaji kuchakatwa zaidi ili kuufanya uwe sawa na injini za kawaida za picha. Miundo Mikuu ya Uzalishaji wa 3D 34 35 33 52 29 19 16 66 20 27 40 62 5 68 75 46 43 14 30 Mfumo unaofanana zaidi na kazi yetu, Textured3DGAN [ , ] na DIBR [ ] hutengeneza nyavu za 3D za maandishi, lakini huunda kizazi kama uharibifu wa wavu wa kiolezo, ambao huwazuia kutengeneza topolojia tata au maumbo yenye jenasi tofauti, ambayo mbinu yetu inaweza kufanya. PolyGen [ ] na SurfGen [ ] zinaweza kuzalisha nyavu zenye topolojia yoyote, lakini hazitengenezi maandishi. 54 53 11 48 41 Umehamasishwa na mafanikio ya utoaji wa kiasi cha neural [ ] na uwakilishi wa ndani [ , ], kazi za hivi karibuni zilianza kushughulikia tatizo la usanisi wa picha unaotambua 3D [ , , , , , , , , , ]. Hata hivyo, mitandao ya utoaji wa kiasi cha neural kwa kawaida ni polepole kuuliza, na kusababisha muda mrefu wa mafunzo [ , ], na hutengeneza picha za azimio la mdogo. GIRAFFE [ ] na StyleNerf [ ] huboresha ufanisi wa mafunzo na utoaji kwa kufanya utoaji wa neural kwa azimio la chini na kisha kuongeza matokeo na CNN ya 2D. Hata hivyo, faida ya utendaji huja kwa gharama ya kupunguzwa kwa msimamo wa mtazamo mingi. Kwa kutumia mtenganishaji mara mbili, EG3D [ ] inaweza kupunguza tatizo hili kwa sehemu. Hata hivyo, uchimbaji wa uso wa maandishi kutoka kwa mbinu zinazotokana na utoaji wa neural ni kazi ngumu. Kinyume chake, GET3D hutoa moja kwa moja nyavu za 3D za maandishi ambazo zinaweza kutumika mara moja katika injini za kawaida za picha. Usanisi wa Picha wa Uzalishaji Unaotambua 3D 45 43 14 7 57 49 26 25 76 8 51 58 67 7 57 49 25 8 3 Mbinu Sasa tunawasilisha mfumo wetu wa GET3D kwa ajili ya kusimamia maumbo ya 3D. Mchakato wetu wa uzalishaji umegawanywa katika sehemu mbili: tawi la kijiometri, ambalo hutoa moja kwa moja wavu wa uso wa topolojia yoyote, na tawi la maandishi ambalo hutoa uga wa maandishi ambao unaweza kuulizwa katika sehemu za uso ili kutoa rangi. Ya mwisho inaweza kupanuliwa kwa mali zingine za uso kama vile, kwa mfano, vifaa (Sehemu. ). Wakati wa mafunzo, mtoaji wa picha wa rasterizer unaofaa hutumiwa kutoa wavu wa maandishi uliotengenezwa kuwa picha za azimio la juu za 2D. Mchakato mzima unaweza kutofautiana, kuruhusu mafunzo ya adversarial kutoka kwa picha (na masks zinazoonyesha kitu kinachovutiwa) kwa kusambaza gradients kutoka kwa mtenganishaji wa 2D hadi matawi yote ya kizazi. Mfumo wetu umeonyeshwa katika Mch. . Katika zifuatazo, kwanza tunaleta jenereta yetu ya 3D katika Sehemu , kabla ya kuendelea na utoaji unaoweza kutofautiana na kazi za kupoteza katika Sehemu . 4.3.1 2 3.1 3.2 3.1 Mfumo Mkuu wa Uzalishaji wa Nyavu za 3D za Maandishi Tunalenga kujifunza jenereta mkuu wa 3D = ( ) ili kuhamisha mfano kutoka kwa usambazaji wa Gaussian M, E G z ∈ N (0*,* ) hadi wavu na maandishi . z I M E Kwa kuwa kijiometri sawa inaweza kuwa na maandishi tofauti, na maandishi sawa yanaweza kutumiwa kwa kijiometri tofauti, tunatoa sampuli mbili za vekta za pembejeo 1 ∈ R512 na 2 ∈ R512. Kufuatia StyleGAN [ , , ], tunatumia mitandao ya ramani isiyo ya mstari geo na tex ili kuhamisha 1 na 2 hadi vekta za latent za kati 1 = geo( 1) na 2 = tex( 2) ambazo hutumiwa zaidi kutoa *mitindo* inayodhibiti uzalishaji wa maumbo ya 3D na maandishi, mtawalia. Tunaleta rasmi jenereta kwa ajili ya kijiometri katika Sehemu ya na jenereta ya maandishi katika Sehemu ya . z z 34 35 33 f f z z w f z w f z 3.1.1 3.1.2 3.1.1 Jenereta ya Kijiometri Tunabuni jenereta yetu ya kijiometri ili kujumuisha DMTet [ ], uwakilishi wa uso unaotofautiana uliopendekezwa hivi karibuni. DMTet huwakilisha kijiometri kama uga wa umbali uliosainiwa (SDF) uliofafanuliwa kwenye gridi ya kipekee inayoweza kuharibika [ , ], kutoka ambayo uso unaweza kuokolewa kwa kutofautiana kupitia kumenya tetrahedra [ ]. Kuharibika kwa gridi kwa kusonga vertices zake husababisha matumizi bora zaidi ya azimio lake. Kwa kupitisha DMTet kwa uchimbaji wa uso, tunaweza kuzalisha nyavu halisi zenye topolojia na jenasi yoyote. Ifuatayo tunatoa muhtasari mfupi wa DMTet na kumrejelea msomaji kwenye karatasi ya awali kwa maelezo zaidi. 60 22 24 17 Acha ( ) kuashiria nafasi kamili ya 3D ambayo kitu kiko ndani, ambapo ni vertices katika gridi ya kipekee . Kila tetrahedron ∈ hufafanuliwa kwa kutumia vertices nne { }, na ∈ {1*, . . . , K*}, ambapo ni idadi kamili ya tetrahedra, na ∈ ∈ R3. Mbali na uratibu wake wa 3D, kila vertex ina thamani ya SDF ∈ R na uharibifu ∆ ∈ R3 wa vertex kutoka uratibu wake wa canonical wa awali. Uwakilishi huu unaruhusu kuokolewa kwa wavu halisi kupitia kumenya tetrahedra zinazotofautiana [ ], ambapo maadili ya SDF katika nafasi inayoendelea huhesabiwa kwa mwingiliano wa barycentric wa thamani yao kwenye vertices zilizoharibika ′ = + ∆ . VT , T VT T Tk T v ak , v bk , v ck , v dk k K v ik VT , v ik v i si v i 60 si v v i v i Tunahamisha 1 ∈ R512 hadi maadili ya SDF na uharibifu kwenye kila vertex kupitia mfululizo wa mikunjo ya 3D yenye masharti na tabaka kamili zilizounganishwa. Hasa, kwanza tunatumia tabaka za mikunjo za 3D kutengeneza kiasi cha kipengele kilichofungwa kwa 1. Kisha tunauliza kipengele kwenye kila vertex ∈ kwa kutumia mwingiliano wa trilinear na kuuingiza kwenye MLPs ambayo hutoa thamani ya SDF na uharibifu ∆ . Katika kesi ambapo uundaji kwa azimio la juu unahitajika (k.w. pikipiki yenye miundo nyembamba kwenye magurudumu), tunatumia zaidi mgawanyiko wa kiasi kufuatia [ ]. Muundo wa Mtandao w v i w v i VT si v i 60 Baada ya kupata na ∆ kwa vertices zote, tunatumia algorithm ya kumenya tetrahedra inayotofautiana ili kuchimba wavu halisi. Kumenya tetrahedra huamua topolojia ya uso ndani ya kila tetrahedron kulingana na ishara za . Hasa, uso wa wavu hutolewa wakati sign( ) /= sign( ), ambapo huashiria viashiria vya vertices kwenye ukingo wa tetrahedron, na vertices ya uso huo huamuliwa na mwingiliano wa mstari kama mi,j = v 0 i sj−v 0 j si sj−si . Kumbuka kuwa equation hapo juu inatathminiwa tu wakati si 6= sj , hivyo inatofautiana, na gradient kutoka mi,j inaweza kurudishwa nyuma kwa maadili ya SDF si na uharibifu ∆vi . Kwa uwakilishi huu, maumbo yenye topolojia yoyote yanaweza kuzalishwa kwa urahisi kwa kutabiri ishara tofauti za si . Uchimbaji wa Wavu Unaotofautiana si v i si si sj i, j m i,j 3.1.2 Jenereta ya Maandishi Kutengeneza ramani ya maandishi inayolingana na wavu uliotengenezwa si kazi rahisi, kwani umbo lililotengenezwa linaweza kuwa na jenasi na topolojia yoyote. Kwa hivyo tunafafanua maandishi kama uga wa maandishi [ ]. 50 Hasa, tunaunda mfumo wa maandishi na kazi ambayo huhamisha eneo la 3D la sehemu ya uso ∈ R3, ikiwa na masharti kwenye 2, kwa rangi ya RGB ∈ R3 katika eneo hilo. Kwa kuwa uga wa maandishi unategemea kijiometri, sisi pia huweka masharti kwenye uhamishaji huu kulingana na kikundi cha kijiometri 1, ili = ( *,* 1 ⊕ 2), ambapo ⊕ huashiria kuunganishwa. ft p w c w c ft p w w Tunawakilisha uga wetu wa maandishi kwa kutumia uwakilishi wa tri-plane, ambao ni mzuri na wa kueleza katika kurejesha miundo ya 3D [ ] na kutengeneza picha zinazotambua 3D [ ]. Hasa, tunafuata [ , ] na kutumia mtandao wa neva wa mikunjo wa 2D wenye masharti ili kuhamisha kikundi cha latent 1 ⊕ 2 kwa ndege tatu za vipengele vinavyotegemeana na mhimili zenye ukubwa wa × × ( × 3), ambapo = 256 huashiria azimio la anga na = 32 idadi ya vipande. Muundo wa Mtandao 55 8 8 35 w w N N C N C Kwa kuzingatia ndege za vipengele, vekta ya kipengele f t ∈ R 32 ya sehemu ya uso p inaweza kuokolewa kama f t = P e ρ(πe(p)), ambapo πe(p) ni mradi wa sehemu p kwenye ndege ya kipengele e na ρ(·) huashiria mwingiliano wa bilinear wa vipengele. Tabaka la ziada la kuunganishwa kikamilifu kisha hutumiwa kuhamisha vekta ya kipengele iliyokusanywa f t kwa rangi ya RGB c. Kumbuka kuwa, tofauti na kazi zingine juu ya usanisi wa picha unaotambua 3D ambazo pia hutumia uwakilishi wa uga wa neural, tunahitaji tu kuchukua sampuli ya uga wa maandishi katika maeneo ya sehemu za uso (kinyume na sampuli zenye msongamano kando ya mshale). Hii inapunguza sana ugumu wa kompyuta kwa ajili ya utoaji wa picha za azimio la juu na inahakikisha kutengeneza picha zenye msimamo wa mtazamo mingi kwa ujenzi. 3.2 Utoaji Unaotofautiana na Mafunzo Ili kusimamia mfumo wetu wakati wa mafunzo, tunachota msukumo kutoka kwa Nvdiffrec [ ] ambayo hufanya marejesho ya vitu vya 3D vya mtazamo mingi kwa kutumia mtoaji wa kutofautiana. Hasa, tunatoa wavu halisi uliotolewa na uga wa maandishi kuwa picha za 2D kwa kutumia mtoaji wa kutofautiana [ ], na kusimamia mtandao wetu na mtenganishaji wa 2D, ambaye hujaribu kutofautisha picha kutoka kwa kitu halisi au kilichotolewa kutoka kwa kitu kilichozalishwa. 47 37 Tunadhani kuwa usambazaji wa kamera C ambao ulitumika kupata picha katika hifadhidata unajulikana. Ili kutoa maumbo yaliyozalishwa, tunachukua sampuli ya kamera kutoka C, na kutumia mtoaji wa picha wa haraka sana unaotofautiana Nvdiffrast [ ] kutoa wavu halisi kuwa silhouette ya 2D pamoja na picha ambapo kila pikseli ina uratibu wa sehemu ya 3D inayolingana Utoaji Unaotofautiana c 37 kwenye uso wa wavu. Hizi uratibu hutumiwa zaidi kuuliza uga wa maandishi ili kupata maadili ya RGB. Kwani tunafanya kazi moja kwa moja kwenye wavu uliotolewa, tunaweza kutoa picha za azimio la juu kwa ufanisi mkubwa, kuruhusu mfumo wetu kufunzwa na azimio la picha hadi 1024×1024. Tunafundisha mfumo wetu kwa kutumia lengo la adversarial. Tunapitisha muundo wa mtenganishaji kutoka kwa StyleGAN [ ], na kutumia lengo sawa la GAN lis Mtenganishaji & Lengo 34