```html Авторлар: Jun Gao, NVIDIA, University of Toronto, Vector Institute (jung@nvidia.com) Tianchang Shen, NVIDIA, University of Toronto, Vector Institute (frshen@nvidia.com) Zian Wang, NVIDIA, University of Toronto, Vector Institute (zianw@nvidia.com) Wenzheng Chen, NVIDIA, University of Toronto, Vector Institute (wenzchen@nvidia.com) Kangxue Yin, NVIDIA (kangxuey@nvidia.com) Daiqing Li, NVIDIA (daiqingl@nvidia.com) Or Litany, NVIDIA (olitany@nvidia.com) Zan Gojcic, NVIDIA (zgojcic@nvidia.com) Sanja Fidler, NVIDIA, University of Toronto, Vector Institute (sfidler@nvidia.com) Аннотация Көптеген салалар үлкен 3D виртуалды әлемдерді модельдеуге көшкендіктен, 3D мазмұнының саны, сапасы және әртүрлілігі бойынша масштабталатын мазмұн жасау құралдарына деген қажеттілік айқын болып отыр. Біздің жұмысымызда біз 3D рендеринг қозғалтқыштарымен тікелей тұтынылатын, сондықтан төменгі ағымдағы қолданбаларда дереу пайдалануға болатын текстуралы торы бар 3D генеративті модельдерді оқытуды мақсат етеміз. 3D генеративті модельдеу бойынша бұрынғы жұмыстарда не геометриялық бөлшектер жетіспейді, не шығара алатын торының топологиясы шектеулі, әдетте текстураларды қолдамайды немесе синтез процесінде нейрондық рендерлерді пайдаланады, бұл оларды жалпы 3D бағдарламалық жасақтамасында пайдалануды қиындатады. Бұл жұмыста біз күрделі топологиясы, бай геометриялық бөлшектері және жоғары дәлдіктегі текстуралары бар тікелей 3D текстуралы торы бар enerative моделі GET3D-ді ұсынамыз. Біз 2D суреттер жинақтарынан моделімізді оқыту үшін дифференциацияланатын бетті модельдеу, дифференциацияланатын рендеринг және 2D генеративті қарсылас желілеріндегі соңғы жетістіктерді пайдаланамыз. GET3D жоғары сапалы 3D текстуралы торларын, автомобильдерден, креслолардан, жануарлардан, мотоциклдерден және адам кейіпкерлерінен ғимараттарға дейінгі ауқымды, бұрынғы әдістерге қарағанда айтарлықтай жақсартуларға қол жеткізеді. Біздің жоба парақшамыз: G https://nv-tlabs.github.io/GET3D 1 Кіріспе Әртүрлі, жоғары сапалы 3D мазмұны ойын, робототехника, сәулет және әлеуметтік платформалар сияқты бірнеше салалар үшін маңызды болып отыр. Алайда, 3D активтерін қолмен жасау өте уақытты алады және арнайы техникалық білімді, сондай-ақ көркем модельдеу дағдыларын талап етеді. Негізгі қиындықтардың бірі - масштаб. Turbosquid [ ] немесе Sketchfab [ ] сияқты 3D нарықтарынан 3D модельдерін табуға болатын болса да, ойынды немесе фильмді әртүрлі көрінетін кейіпкерлер тобымен толтыру үшін көптеген 3D модельдерін жасау әлі де көркемдік уақытты қажет етеді. 4 3 Мазмұн жасау процесін жеңілдету және оны әртүрлі (жаңадан бастаған) пайдаланушылар үшін қолжетімді ету үшін, жоғары сапалы және әртүрлі 3D активтерін өндіре алатын генеративті 3D желілері жақында зерттеудің белсенді саласына айналды [ , , , , , , , , , , ]. Алайда, ағымдағы нақты қолданбалар үшін практикалық пайдалы болу үшін 3D генеративті модельдер идеалды түрде келесі талаптарды орындауы керек: Олар бөлшектелген геометриясы және кез келген топологиясы бар пішіндерді генерациялау қабілетіне ие болуы керек, Нәтиже - бұл стандартты графикалық бағдарламалық жасақтама пакеттері, мысалы Blender [ ] және Maya [ ] сияқты қолданылатын негізгі өкілдік болып табылатын текстуралы тор, және Біз 2D суреттерді бақылау үшін пайдалана алуымыз керек, өйткені олар нақты 3D пішіндерге қарағанда кеңірек қол жетімді. 5 14 43 46 53 68 75 60 59 69 23 (a) (b) 15 1 (c) 3D генеративті модельдеу бойынша бұрынғы жұмыстар жоғарыдағы талаптардың бір бөлігіне бағытталған, бірақ бүгінгі күнге дейін ешбір әдіс оларды толығымен орындай алмайды (Кесте. ). Мысалы, 3D нүкте бұлттарын генерациялайтын әдістер [ , 68, 75] әдетте текстураларды өндірмейді және оларды пост-өңдеу кезінде торға түрлендіру керек. 1 5 Воксельдерді генерациялайтын модельдер жиі геометриялық бөлшектерге ие болмайды және текстураны өндірмейді [ , , , ]. Нейрондық өрістерге негізделген генеративті модельдер [ , ] геометрияны шығаруға бағытталған, бірақ текстураны елемейді. Олардың көпшілігі нақты 3D бақылауды да талап етеді. Ақырында, тікелей текстуралы 3D торларын шығаратын әдістер [ , ] әдетте алдын ала анықталған пішін үлгілерін талап етеді және күрделі топологиясы немесе әртүрлі жанрлары бар пішіндерді генерациялай алмайды. 66 20 27 40 43 14 54 53 Жақында нейрондық көлемді рендеринг [ ] және 2D генеративті қарсылас желілері (GANs) [ , , , , ] саласындағы жылдам жетістіктер 3D-анықталған сурет синтезінің [ , , , , , ] өсуіне әкелді. Алайда, бұл жұмыстар синтез процесінде нейрондық рендерингті пайдалана отырып, көп көріністі үйлесімді суреттерді синтездеуге бағытталған және мағыналы 3D пішіндерді генерациялауға болатындығына кепілдік бермейді. Маршинг куб алгоритмі [ ] арқылы негізгі нейрондық өріс өкілділігінен торды алуға болатын болса да, сәйкес текстураны шығару қиын міндет болып табылады. 45 34 35 33 29 52 7 57 8 49 51 25 39 Бұл жұмыста біз практикалық 3D генеративті модельдің барлық талаптарын шешуге бағытталған жаңа тәсілді ұсынамыз. Атап айтқанда, біз GET3D, enerative моделі 3D пішіндер үшін, ол тікелей жоғары геометриялық және текстуралық бөлшектері және кез келген тор топологиясы бар xplicit extured торларын шығарады. Біздің тәсіліміздің негізінде дифференциацияланатын *нақты* бетті алу әдісі [ ] және дифференциацияланатын рендеринг әдісі [ , ] қолданылатын генеративті процесс жатыр. Біріншісі бізге кез келген топологиясы бар нақты текстуралы торларды тікелей оңтайландыруға және шығаруға мүмкіндік береді, ал екіншісі біздің моделімізді 2D суреттермен оқытуға мүмкіндік береді, осылайша 2D сурет синтезі үшін әзірленген қуатты және жетілген дискриминаторларды пайдаланады. Біздің моделіміз тікелей торларды генерациялайтын және жоғары тиімді (дифференциацияланатын) графикалық рендерді пайдаланатындықтан, біздің моделімізді 1024 × 1024 дейінгі сурет ажыратымдылығымен оқытуға болады, бұл бізге жоғары сапалы геометриялық және текстуралық бөлшектерді үйренуге мүмкіндік береді. G E T 3D 60 47 37 Біз ShapeNet [ ], Turbosquid [ ] және Renderpeople [ ] сияқты автомобильдер, креслолар, жануарлар, адам кейіпкерлері және ғимараттар сияқты күрделі геометриясы бар бірнеше санаттардағы шартсыз 3D пішін генерациясы үшін жоғары деңгейдегі өнімділікті көрсетеміз. Нақты торды шығару өкілділігі ретінде GET3D өте икемді және басқа тапсырмаларға оңай бейімделуге болады, соның ішінде: дифференциацияланатын рендерингті [ ] пайдалана отырып, бөлінген материалдық және көрініске тәуелді жарықтандыру әсерлерін генерациялауды үйрену, бақылаусыз, CLIP [ ] эмбеддингін пайдалана отырып, мәтінмен басқарылатын 3D пішін генерациясы. 9 4 2 (a) 12 (b) 56 2 Байланысты жұмыстар Біз геометрия мен сыртқы келбетке арналған 3D генеративті модельдердегі, сондай-ақ 3D-анықталған генеративті сурет синтезіндегі соңғы жетістіктерді шоламыз. Соңғы жылдары 2D генеративті модельдер жоғары ажыратымдылықтағы сурет синтезінде фотореалистік сапаға қол жеткізді [ , , , , , , ]. Бұл жетістік 3D мазмұнын генерациялау саласындағы зерттеулерге де шабыт берді. Алғашқы тәсілдер 2D CNN генераторларын 3D воксельдік торларға тікелей кеңейтуге бағытталған [ , , , , ], бірақ 3D конволюциялардың жоғары жадты тұтынуы және есептеу күрделілігі жоғары ажыратымдылықта генерация процесін қиындатады. Балама ретінде, басқа жұмыстар нүкте бұлты [ , , , ], жасырын [ , ], немесе октет [ ] өкілдіктерін зерттеді. Алайда, бұл жұмыстар негізінен геометрияны генерациялауға бағытталған және сыртқы келбетін елемейді. Олардың шығарылым өкілдіктерін стандартты графикалық қозғалтқыштармен үйлесімді ету үшін пост-өңдеу қажет. 3D Генеративті Модельдер 34 35 33 52 29 19 16 66 20 27 40 62 5 68 75 46 43 14 30 Біздің жұмысымызға жақын, Textured3DGAN [ , ] және DIBR [ ] текстуралы 3D торларын генерациялайды, бірақ олар генерацияны үлгі торының деформациясы ретінде құрайды, бұл оларды күрделі топологияны немесе әртүрлі жанрлары бар пішіндерді генерациялаудан шектейді, ал біздің әдісіміз мұны жасай алады. PolyGen [ ] және SurfGen [ ] кез келген топологиясы бар торларды шығара алады, бірақ текстураларды синтездемейді. 54 53 11 48 41 Нейрондық көлемді рендеринг [ ] және жасырын өкілдіктердің [ , ] табысына шабыттана отырып, соңғы жұмыстар 3D-анықталған сурет синтезі [ , , , , , , , , , ] мәселесін шешуге кірісті. Алайда, нейрондық көлемді рендеринг желілері әдетте сұраныс жасау үшін баяу, бұл ұзақ оқыту уақытына [ , ] әкеледі және шектеулі ажыратымдылықтағы суреттерді генерациялайды. GIRAFFE [ ] және StyleNerf [ ] нейрондық рендерингті төмен ажыратымдылықта орындау және нәтижелерді 2D CNN арқылы жоғарылату арқылы оқыту және рендеринг тиімділігін жақсартады. Алайда, өнімділіктегі бұл пайда көп көріністі үйлесімділіктің төмендеуі есебінен келеді. Қос дискриминаторды [ ] пайдалану арқылы EG3D бұл мәселені ішінара шеше алады. Дегенмен, нейрондық рендерингке негізделген әдістерден текстуралы бетті алу қиын міндет. Керісінше, GET3D тікелей стандартты графикалық қозғалтқыштарда қолдануға болатын текстуралы 3D торларын шығарады. 3D-Анықталған Генеративті Сурет Синтезі 45 43 14 7 57 49 26 25 76 8 51 58 67 7 57 49 25 8 3 Әдіс Енді біз текстуралы 3D пішіндерді синтездеуге арналған GET3D құрылымын ұсынамыз. Біздің генерация процесі екі бөлікке бөлінеді: геометрия бұтағы, ол кез келген топологияның дифференциацияланатын бет торын шығарады, және текстура бұтағы, ол бет нүктелерінде түстерді шығару үшін сұраныс жасалатын текстура өрісін өндіреді. Екіншісі материалдар сияқты басқа бет қасиеттеріне дейін кеңейтілуі мүмкін (4.3.1-бөл.). Оқыту кезінде 2D жоғары ажыратымдылықтағы суреттерді рендерингтеу үшін тиімді дифференциацияланатын растерлеуіш пайдаланылады. Бүкіл процесс дифференциацияланатын болып табылады, бұл 2D дискриминатордан екі генератор бұтағына градиенттерді тарату арқылы суреттерден (объектіге назар аударылатынын көрсететін маскалармен) қарсылас оқытуға мүмкіндік береді. Біздің моделімізді 2-сурет көрсетеді. Келесіде, біз алдымен 3.1-бөл. 3D генераторымызды, содан кейін 3.2-бөл. дифференциацияланатын рендеринг пен жоғалту функцияларын ұсынамыз. 3.1 3D Текстуралы Торлардың Генеративті Моделі Біз ∈ N (0*,* ) Гаусс таралуынан алынған үлгіні тор мен текстураға 3D генераторы = ( ) карталауды үйренуді мақсат етеміз. z I M E M, E G z Бірдей геометрияның әртүрлі текстуралары болуы мүмкін, ал бірдей текстура әртүрлі геометрияларға қолданылуы мүмкін болғандықтан, біз екі кездейсоқ енгізу векторларын 1 ∈ R512 және 2 ∈ R512 үлгісін аламыз. StyleGAN [ , , ] ұйғарымы бойынша, біз 1 және 2-ны аралық латентті векторлар 1 = geo( 1) және 2 = tex( 2)-ға карталау үшін сызықтық емес картографиялық желілерді geo және tex пайдаланамыз, бұлар 3D пішіндер мен текстураның генерациясын басқаратын *стильдерді* шығару үшін одан әрі пайдаланылады. Біз 3.1.1-бөл. геометрия үшін генераторды және 3.1.2-бөл. текстура генераторын ресми түрде енгіземіз. z z 34 35 33 z z w f z w f z f f 3.1.1 Геометрия Генераторы Біздің геометрия генераторымыз жақында ұсынылған дифференциацияланатын бет өкілділігі болып табылатын DMTet [ ]-ті біріктіру үшін жасалған. DMTet геометрияны өзгеретін тетраэдр торына [ , ] анықталған белгілі қашықтық өрісі (SDF) ретінде көрсетеді, одан бет дифференциацияланатын түрде маршинг тетраэдрлері [ ] арқылы қалпына келтірілуі мүмкін. Оның төбелерін жылжыту арқылы торды деформациялау оның ажыратымдылығын жақсы пайдалануға мүмкіндік береді. Бетті алу үшін DMTet-ті қабылдау арқылы, біз кез келген топологиясы бар нақты торларды өндіре аламыз. Келесіде біз DMTet-ті қысқаша қорытындылаймыз және қосымша мәліметтер үшін түпнұсқа мақалаға сілтеме жасаймыз. 60 22 24 17 ( ) объекті орналасқан толық 3D кеңістігін белгілесін, мұндағы тетраэдр торы -дағы төбелер. Әрбір тетраэдр ∈ төрт төбелермен { } анықталады, мұндағы ∈ {1*, . . . , K*}, - тетраэдрлердің жалпы саны, ал ∈ ∈ R3. Оның 3D координаттарынан басқа, әрбір төбе SDF мәні ∈ R және оның бастапқы каноникалық координатасынан төбе деформациясы ∆ ∈ R3 бар. Бұл өкілдік дифференциацияланатын маршинг тетраэдрлері [ ] арқылы нақты торды қалпына келтіруге мүмкіндік береді, мұндағы үздіксіз кеңістіктегі SDF мәндері олардың мәнін деформацияланған төбелер ′ = + ∆ -дағы барицентрлік интерполяция арқылы есептеледі. VT , T VT T Tk T v ak , v bk , v ck , v dk k K v ik VT , v ik v i si v i 60 si v v i v i Біз 1 ∈ R512-ны әр төбе -дағы SDF мәндері мен деформацияларға бірқатар шартты 3D конволюциялық және толық байланысты қабаттар арқылы карталаймыз. Атап айтқанда, біз алдымен 1 шартты ерекшеліктер көлемін генерациялау үшін 3D конволюциялық қабаттарды пайдаланамыз. Содан кейін біз трилинейлік интерполяцияны пайдалана отырып, әр төбе ∈ -дағы ерекшелікті сұраныс жасаймыз және оны SDF мәні мен деформация ∆ шығаратын MLP-лерге береміз. Жоғары ажыратымдылықта модельдеу қажет болған жағдайда (мысалы, дөңгелектердегі жұқа құрылымдары бар мотоцикл), біз [ ] бойынша көлемді бөлуді одан әрі пайдаланамыз. Желі Архитектурасы w v i w v i VT si v i 60 Барлық төбелер үшін және ∆ алынғаннан кейін, біз нақты торды алу үшін дифференциацияланатын маршинг тетраэдрлері алгоритмін пайдаланамыз. Маршинг тетраэдрлері әрбір тетраэдр ішіндегі бет топологиясын белгілерінің негізінде анықтайды. Атап айтқанда, бет егер sign( ) /= sign( ) болса, мұндағы тетраэдр жиегіндегі төбе индекстерін белгілейді, және сол беттің төбелері сызықтық интерполяция арқылы анықталады: mi,j = v 0 i sj−v 0 j si sj−si . Ескеріңіз, жоғарыдағы теңдеу тек si 6= sj болғанда ғана бағаланады, сондықтан ол дифференциацияланатын болып табылады және mi,j градиенті SDF мәндері si және деформациялар ∆vi -ға кері таратылуы мүмкін. Бұл өкілдікпен, кез келген топологиясы бар пішіндерді si-ның әртүрлі белгілерін болжау арқылы оңай генерациялауға болады. Дифференциацияланатын Торды Алу si v i si si sj i, j m i,j 3.1.2 Текстура Генераторы Шығарылған тормен үйлесімді текстура картасын тікелей генерациялау қиын емес, өйткені генерацияланған пішін кез келген жанр мен топологияға ие болуы мүмкін. Сондықтан біз текстураны текстура өрісі [ ] ретінде параметрлендіреміз. 50 Атап айтқанда, біз текстура өрісін три-жазықтық өкілділікпен модельдейміз, ол 3D объектілерді [ ] қалпына келтіру және 3D-анықталған суреттерді [ ] генерациялау үшін тиімді және экспрессивті болып табылады. Атап айтқанда, біз [ , ] ұйғарымы бойынша, латентті код 1 ⊕ 2-ны × × ( × 3) өлшемді үш осьтік бағыттағы ортогональды ерекшелік жазықтықтарына карталау үшін шартты 2D конволюциялық нейрондық желіні пайдаланамыз, мұндағы = 256 кеңістіктік ажыратымдылықты және = 32 арналар санын белгілейді. 55 8 8 35 w w N N C N C Ерекшелік жазықтықтары берілгенде, бет нүктесі p -ның ерекшелік векторы f t ∈ R 32 P e ρ(πe(p)) ретінде қалпына келтірілуі мүмкін, мұндағы πe(p) - p нүктесінің e жазықтығына проекциясы және ρ(·) ерекшеліктердің билинейлік интерполяциясын білдіреді. Содан кейін қосымша толық байланысты қабат қолданылады, ол агрегаттық ерекшелік векторы f t -ны RGB түсіне c карталайды. Ескеріңіз, 3D-анықталған сурет синтезі [8, 25, 7, 57] бойынша басқа жұмыстардан айырмашылығы, нейрондық өріс өкілділігін де пайдаланады, біз текстура өрісіне тек бет нүктелерінің орындарында (тығыз үлгілерге қарама-қарсы) сұраныс жасауды талап етеміз. Бұл жоғары ажыратымдылықтағы суреттерді рендерингтеудің есептеу күрделілігін айтарлықтай азайтады және құрылым бойынша көп көріністі үйлесімді суреттер