Forget Blender Skills: This AI Generates Complete 3D Objects for You

```html Аўтары: Jun Gao, NVIDIA, University of Toronto, Vector Institute (jung@nvidia.com) Tianchang Shen, NVIDIA, University of Toronto, Vector Institute (frshen@nvidia.com) Zian Wang, NVIDIA, University of Toronto, Vector Institute (zianw@nvidia.com) Wenzheng Chen, NVIDIA, University of Toronto, Vector Institute (wenzchen@nvidia.com) Kangxue Yin, NVIDIA (kangxuey@nvidia.com) Daiqing Li, NVIDIA (daiqingl@nvidia.com) Or Litany, NVIDIA (olitany@nvidia.com) Zan Gojcic, NVIDIA (zgojcic@nvidia.com) Sanja Fidler, NVIDIA, University of Toronto, Vector Institute (sfidler@nvidia.com) Рэзюмэ Паколькі некалькі галін прамысловасці рухаюцца да мадэлявання масавых 3D віртуальных светаў, усё больш відавочнай становіцца неабходнасць у інструментах стварэння кантэнту, якія могуць маштабавацца па колькасці, якасці і разнастайнасці 3D кантэнту. У нашай працы мы імкнемся трэніраваць высокапрадукцыйныя 3D генератыўныя мадэлі, якія сінтэзуюць тэкстураваныя сеткі, якія могуць быць непасрэдна выкарыстаны рухавікамі 3D рэндэрынгу, такім чынам, адразу прыдатныя для выкарыстання ў наступных прыкладаннях. Папярэднія працы па 3D генератыўным мадэляванні альбо не маюць геаметрычных дэталяў, абмежаваныя ў тапалогіі сеткі, якую яны могуць вырабляць, як правіла, не падтрымліваюць тэкстуры, альбо выкарыстоўваюць нейронныя рэндэрынгі ў працэсе сінтэзу, што робіць іх выкарыстанне ў агульных 3D праграмах няпростым. У гэтай працы мы прадстаўляем GET3D, enerative мадэль, якая непасрэдна стварае xplicit extured сеткі са складанай тапалогій, багатымі геаметрычнымі дэталямі і тэкстурамі высокай дакладнасці. Мы выкарыстоўваем нядаўнія поспехі ў дыферэнцавальным мадэляванні паверхні, дыферэнцавальным рэндэрынгу, а таксама 2D генератыўных адваротных сетках для трэніроўкі нашай мадэлі з калекцый 2D малюнкаў. GET3D здольны ствараць высакаякасныя 3D тэкстураваныя сеткі, ад аўтамабіляў, крэслаў, жывёл, матацыклаў і чалавечых персанажаў да будынкаў, дасягаючы значных паляпшэнняў у параўнанні з папярэднімі метадамі. Наша старонка праекта: G E T 3D https://nv-tlabs.github.io/GET3D 1 Уводзіны Разнастайны, высакаякасны 3D кантэнт становіцца ўсё больш важным для некалькіх галін, уключаючы гульні, робататэхніку, архітэктуру і сацыяльныя платформы. Аднак ручное стварэнне 3D актываў займае шмат часу і патрабуе спецыфічных тэхнічных ведаў, а таксама навыкаў мастацкага мадэлявання. Адной з галоўных праблем такім чынам з'яўляецца маштаб - у той час як 3D мадэлі можна знайсці на 3D маркетплейсах, такіх як Turbosquid [ ] або Sketchfab [ ], стварэнне мноства 3D мадэляў, скажам, для запаўнення гульні або фільма натоўпам персанажаў, якія ўсе выглядаюць па-рознаму, усё яшчэ патрабуе значнага часу мастака. 4 3 Для палягчэння працэсу стварэння кантэнту і яго даступнасці для розных (пачаткоўцаў) карыстальнікаў, генератыўныя 3D сеткі, якія могуць ствараць высакаякасныя і разнастайныя 3D актывы, нядаўна сталі актыўнай вобласцю даследаванняў [ , , , , , , , , , , ]. Аднак, каб быць практычна карыснымі для бягучых рэальных прыкладанняў, 3D генератыўныя мадэлі павінны ў ідэале адпавядаць наступным патрабаванням: яны павінны мець здольнасць ствараць формы з дэталёвай геаметрыяй і адвольнай тапалогіяй, вынік павінен быць тэкстураванай сеткай, якая з'яўляецца асноўным прадстаўленнем, які выкарыстоўваецца стандартнымі графічнымі праграмнымі пакетамі, такімі як Blender [ ] і Maya [ ], і мы павінны мець магчымасць выкарыстоўваць 2D выявы для нагляду, паколькі яны больш шырока даступныя, чым відавочныя 3D формы. 5 14 43 46 53 68 75 60 59 69 23 (a) (b) 15 1 (c) Папярэднія працы па 3D генератыўным мадэляванні факусаваліся на падмноствах вышэйзгаданых патрабаванняў, але да гэтага часу ні адзін метад не задаволіў усе з іх (Табл. ). Напрыклад, метады, якія ствараюць 3D пункты [ , 68, 75], як правіла, не ствараюць тэкстуры і павінны быць ператвораны ў сетку ў пост-працэсе. 1 5 Метады, якія ствараюць вокселі, часта не маюць геаметрычных дэталяў і не ствараюць тэкстуры [ , , , ]. Генератыўныя мадэлі, заснаваныя на нейронных палях [ , ], факусуюцца на здабыцці геаметрыі, але ігнаруюць тэкстуру. Большасць з іх таксама патрабуе відавочнага 3D нагляду. Нарэшце, метады, якія непасрэдна выводзяць тэкстураваныя 3D сеткі [ , ], як правіла, патрабуюць загадзя вызначаных шаблонаў формаў і не могуць ствараць формы са складанай тапалогіяй і зменлівым родам. 66 20 27 40 43 14 54 53 Нядаўна хуткі прагрэс у нейронным рэндэрынгу аб'ёмаў [ ] і 2D генератыўных адваротных сетках (GANs) [ , , , , ] прывёў да росту 3D-свядомага сінтэзу малюнкаў [ , , , , , ]. Аднак гэтая лінія работ накіравана на сінтэз малюнкаў, сумяшчальных з некалькімі відамі, з выкарыстаннем нейроннага рэндэрынгу ў працэсе сінтэзу і не гарантуе, што могуць быць створаны значныя 3D формы. У той час як сетка патэнцыйна можа быць атрымана з базавага прадстаўлення нейроннага поля з выкарыстаннем алгарытму маршавых кубоў [ ], здабыццё адпаведнай тэкстуры з'яўляецца няпростай задачай. 45 34 35 33 29 52 7 57 8 49 51 25 39 У гэтай працы мы прадстаўляем новы падыход, які накіраваны на задавальненне ўсіх патрабаванняў практычна карыснай 3D генератыўнай мадэлі. У прыватнасці, мы прапануем GET3D, enerative мадэль для 3D формаў, якая непасрэдна выводзіць xplicit extured сеткі з высокай геаметрычнай і тэкстурнай дэталлю і адвольнай тапалогіяй сеткі. У цэнтры нашага падыходу знаходзіцца генератыўны працэс, які выкарыстоўвае дыферэнцаваны метад экстракцыі паверхні [ ] і тэхніку дыферэнцавальнага рэндэрынгу [ , ]. Першы дазваляе нам непасрэдна аптымізаваць і выводзіць тэкстураваныя 3D сеткі з адвольнай тапалогіяй, у той час як апошні дазваляе нам трэніраваць нашу мадэль з 2D выявамі, тым самым выкарыстоўваючы магутныя і спелыя дыскрымінатары, распрацаваныя для сінтэзу 2D малюнкаў. Паколькі наша мадэль непасрэдна стварае сеткі і выкарыстоўвае высокаэфектыўны (дыферэнцаваны) графічны рэндэрэр, мы можам лёгка маштабаваць нашу мадэль для трэніроўкі з раздзяленнем малюнкаў да 1024 × 1024, што дазваляе нам вывучаць высакаякасныя геаметрычныя і тэкстурныя дэталі. G E T 3D відочнай 60 47 37 Мы дэманструем найноўшыя вынікі для безумоўнага стварэння 3D формаў у некалькіх катэгорыях са складанай геаметрыяй з ShapeNet [ ], Turbosquid [ ] і Renderpeople [ ], такіх як крэслы, матацыклы, аўтамабілі, чалавечыя персанажы і будынкі. З відавочным выхадам сеткі GET3D таксама вельмі гнуткі і можа быць лёгка адаптаваны да іншых задач, уключаючы: навучанне стварэнню разкладзеных матэрыялаў і эфектаў асвятлення, залежных ад выгляду, з выкарыстаннем пашыранага дыферэнцавальнага рэндэрынгу [ ], без нагляду, стварэнне 3D формаў на аснове тэксту з выкарыстаннем CLIP [ ] ўкладання. 9 4 2 (a) 12 (b) 56 2 Звязаная праца Мы аглядаем нядаўнія дасягненні ў 3D генератыўных мадэлях для геаметрыі і знешняга выгляду, а таксама 3D-свядомым генератыўным сінтэзе малюнкаў. У апошнія гады 2D генератыўныя мадэлі дасягнулі фотарэалістычнай якасці ў сінтэзе малюнкаў высокага раздзялення [ , , , , , , ]. Гэты прагрэс таксама натхніў даследаванні ў галіне стварэння 3D кантэнту. Раннія падыходы накіраваны на прамое пашырэнне 2D CNN генератараў на 3D воксельныя сеткі [ , , , , ], але вялікі расход памяці і вылічальная складанасць 3D згортванняў перашкаджаюць працэсу генерацыі ў высокім раздзяленні. У якасці альтэрнатывы, іншыя работы даследавалі пункты аб'ёмаў [ , , , ], неявныя [ , ], або актарныя [ ] прадстаўленні. Аднак гэтыя работы ў асноўным факусуюцца на стварэнні геаметрыі і ігнаруюць знешні выгляд. Іх выхадныя прадстаўленні таксама патрабуюць пост-працэсу, каб зрабіць іх сумяшчальнымі са стандартнымі графічнымі рухавікамі. 3D Генератыўныя Мадэлі 34 35 33 52 29 19 16 66 20 27 40 62 5 68 75 46 43 14 30 Больш падобныя на нашу працу, Textured3DGAN [ , ] і DIBR [ ] ствараюць тэкстураваныя 3D сеткі, але яны фармулююць генерацыю як дэфармацыю шаблоннай сеткі, што перашкаджае ім ствараць складаную тапалогію або формы са зменлівым родам, што наша метад можа рабіць. PolyGen [ ] і SurfGen [ ] могуць ствараць сеткі з адвольнай тапалогіяй, але не сінтэзуюць тэкстуры. 54 53 11 48 41 Натхнёныя поспехам нейроннага рэндэрынгу аб'ёмаў [ ] і неявных прадстаўленняў [ , ], нядаўнія работы пачалі вырашаць праблему 3D-свядомага сінтэзу малюнкаў [ , , , , , , , , , ]. Аднак сеткі нейроннага рэндэрынгу аб'ёмаў звычайна павольна запытваюцца, што прыводзіць да доўгага часу навучання [ , ], і ствараюць выявы абмежаванага раздзялення. GIRAFFE [ ] і StyleNerf [ ] паляпшаюць эфектыўнасць навучання і рэндэрынгу, выконваючы нейронны рэндэрынг у ніжнім раздзяленні, а затым маштабуючы вынікі з дапамогай 2D CNN. Аднак павелічэнне прадукцыйнасці адбываецца за кошт зніжэння сумяшчальнасці некалькіх відаў. Выкарыстоўваючы падвойны дыскрымінатар, EG3D [ ] можа часткова вырашыць гэту праблему. Тым не менш, здабыццё тэкстураванай паверхні з метадаў, заснаваных на нейронным рэндэрынгу, з'яўляецца няпростай задачай. Наадварот, GET3D непасрэдна выводзіць тэкстураваныя 3D сеткі, якія могуць быць лёгка выкарыстаны ў стандартных графічных рухавіках. 3D-Свядомы Генератыўны Сінтэз Малюнкаў 45 43 14 7 57 49 26 25 76 8 51 58 67 7 57 49 25 8 3 Метад Цяпер мы прадстаўляем нашу структуру GET3D для сінтэзу тэкстураваных 3D формаў. Наш працэс генерацыі падзелены на дзве часткі: геаметрычная галіна, якая дыферэнцыйна выводзіць сетку паверхні адвольнай тапалогіі, і тэкстурная галіна, якая стварае тэкстурнае поле, якое можа быць запытана ў пунктах паверхні для стварэння колераў. Апошняе можа быць пашырана да іншых уласцівасцей паверхні, такіх як, напрыклад, матэрыялы (гл. ). Падчас навучання выкарыстоўваецца эфектыўны дыферэнцаваны растэрызатар для рэндэрынгу атрыманай тэкстураванай сеткі ў 2D выявы высокага раздзялення. Увесь працэс з'яўляецца дыферэнцавальным, што дазваляе антаганістычнае навучанне з 2D выявамі (з маскамі, якія паказваюць аб'ект цікавасці) шляхам распаўсюджвання градыентаў ад 2D дыскрымінатара да абедзвюх генератарных галін. Наша мадэль праілюстравана на Мал. . Далей мы спачатку прадстаўляем наш 3D генератар у разд. , перад тым як перайсці да дыферэнцавальнага рэндэрынгу і функцый страты ў разд. . 4.3.1 2 3.1 3.2 3.1 Генератыўная мадэль 3D тэкстураваных сетак Мы імкнемся вывучыць 3D генератар = ( ) для адлюстравання ўзору з гаўсавага размеркавання M, E G z ∈ N (0*,* ) у сетку з тэкстурай . z I M E Паколькі аднолькавая геаметрыя можа мець розныя тэкстуры, а аднолькавая тэкстура можа быць ужыта да розных геаметрый, мы ўзоруем два выпадковыя ўваходныя вектары 1 ∈ R512 і 2 ∈ R512. Пасля StyleGAN [ , , ], мы затым выкарыстоўваем нелінейныя сеткі адлюстравання geo і tex для адлюстравання 1 і 2 у прамежкавыя латэнтныя вектары 1 = geo( 1) і 2 = tex( 2), якія далей выкарыстоўваюцца для стварэння , якія кіруюць генерацыяй 3D формаў і тэкстуры адпаведна. Мы фармальна прадстаўляем генератар геаметрыі ў разд. і генератар тэкстуры ў разд. . z z 34 35 33 f f z z w f z w f z стыляў 3.1.1 3.1.2 3.1.1 Генератар геаметрыі Мы распрацоўваем наш генератар геаметрыі для ўключэння DMTet [ ], нядаўна прапанаванага дыферэнцавальнага прадстаўлення паверхні. DMTet прадстаўляе геаметрыю як поле знакаў адлегласці (SDF), вызначанае на дэфармуемай тэтраэдральнай сетцы [ , ], з якой паверхня можа быць дыферэнцыйна адноўлена праз маршавальныя тэтраэдры [ ]. Дэфармацыя сеткі шляхам перамяшчэння яе вяршыняў прыводзіць да лепшага выкарыстання яе раздзялення. Прымаючы DMTet для экстракцыі паверхні, мы можам ствараць відавочныя сеткі з адвольнай тапалогіяй і родам. Далей мы даем кароткі агляд DMTet і спасылаемся на арыгінальны артыкул для дадатковых дэталяў. 60 22 24 17 Няхай ( ) абазначае поўную 3D прастору, дзе знаходзіцца аб'ект, дзе - гэта вяршыні ў тэтраэдральнай сетцы . Кожны тэтраэдр ∈ вызначаецца чатырма вяршынямі { }, з ∈ {1*, . . . , K*}, дзе - агульная колькасць тэтраэдраў, і ∈ ∈ R3. У дадатак да яго 3D каардынатаў, кожная вяршыня змяшчае значэнне SDF ∈ R і дэфармацыю ∆ ∈ R3 вяршыні ад яе пачатковай кананічнай каардынаты. Гэта прадстаўленне дазваляе аднавіць відавочную сетку праз дыферэнцавальны алгарытм маршавых тэтраэдраў [ ], дзе SDF значэнні ў бесперапыннай прасторы вылічаюцца шляхам барыцэнтрычнай інтэрпаляцыі іх значэння на дэфармаваных вяршынях ′ = + ∆ . VT , T VT T Tk T v ak , v bk , v ck , v dk k K v ik VT , v ik i v i si v i 60 si v v i v i Мы адлюстроўваем 1 ∈ R512 у значэнні SDF і дэфармацыі кожнай вяршыні праз серыю умоўных 3D згортвальных і цалкам звязаных слаёў. У прыватнасці, мы спачатку выкарыстоўваем 3D згортвальныя слаі для стварэння аб'ёму функцый, які залежыць ад 1. Затым мы запытваем функцыю ў кожнай вяршыні ∈ з выкарыстаннем трылінейнай інтэрпаляцыі і падаём яе ў MLPs, якія выводзяць значэнне SDF і дэфармацыю ∆ . У выпадках, калі патрабуецца мадэляванне ў высокім раздзяленні (напрыклад, матацыкл з тонкімі структурамі на колах), мы дадаткова выкарыстоўваем падраздзяленне аб'ёму паводле [ ]. Архітэктура сеткі w v i w v i VT si v i 60 Пасля атрымання і ∆ для ўсіх вяршынь, мы выкарыстоўваем дыферэнцавальны алгарытм маршавых тэтраэдраў для экстракцыі відавочнай сеткі. Маршавальныя тэтраэдры вызначаюць тапалогію паверхні ў кожным тэтраэдры на аснове знакаў . У прыватнасці, грані сеткі здабываюцца, калі sign( ) /= sign( ), дзе пазначаюць індэксы вяршыняў у краі тэтраэдра, і вяршыні гэтай грані вызначаюцца лінейнай інтэрпаляцыяй як mi,j = v 0 i sj−v 0 j si sj−si . Варта адзначыць, што вышэйпрыведзенае ўраўненне ацэньваецца толькі тады, калі si 6= sj , такім чынам, яно з'яўляецца дыферэнцавальным, і градыент з mi,j можа быць распаўсюджаны ў SDF значэнні si і дэфармацыі ∆vi . З гэтым прадстаўленнем формы з адвольнай тапалогіяй могуць быць лёгка створаны шляхам прагназавання розных знакаў si . Дыферэнцавальнае здабыццё сеткі si v i si si sj i, j m i,j 3.1.2 Генератар тэкстуры Непасрэдная генерацыя карты тэкстуры, сумяшчальнай з выходнай сеткай, не з'яўляецца простым, паколькі створаная форма можа мець адвольны род і тапалогію. Такім чынам, мы параметруем тэкстуру як тэкстурнае поле [ ]. 50 У прыватнасці, мы мадэлюем тэкстурнае поле функцыяй , якая адлюстроўвае 3D размяшчэнне кропкі паверхні ∈ R3, з улікам 2, у колер RGB ∈ R3 у гэтым месцы. Паколькі тэкстурнае поле залежыць ад геаметрыі, мы дадаткова ўлічваем гэта адлюстраванне з улікам кода геаметрычнай латэнтнасці 1, такім чынам, што = ( *,* 1 ⊕ 2), дзе ⊕ пазначае канкантэнацыю. ft p w c w c ft p w w Мы прадстаўляем наша тэкстурнае поле з выкарыстаннем прадстаўлення трох плоскасцей, якое з'яўляецца эфектыўным і выразным у аднаўленні 3D аб'ектаў [ ] і стварэнні 3D-свядомых малюнкаў [ ]. У прыватнасці, мы прытрымліваемся [ , ] і выкарыстоўваем умоўную 2D згортвальную нейронную сетку для адлюстравання латэнтнага кода 1 ⊕ 2 у тры восева-выраўненыя артаганальныя прасторы функцый памерам × × ( × 3), дзе = 256 пазначае прасторавае раздзяленне, а = 32 - колькасць каналаў. Архітэктура сеткі 55 8 8 35 w w N N C N C Улічваючы прасторы функцый, вектар функцый f t ∈ R 32 кропкі паверхні p можа быць адноўлены як f t = P e ρ(πe(p)), дзе πe(p) - гэта праекцыя кропкі p на прастору функцый e, а ρ(