Forget Blender Skills: This AI Generates Complete 3D Objects for You

Аўтары: Юн Гао, NVIDIA, Універсітэт Таронта, Інстытут Вектара (jung@nvidia.com) Цяньчан Шэнь, NVIDIA, Універсітэт Таронта, Інстытут Вектара (frshen@nvidia.com) Цзыань Ван, NVIDIA, Універсітэт Таронта, Інстытут Вектара (zianw@nvidia.com) Вэньчжэн Чэнь, NVIDIA, Універсітэт Таронта, Інстытут Вектара (wenzchen@nvidia.com) Кансюэ Інь, NVIDIA (kangxuey@nvidia.com) Дайцын Лі, NVIDIA (daiqingl@nvidia.com) Ор Літані, NVIDIA (olitany@nvidia.com) Зан Гойчыч, NVIDIA (zgojcic@nvidia.com) Санья Фідлер, NVIDIA, Універсітэт Таронта, Інстытут Вектара (sfidler@nvidia.com) Рэзюмэ Паколькі некалькі галін прамысловасці рухаюцца да мадэлявання масавых 3D-віртуальных светаў, узнікае патрэба ў інструментах стварэння кантэнту, якія могуць маштабавацца па колькасці, якасці і разнастайнасці 3D-кантэнту. У сваёй працы мы імкнемся навучыць высокапрадукцыйныя 3D-генератыўныя мадэлі, якія сінтэзуюць тэкстураваныя сеткі, што могуць быць непасрэдна выкарыстаны рухавікамі 3D-рэндэрынгу, такім чынам, адразу ж прыдатныя для наступных прыкладанняў. Папярэднія працы па 3D-генератыўным мадэляванні альбо не маюць геаметрычных дэталяў, альбо абмежаваныя ў тапалогіі сетак, якія яны могуць вырабляць, звычайна не падтрымліваюць тэкстуры, альбо выкарыстоўваюць нейронныя рэндэры ў працэсе сінтэзу, што робіць іх выкарыстанне ў агульных 3D-праграмах не простай задачай. У гэтай працы мы прадстаўляем GET3D, enerative мадэль, якая непасрэдна стварае xplicit extured сеткі са складанай тапалогіяй, багатымі геаметрычнымі дэталямі і тэкстурамі высокай дакладнасці. Мы выкарыстоўваем нядаўнія поспехі ў дыферэнцавальным мадэляванні паверхні, дыферэнцавальным рэндэрынгу, а таксама 2D генератыўных праціўніцкіх сетках для навучання нашай мадэлі па калекцыях 2D-малюнкаў. GET3D здольны ствараць высакаякасныя 3D-тэкстураваныя сеткі, ад аўтамабіляў, крэслаў, жывёл, матацыклаў і чалавечых персанажаў да будынкаў, дасягаючы значных паляпшэнняў у параўнанні з папярэднімі метадамі. Наша старонка праекта: G E T 3D https://nv-tlabs.github.io/GET3D 1 Уводзіны Разнастайны, высакаякасны 3D-кантэнт становіцца ўсё больш важным для некалькіх галін, уключаючы гульні, робататэхніку, архітэктуру і сацыяльныя платформы. Аднак ручное стварэнне 3D-актываў займае шмат часу і патрабуе спецыфічных тэхнічных ведаў, а таксама навыкаў мадэлявання. Адной з галоўных праблем з'яўляецца маштаб – у той час як 3D-мадэлі можна знайсці на 3D-маркетплейсах, такіх як Turbosquid [ ] або Sketchfab [ ], стварэнне мноства 3D-мадэляў, напрыклад, для запаўнення гульні ці фільма персанажамі, якія ўсе выглядаюць па-рознаму, усё яшчэ патрабуе значнага часу мастака. 4 3 Каб палегчыць працэс стварэння кантэнту і зрабіць яго даступным для розных (пачаткоўцаў) карыстальнікаў, генератыўныя 3D-сеткі, якія могуць ствараць высакаякасныя і разнастайныя 3D-актывы, нядаўна сталі актыўнай вобласцю даследаванняў [ , , , , , , , , , , ]. Аднак, каб быць практычна карыснымі для бягучых рэальных прыкладанняў, 3D-генератыўныя мадэлі павінны ідэальна адпавядаць наступным патрабаванням: Яны павінны мець магчымасць генераваць формы з дэталёвай геаметрыяй і адвольнай тапалогіяй, Вывад павінен быць тэкстураванай сеткай, якая з'яўляецца асноўным прадстаўленнем, якое выкарыстоўваецца стандартнымі праграмнымі пакетамі для графікі, такімі як Blender [ ] і Maya [ ], і Мы павінны мець магчымасць выкарыстоўваць 2D-выявы для нагляду, бо яны больш даступныя, чым відавочныя 3D-формы. 5 14 43 46 53 68 75 60 59 69 23 (a) (b) 15 1 (c) Папярэднія працы па 3D-генератыўным мадэляванні факусаваліся на падмноствах вышэйзгаданых патрабаванняў, але дагэтуль ніводзін метад не адпавядае ім усім (Табл. ). Напрыклад, метады, якія ствараюць 3D-воблакі кропак [ , 68, 75], звычайна не ствараюць тэкстуры і павінны быць пераўтвораны ў сетку ў пост-працэсінгу. 1 5 Метады, якія генеруюць вокселі, часта не маюць геаметрычных дэталяў і не ствараюць тэкстуру [ , , , ]. Генератыўныя мадэлі на аснове нейронных палёў [ , ] факусуюцца на здабыванні геаметрыі, але ігнаруюць тэкстуру. Большасць з іх таксама патрабуе відавочнага 3D-нагляду. Нарэшце, метады, якія непасрэдна выводзяць тэкстураваныя 3D-сеткі [ , ], звычайна патрабуюць загадзя вызначаных шаблонаў формы і не могуць генераваць формы са складанай тапалогіяй і зменлівым родам. 66 20 27 40 43 14 54 53 Нядаўна хуткі прагрэс у нейронным аб'ёмным рэндэрынгу [ ] і 2D генератыўных праціўніцкіх сетках (GANs) [ , , , , ] прывёў да росту 3D-свядомага сінтэзу выяваў [ , , , , , ]. Аднак гэтыя працы накіраваны на сінтэз шматкадравых сумяшчальных выяваў з выкарыстаннем нейроннага рэндэрынгу ў працэсе сінтэзу і не гарантуюць, што могуць быць створаны значныя 3D-формы. У той час як сетку патэнцыйна можна атрымаць з базавага нейроннага поля з выкарыстаннем алгарытму маршыруючых кубоў [ ], здабыццё адпаведнай тэкстуры не з'яўляецца простай задачай. 45 34 35 33 29 52 7 57 8 49 51 25 39 У гэтай працы мы прадстаўляем новы падыход, які накіраваны на выкананне ўсіх патрабаванняў практычна карыснай 3D-генератыўнай мадэлі. У прыватнасці, мы прапануем GET3D, enerative мадэль для 3D-формаў, якая непасрэдна выводзіць xplicit extured сеткі з высокай геаметрычнай і тэкстурнай дэталлю і адвольнай тапалогіяй сеткі. У сэрцы нашага падыходу ляжыць генератыўны працэс, які выкарыстоўвае дыферэнцаваны метад здабывання паверхні [ ] і тэхніку дыферэнцавальнага рэндэрынгу [ , ]. Першая дазваляе нам непасрэдна аптымізаваць і выводзіць тэкстураваныя 3D-сеткі з адвольнай тапалогіяй, у той час як апошняя дазваляе нам навучаць нашу мадэль з 2D-выявамі, такім чынам выкарыстоўваючы магутныя і спелыя дыскрымінатары, распрацаваныя для сінтэзу 2D-выяваў. Паколькі наша мадэль непасрэдна стварае сеткі і выкарыстоўвае высокаэфектыўны (дыферэнцаваны) графічны рэндэр, мы можам лёгка маштабаваць нашу мадэль для навучання з разрозненнем выявы да 1024 × 1024, што дазваляе нам навучацца высакаякасным геаметрычным і тэкстурным дэталям. G E T 3D экстрэмальнага 60 47 37 Мы дэманструем найноўшую прадукцыйнасць для безумоўнай генерацыі 3D-формаў па некалькіх катэгорыях са складанай геаметрыяй з ShapeNet [ ], Turbosquid [ ] і Renderpeople [ ], такія як крэслы, матацыклы, аўтамабілі, чалавечыя персанажы і будынкі. З відавочным вывадам сеткі GET3D таксама вельмі гнуткі і можа быць лёгка адаптаваны да іншых задач, уключаючы: навучанне генерацыі раскладзеных матэрыялаў і эфектаў асвятлення, залежных ад вугла агляду, з выкарыстаннем прасунутага дыферэнцавальнага рэндэрынгу [ ], без нагляду, генерацыя 3D-формаў па тэкставым кіраўніцтве з выкарыстаннем CLIP [ ] ўкладання. 9 4 2 (a) 12 (b) 56 2 Звязаная праца Мы разглядаем нядаўнія дасягненні ў 3D-генератыўных мадэлях для геаметрыі і знешняга выгляду, а таксама 3D-свядомы генератыўны сінтэз выяваў. У апошнія гады 2D генератыўныя мадэлі дасягнулі фотарэалістычнай якасці ў сінтэзе выяваў высокага разрознення [ , , , , , , ]. Гэты прагрэс таксама натхніў даследаванні ў галіне генерацыі 3D-кантэнту. Раннія падыходы былі накіраваны на прамое пашырэнне 2D CNN генератараў на 3D воксельныя сеткі [ , , , , ], але вялікі адбітак памяці і вылічальная складанасць 3D-згортак перашкаджаюць працэсу генерацыі пры высокім разрозненні. У якасці альтэрнатывы, іншыя працы даследавалі воблака кропак [ , , , ], неявныя [ , ] або актарныя [ ] прадстаўленні. Аднак гэтыя працы ў асноўным сканцэнтраваны на генерацыі геаметрыі і ігнаруюць знешні выгляд. Іх вывадныя прадстаўленні таксама патрабуюць пост-працэсінгу, каб зрабіць іх сумяшчальнымі са стандартнымі рухавікамі графікі. 3D Генератыўныя Мадэлі 34 35 33 52 29 19 16 66 20 27 40 62 5 68 75 46 43 14 30 Больш падобныя на нашу працу, Textured3DGAN [ , ] і DIBR [ ] генеруюць тэкстураваныя 3D-сеткі, але яны фармулююць генерацыю як дэфармацыю шаблоннай сеткі, што перашкаджае ім генераваць складаную тапалогію або формы са зменлівым родам, што робіць наша метад. PolyGen [ ] і SurfGen [ ] могуць ствараць сеткі з адвольнай тапалогіяй, але не ствараюць тэкстуры. 54 53 11 48 41 Натхнёныя поспехам у нейронным аб'ёмным рэндэрынгу [ ] і неявных прадстаўленнях [ , ], нядаўнія працы пачалі вырашаць праблему 3D-свядомага сінтэзу выяваў [ , , , , , , , , , ]. Аднак сеткі для нейроннага аб'ёмнага рэндэрынгу звычайна павольныя для запыту, што прыводзіць да доўгіх часоў навучання [ , ], і генеруюць выявы абмежаванага разрознення. GIRAFFE [ ] і StyleNerf [ ] паляпшаюць эфектыўнасць навучання і рэндэрынгу, выконваючы нейронны рэндэрынг пры ніжэйшым разрозненні, а затым павялічваючы вынікі з дапамогай 2D CNN. Аднак павелічэнне прадукцыйнасці дасягаецца коштам зніжэння сумяшчальнасці паміж відамі. Выкарыстоўваючы падвойны дыскрымінатар, EG3D [ ] можа часткова вырашыць гэтую праблему. Тым не менш, здабыццё тэкстураванай паверхні з метадаў, заснаваных на нейронным рэндэрынгу, з'яўляецца не простай задачай. Наадварот, GET3D непасрэдна выводзіць тэкстураваныя 3D-сеткі, якія могуць быць гатовыя да выкарыстання ў стандартных графічных рухавіках. 3D-свядомы генератыўны сінтэз выяваў 45 43 14 7 57 49 26 25 76 8 51 58 67 7 57 49 25 8 3 Метад Цяпер мы прадстаўляем нашу рамку GET3D для сінтэзу тэкстураваных 3D-формаў. Наш працэс генерацыі падзелены на дзве часткі: геаметрычную галіну, якая дыферэнцавана выводзіць сетку паверхні адвольнай тапалогіі, і тэкстурную галіну, якая стварае тэкстурнае поле, якое можа быць запытанае ў кропках паверхні для атрымання колераў. Апошняе можа быць пашырана да іншых уласцівасцей паверхні, такіх як, напрыклад, матэрыялы (Раззел ). Падчас навучання выкарыстоўваецца эфектыўны дыферэнцаваны растеризатор для рэндэрынгу атрыманай тэкстураванай сеткі ў 2D выявы высокага разрознення. Увесь працэс з'яўляецца дыферэнцавальным, што дазваляе праціўніцкае навучанне па выявах (з маскамі, якія пазначаюць аб'ект цікавасці) шляхам распаўсюджвання градыентаў ад 2D дыскрымінатара да абедзвюх генератарных галін. Наша мадэль праілюстравана на мал. . Далей мы спачатку прадстаўляем наш 3D генератар у раздзеле , перш чым перайсці да дыферэнцавальнага рэндэрынгу і функцый страт у раздзеле . 4.3.1 2 3.1 3.2 3.1 Генератыўная мадэль 3D-тэкстураваных сетак Мы імкнемся навучыць 3D генератар = ( ) адлюстроўваць узор з гаўсаўскага размеркавання M, E G z ∈ N (0*,* ) у сетку з тэкстурай . z I M E Паколькі аднолькавая геаметрыя можа мець розныя тэкстуры, і аднолькавая тэкстура можа быць ужыта да розных геаметрый, мы выбіраем два выпадковыя ўваходныя вектары 1 ∈ R512 і 2 ∈ R512. Пасля StyleGAN [ , , ], мы выкарыстоўваем нелінейныя картавальных сеткі geo і tex для адлюстравання 1 і 2 у прамежкавыя вектары латэнтнасці 1 = geo( 1) і 2 = tex( 2), якія далей выкарыстоўваюцца для стварэння , якія кантралююць генерацыю 3D-формаў і тэкстуры адпаведна. Мы фармальна прадстаўляем генератар геаметрыі ў раздзеле і генератар тэкстуры ў раздзеле . z z 34 35 33 f f z z w f z w f z стыляў 3.1.1 3.1.2 3.1.1 Генератар геаметрыі Мы распрацоўваем наш генератар геаметрыі для ўключэння DMTet [ ], нядаўна прапанаванага дыферэнцавальнага прадстаўлення паверхні. DMTet прадстаўляе геаметрыю як поле знакавых адлегласцей (SDF), вызначанае на дэфармуемай тэтраэдральнай сетцы [ , ], з якой паверхня можа быць дыферэнцавана адноўлена праз маршыруючыя тэтраэдры [ ]. Дэфармацыя сеткі шляхам перамяшчэння яе вяршыняў прыводзіць да лепшага выкарыстання яе разрознення. Прымаючы DMTet для здабыцця паверхні, мы можам ствараць відавочныя сеткі з адвольнай тапалогіяй і родам. Далей мы даем кароткі агляд DMTet і спасылаемся на арыгінальны артыкул для атрымання дадатковых дэталяў. 60 22 24 17 Няхай ( ) абазначае поўную 3D-прастору, у якой знаходзіцца аб'ект, дзе - гэта вяршыні ў тэтраэдральнай сетцы . Кожны тэтраэдр ∈ вызначаецца з дапамогай чатырох вяршыняў { }, з ∈ {1*, . . . , K*}, дзе - агульная колькасць тэтраэдраў, і ∈ ∈ R3. У дадатак да сваіх 3D-каардынатаў, кожная вяршыня змяшчае значэнне SDF ∈ R і дэфармацыю ∆ ∈ R3 вяршыні ад яе зыходных кананічных каардынатаў. Гэта прадстаўленне дазваляе аднавіць відавочную сетку праз дыферэнцаваны маршыруючыя тэтраэдры [ ], дзе значэнні SDF у бесперапыннай прасторы вылічваюцца шляхам барыцэнтрычнай інтэрполяцыі іх значэння на дэфармаваных вяршынях ′ = + ∆ . VT , T VT T Tk T v ak , v bk , v ck , v dk k K v ik VT , v ik v i si v i 60 si v v i v i Мы адлюстроўваем 1 ∈ R512 у значэнні SDF і дэфармацыі ў кожнай вяршыні праз серыю умоўных 3D-згортачных і поўназвязаных слаёў. У прыватнасці, мы спачатку выкарыстоўваем 3D-згортачныя слаі для стварэння аб'ёмнага прызнаку, умоўнага па 1. Затым мы запытваць прызнак у кожнай вяршыні ∈ з дапамогай трылінейнай інтэрпаляцыі і падаем яго ў MLP, якія выводзяць значэнне SDF і дэфармацыю ∆ . У выпадках, калі патрабуецца мадэляванне пры высокім разрозненні (напрыклад, матацыкл з тонкімі структурамі ў колах), мы дадаткова выкарыстоўваем аб'ёмнае падраздзяленне ў адпаведнасці з [ ]. Архітэктура сеткі w v i w v i VT si v i 60 Пасля атрымання і ∆ для ўсіх вяршыняў, мы выкарыстоўваем дыферэнцаваны алгарытм маршыруючых тэтраэдраў для здабыцця відавочнай сеткі. Маршыруючыя тэтраэдры вызначаюць тапалогію паверхні ў межах кожнага тэтраэдра на аснове знакаў . У прыватнасці, грань сеткі здабываецца, калі sign( ) /= sign( ), дзе абазначаюць індэксы вяршыняў у краі тэтраэдра, а вяршыні гэтай грані вызначаюцца лінейнай інтэрпаляцыяй як mi,j = v 0 i sj−v 0 j si sj−si . Звярніце ўвагу, што вышэйпрыведзеная формула ацэньваецца толькі калі si 6= sj , такім чынам, яна з'яўляецца дыферэнцавальнай, і градыент ад mi,j можа быць адпраўлены назад у значэнні SDF si і дэфармацыі ∆vi . З гэтым прадстаўленнем формы з адвольнай тапалогіяй могуць быць лёгка створаны шляхам прадказання розных знакаў si . Дыферэнцаванае здабыццё сеткі si v i si si sj i, j m i,j 3.1.2 Генератар тэкстуры Непасрэднае стварэнне тэкстурнай карты, сумяшчальнай з вываднай сеткай, не з'яўляецца простай задачай, паколькі створаная форма можа мець адвольны род і тапалогію. Такім чынам, мы параметрам тэкстуру як тэкстурнае поле [ ]. 50 У прыватнасці, мы мадэлюем тэкстурнае поле функцыяй , якая адлюстроўвае 3D-размяшчэнне кропкі паверхні ∈ R3, умоўнае па 2, у колер RGB ∈ R3 у гэтым размяшчэнні. Паколькі тэкстурнае поле залежыць ад геаметрыі, мы дадаткова ўмоўна робім гэта адлюстраванне на код геаметрыі 1, такім чынам, што = ( *,* 1 ⊕ 2), дзе ⊕ азначае канкантенацыю. ft p w c w c ft p w w Мы прадстаўляем наша тэкстурнае поле з выкарыстаннем трохплоскаснага прадстаўлення, якое з'яўляецца эфектыўным і выразным у аднаўленні 3D-аб'ектаў [ ] і генерацыі 3D-свядомых выяваў [ ]. У прыватнасці, мы прытрымліваемся [ , ] і выкарыстоўваем умоўную 2D згортачную нейронную сетку для адлюстравання латэнтнага кода 1 ⊕ 2 у тры восева-выраўняныя артаганальныя прызнаковыя плоскасці памерам × × ( × 3), дзе = 256 абазначае прасторавае разрозненне, а = 32 - колькасць каналаў. Архітэктура сеткі 55 8 8 35 w w N N C N C У