```html ავტორები: Jun Gao, NVIDIA, University of Toronto, Vector Institute (jung@nvidia.com) Tianchang Shen, NVIDIA, University of Toronto, Vector Institute (frshen@nvidia.com) Zian Wang, NVIDIA, University of Toronto, Vector Institute (zianw@nvidia.com) Wenzheng Chen, NVIDIA, University of Toronto, Vector Institute (wenzchen@nvidia.com) Kangxue Yin, NVIDIA (kangxuey@nvidia.com) Daiqing Li, NVIDIA (daiqingl@nvidia.com) Or Litany, NVIDIA (olitany@nvidia.com) Zan Gojcic, NVIDIA (zgojcic@nvidia.com) Sanja Fidler, NVIDIA, University of Toronto, Vector Institute (sfidler@nvidia.com) რეზიუმე ვინაიდან რამდენიმე ინდუსტრია მასიური 3D ვირტუალური სამყაროების მოდელირებისკენ მიისწრაფვის, 3D კონტენტის რაოდენობის, ხარისხისა და მრავალფეროვნების თვალსაზრისით მასშტაბირებადი კონტენტის შექმნის ინსტრუმენტების საჭიროება აშკარა ხდება. ჩვენს ნაშრომში, ჩვენი მიზანია, შევქმნათ ეფექტური 3D გენერაციული მოდელები, რომლებიც სინთეზირებენ ტექსტურირებულ ბადეებს, რომელთა გამოყენება შესაძლებელია უშუალოდ 3D რენდერინგის ძრავებში, რითაც ისინი მყისიერად გამოსაყენებელი იქნება შემდგომი გამოყენებისთვის. 3D გენერაციული მოდელირების წინა ნამუშევრები ან მოკლებული არიან გეომეტრიულ დეტალებს, ან შეზღუდული არიან ბადის ტოპოლოგიით, რომლის წარმოებაც შეუძლიათ, ჩვეულებრივ არ უჭერენ მხარს ტექსტურებს, ან იყენებენ ნეირონულ რენდერერებს სინთეზის პროცესში, რაც მათ გამოყენებას ჩვეულებრივ 3D პროგრამულ უზრუნველყოფაში ართულებს. ამ ნაშრომში, ჩვენ წარმოგიდგენთ GET3D-ს, enerative მოდელს, რომელიც უშუალოდ ქმნის xplicit extured ბადეებს კომპლექსური ტოპოლოგიით, მდიდარი გეომეტრიული დეტალებით და მაღალი ერთგულების ტექსტურებით. ჩვენ ვიყენებთ ბოლო წარმატებებს დიფერენციალურ ზედაპირულ მოდელირებაში, დიფერენციალურ რენდერინგში, აგრეთვე 2D გენერაციულ ანტაგონისტურ ქსელებში (GANs) ჩვენი მოდელის 2D სურათების კოლექციებიდან გასაწვრთნელად. GET3D-ს შეუძლია შექმნას მაღალი ხარისხის 3D ტექსტურირებული ბადეები, დაწყებული მანქანებით, სკამებით, ცხოველებით, მოტოციკლებითა და ადამიანის პერსონაჟებით, შენობებამდე, რაც მნიშვნელოვან გაუმჯობესებას აღწევს წინა მეთოდებთან შედარებით. ჩვენი პროექტის გვერდი: G E T 3D https://nv-tlabs.github.io/GET3D 1 შესავალი მრავალფეროვანი, მაღალი ხარისხის 3D კონტენტი სულ უფრო მნიშვნელოვანი ხდება რამდენიმე ინდუსტრიისთვის, მათ შორის თამაშების, რობოტექნიკის, არქიტექტურისა და სოციალური პლატფორმებისთვის. თუმცა, 3D აქტივების ხელით შექმნა ძალიან შრომატევადია და მოითხოვს სპეციფიკურ ტექნიკურ ცოდნას, აგრეთვე სამხატვრო მოდელირების უნარებს. ერთ-ერთი მთავარი გამოწვევა, შესაბამისად, არის მასშტაბი – მიუხედავად იმისა, რომ 3D მოდელების პოვნა შესაძლებელია 3D ბაზრებში, როგორიცაა Turbosquid [ ] ან Sketchfab [ ], მრავალი 3D მოდელის შექმნა, მაგალითად, თამაშის ან ფილმის პერსონაჟების ბრბოთი შესავსებად, რომლებსაც ყველას განსხვავებული იერი აქვს, კვლავ მოითხოვს მნიშვნელოვან დროს მხატვრებისგან. 4 3 კონტენტის შექმნის პროცესის გასაადვილებლად და მას მრავალი (ახალბედა) მომხმარებლისთვის ხელმისაწვდომი რომ გახდეს, გენერაციული 3D ქსელები, რომლებსაც შეუძლიათ მაღალი ხარისხის და მრავალფეროვანი 3D აქტივების შექმნა, ბოლო დროს გახდა კვლევის აქტიური სფერო [ , , , , , , , , , , ]. თუმცა, პრაქტიკული გამოყენებისთვის მიმდინარე რეალურ აპლიკაციებში, 3D გენერაციულმა მოდელებმა იდეალურად უნდა დააკმაყოფილონ შემდეგი მოთხოვნები: მათ უნდა ჰქონდეთ შესაძლებლობა შექმნან ფორმები დეტალური გეომეტრიით და თვითნებური ტოპოლოგიით, შედეგი უნდა იყოს ტექსტურირებული ბადე, რომელიც არის პირველადი წარმოდგენა, რომელსაც იყენებენ სტანდარტული გრაფიკული პროგრამული პაკეტები, როგორიცაა Blender [ ] და Maya [ ], და ჩვენ უნდა შევძლოთ 2D სურათების გამოყენება ზედამხედველობისთვის, რადგან ისინი უფრო ფართოდ ხელმისაწვდომია, ვიდრე ექსპლიციტური 3D ფორმები. 5 14 43 46 53 68 75 60 59 69 23 (a) (b) 15 1 (c) 3D გენერაციული მოდელირების წინა ნამუშევრები ფოკუსირებული იყო ზემოთ ჩამოთვლილი მოთხოვნების ნაწილებზე, მაგრამ არცერთი მეთოდი დღემდე არ აკმაყოფილებს მათ ყველა ასპექტს (ცხრილი ). მაგალითად, მეთოდები, რომლებიც ქმნიან 3D წერტილოვან ღრუბლებს [ , 68, 75], ჩვეულებრივ არ ქმნიან ტექსტურებს და უნდა გადაკეთდეს ბადეებად შემდგომი დამუშავებისას. 1 5 ვოქსელების შემქმნელი მოდელები ხშირად მოკლებულია გეომეტრიულ დეტალებს და არ ქმნის ტექსტურებს [ , , , ]. ნეირონულ ველებზე დაფუძნებული გენერაციული მოდელები [ , ] ფოკუსირებულია გეომეტრიის ამოღებაზე, მაგრამ უგულებელყოფს ტექსტურას. ამათგან უმეტესობა ასევე საჭიროებს ექსპლიციტურ 3D ზედამხედველობას. დაბოლოს, მეთოდები, რომლებიც უშუალოდ ქმნიან ტექსტურირებულ 3D ბადეებს [ , ], ჩვეულებრივ საჭიროებენ წინასწარ განსაზღვრულ ფორმის შაბლონებს და არ შეუძლიათ კომპლექსური ტოპოლოგიის ან ცვლადი გვარის მქონე ფორმების შექმნა. 66 20 27 40 43 14 54 53 ბოლო დროს, ნეირონული მოცულობითი რენდერინგის [ ] და 2D გენერაციული ანტაგონისტური ქსელების (GANs) [ , , , , ] სწრაფმა პროგრესმა გამოიწვია 3D-aware გამოსახულების სინთეზის აღზევება [ , , , , , ]. თუმცა, ამ მიმართულების ნამუშევრები მიზნად ისახავს მრავალხედვის თანმიმდევრული სურათების სინთეზირებას ნეირონული რენდერინგის გამოყენებით სინთეზის პროცესში და არ იძლევა გარანტიას, რომ შესაძლებელია მნიშვნელოვანი 3D ფორმების შექმნა. მიუხედავად იმისა, რომ ბადე შეიძლება მიღებულ იქნას არსებული ნეირონული ველის წარმოდგენიდან მარტინგ-კუბის ალგორითმის [ ] გამოყენებით, შესაბამისი ტექსტურის ამოღება არ არის ტრივიალური. 45 34 35 33 29 52 7 57 8 49 51 25 39 ამ ნაშრომში, ჩვენ წარმოგიდგენთ ახალ მიდგომას, რომელიც მიზნად ისახავს პრაქტიკულად სასარგებლო 3D გენერაციული მოდელის ყველა მოთხოვნას. კერძოდ, ჩვენ შემოგვთავაზეთ GET3D, enerative მოდელი 3D ფორმებისთვის, რომელიც უშუალოდ ქმნის xplicit extured ბადეებს მაღალი გეომეტრიული და ტექსტურის დეტალებით და თვითნებური ბადის ტოპოლოგიით. ჩვენი მიდგომის გულში დევს გენერაციული პროცესი, რომელიც იყენებს დიფერენციალურ ზედაპირის ამოღების მეთოდს [ ] და დიფერენციალურ რენდერინგის ტექნიკას [ , ]. პირველი საშუალებას გვაძლევს უშუალოდ მოვახდინოთ ტექსტურირებული 3D ბადების ოპტიმიზაცია და ექსპორტი თვითნებური ტოპოლოგიით, ხოლო მეორე გვაძლევს საშუალებას, ჩვენი მოდელი გავაწრთვნათ 2D სურათებით, რითაც ვიყენებთ ძლიერ და მომწიფებულ დისკრიმინატორებს, რომლებიც შემუშავებულია 2D სურათების სინთეზისთვის. ვინაიდან ჩვენი მოდელი პირდაპირ ქმნის ბადეებს და იყენებს მაღალეფექტურ (დიფერენციალურ) გრაფიკულ რენდერერს, ჩვენ შეგვიძლია ადვილად გავზარდოთ ჩვენი მოდელი, რათა გავწვრთნათ სურათის G E T 3D ექსპლიციტურ 60 47 37 რეზოლუციით 1024 × 1024, რაც გვაძლევს საშუალებას ვისწავლოთ მაღალი ხარისხის გეომეტრიული და ტექსტურის დეტალები. ჩვენ ვაჩვენებთ უახლეს შესრულებას არამარტო 3D ფორმების გენერაციაში ShapeNet [ ], Turbosquid [ ] და Renderpeople [ ] კატეგორიებში, როგორიცაა მანქანები, სკამები, ცხოველები, მოტოციკლები და ადამიანის პერსონაჟები, შენობები, რაც მნიშვნელოვან გაუმჯობესებას აღწევს წინა მეთოდებთან შედარებით. ექსპლიციტური ბადის, როგორც შედეგის წარმოდგენის საშუალებით, GET3D ასევე ძალიან მოქნილია და ადვილად შეიძლება მორგებული იყოს სხვა ამოცანებზე, მათ შორის: დეკომპოზიციური მასალისა და ხედზე დამოკიდებული განათების ეფექტების შექმნის სწავლა, მოწინავე დიფერენციალური რენდერინგის [ ] გამოყენებით, ზედამხედველობის გარეშე, ტექსტით მართვადი 3D ფორმის გენერაცია CLIP [ ] ემბედინგის გამოყენებით. 9 4 2 (a) 12 (b) 56 2 მონათესავე ნამუშევრები ჩვენ მიმოვიხილავთ ბოლო მიღწევებს 3D გენერაციულ მოდელებში გეომეტრიისა და გარეგნობისთვის, აგრეთვე 3D-aware გენერაციული სურათების სინთეზში. ბოლო წლებში, 2D გენერაციულმა მოდელებმა მიაღწიეს ფოტო-რეალისტურ ხარისხეს მაღალი რეზოლუციის სურათების სინთეზში [ , , , , , , ]. ამ პროგრესმა ასევე შთააგონა კვლევები 3D კონტენტის გენერაციაში. ადრეულმა მიდგომებმა მიზნად ისახა 2D CNN გენერატორების პირდაპირი გაფართოება 3D ვოქსელ გრიდებზე [ , , , , ], მაგრამ 3D კონვოლუციების მაღალი მეხსიერების მოხმარება და გამოთვლითი სირთულე აფერხებს გენერაციის პროცესს მაღალ რეზოლუციაზე. ალტერნატივად, სხვა ნამუშევრებმა შეისწავლეს წერტილოვანი ღრუბლის [ , , , ], იმპლიციტური [ , ], ან ოქტრი [ ] წარმოდგენები. თუმცა, ეს ნამუშევრები ძირითადად ფოკუსირებულია გეომეტრიის შექმნაზე და უგულებელყოფს გარეგნობას. მათი შედეგები ასევე საჭიროებს შემდგომ დამუშავებას, რათა შეესაბამებოდეს სტანდარტულ გრაფიკულ ძრავებს. 3D გენერაციული მოდელები 34 35 33 52 29 19 16 66 20 27 40 62 5 68 75 46 43 14 30 ჩვენს ნამუშევართან უფრო ახლოს, Textured3DGAN [ , ] და DIBR [ ] ქმნიან ტექსტურირებულ 3D ბადეებს, მაგრამ ისინი გენერაციის პროცესს ფორმის შაბლონის დეფორმაციის სახით აყალიბებენ, რაც ხელს უშლის მათ კომპლექსური ტოპოლოგიის ან ცვლადი გვარის მქონე ფორმების შექმნაში, რისი გაკეთებაც ჩვენს მეთოდს შეუძლია. PolyGen [ ] და SurfGen [ ] შეუძლიათ თვითნებური ტოპოლოგიის მქონე ბადეების შექმნა, მაგრამ არ ქმნიან ტექსტურებს. 54 53 11 48 41 ნეირონული მოცულობითი რენდერინგის [ ] და იმპლიციტური წარმოდგენების [ , ] წარმატების შთაგონებით, ბოლო ნამუშევრებმა დაიწყეს 3D-aware სურათების სინთეზის პრობლემის გადაჭრა [ , , , , , , , , , ]. თუმცა, ნეირონული მოცულობითი რენდერინგის ქსელები ჩვეულებრივ ნელა იკითხება, რაც იწვევს ხანგრძლივ სასწავლო დროს [ , ] და ზღუდავს სურათების რეზოლუციას. GIRAFFE [ ] და StyleNerf [ ] აუმჯობესებენ სასწავლო და რენდერინგის ეფექტურობას ნეირონული რენდერინგის დაბალ რეზოლუციაზე შესრულებით და შემდეგ შედეგების 2D CNN-ით გაზრდით. თუმცა, შესრულების ზრდა მოდის მრავალხედვის თანმიმდევრულობის შემცირების ფასად. ორმაგი დისკრიმინატორის გამოყენებით, EG3D [ ] შეუძლია ამ პრობლემის ნაწილობრივ შერბილება. მიუხედავად ამისა, ტექსტურირებული ზედაპირის ამოღება ნეირონულ რენდერინგზე დაფუძნებული მეთოდებისგან არის არამარტივი ამოცანა. პირიქით, GET3D უშუალოდ ქმნის ტექსტურირებულ 3D ბადეებს, რომელთა გამოყენებაც შესაძლებელია სტანდარტულ გრაფიკულ ძრავებში. 3D-Aware გენერაციული სურათების სინთეზი 45 43 14 7 57 49 26 25 76 8 51 58 67 7 57 49 25 8 3 მეთოდი ჩვენ ახლა წარმოგიდგენთ ჩვენს GET3D ჩარჩოს ტექსტურირებული 3D ფორმების სინთეზისთვის. ჩვენი გენერაციის პროცესი იყოფა ორ ნაწილად: გეომეტრიის ფილიალი, რომელიც დიფერენციალურ ფორმას ქმნის თვითნებური ტოპოლოგიის ზედაპირულ ბადედ, და ტექსტურის ფილიალი, რომელიც ქმნის ტექსტურის ველს, რომლის კითხვაც შესაძლებელია ზედაპირის წერტილებში ფერების მისაღებად. უკანასკნელი შეიძლება გაფართოვდეს სხვა ზედაპირის თვისებებზე, მაგალითად, მასალებზე (სექ. ). სასწავლო პროცესში, ეფექტური დიფერენციალური რასტერიზატორი გამოიყენება მიღებული ტექსტურირებული ბადის 2D მაღალი რეზოლუციის სურათებში რენდერინგისთვის. მთელი პროცესი დიფერენცირებადია, რაც იძლევა საშუალებას ანტაგონისტური სასწავლო პროცესის სურათებით (ნიღბებით, რომლებიც აღნიშნავენ ინტერესის ობიექტს) 2D დისკრიმინატორის გრადიენტების ორივე გენერატორის ფილიალში გავრცელებით. ჩვენი მოდელი ილუსტრირებულია ნახ. . ქვემოთ, ჩვენ პირველ რიგში წარმოგიდგენთ ჩვენს 3D გენერატორს სექ. -ში, სანამ გადავალთ დიფერენციალურ რენდერინგსა და წაგების ფუნქციებზე სექ. -ში. 4.3.1 2 3.1 3.2 3.1 3D ტექსტურირებული ბადეების გენერაციული მოდელი ჩვენი მიზანია 3D გენერატორი = ( ) ვისწავლოთ, რათა დავაპროექციოთ გაუსის განაწილებიდან ამოღებული ნიმუში M, E G z ∈ N (0*,* ) ბადედ ტექსტურით . z I M E ვინაიდან ერთსა და იმავე გეომეტრიას შეიძლება ჰქონდეს განსხვავებული ტექსტურები და ერთსა და იმავე ტექსტურას შეიძლება ჰქონდეს გამოყენება განსხვავებულ გეომეტრიაზე, ჩვენ ვიღებთ ორ შემთხვევით შეყვანის ვექტორს 1 ∈ R512 და 2 ∈ R512. StyleGAN [ , , ] მიხედვით, ჩვენ ვიყენებთ არაწრფივ დაპროექტების ქსელებს geo და tex, რომ დავაპროექციოთ 1 და 2 შუალედურ ლატენტურ ვექტორებად 1 = geo( 1) და 2 = tex( 2), რომლებიც შემდგომში გამოიყენება შესაქმნელად, რომლებიც აკონტროლებენ 3D ფორმების და ტექსტურის გენერაციას, შესაბამისად. ჩვენ ფორმალურად წარმოგიდგენთ გეომეტრიის გენერატორს სექ. -ში და ტექსტურის გენერატორს სექ. -ში. z z 34 35 33 f f z z w f z w f z სტილის 3.1.1 3.1.2 3.1.1 გეომეტრიის გენერატორი ჩვენ ვქმნით ჩვენს გეომეტრიის გენერატორს DMTet [ ] ჩასართავად, რომელიც არის ბოლო დროს შემოთავაზებული დიფერენციალური ზედაპირის წარმოდგენა. DMTet გეომეტრიას წარმოადგენს, როგორც ნიშანდამოკიდებულ მანძილის ველს (SDF), რომელიც განსაზღვრულია დეფორმირებულ ტეტრაჰედრალურ გრიდზე [ , ], საიდანაც ზედაპირი შეიძლება დიფერენციალურად იქნას აღდგენილი მარტინგ-ტეტრაჰედრების [ ] მეშვეობით. გრიდის დეფორმაცია მისი წვეროების გადაადგილებით იწვევს მის რეზოლუციის უკეთეს გამოყენებას. DMTet-ის გამოყენებით ზედაპირის ამოსაღებად, ჩვენ შეგვიძლია შევქმნათ ექსპლიციტური ბადეები თვითნებური ტოპოლოგიით და გვარით. ჩვენ შემდეგ მოგვაწოდებთ DMTet-ის მოკლე მიმოხილვას და დანარჩენი ინფორმაციისთვის მივმართავთ ორიგინალურ ნაშრომს. 60 22 24 17 დაე ( ) აღნიშნავდეს სრულ 3D სივრცეს, რომელშიც ობიექტი მდებარეობს, სადაც არის წვეროები ტეტრაჰედრულ გრიდზე . თითოეული ტეტრაჰედონი ∈ განისაზღვრება ოთხი წვეროთი { }, სადაც ∈ {1*, . . . , K*}, სადაც არის ტეტრაჰედონების საერთო რაოდენობა და ∈ ∈ R3. მის გარდა 3D კოორდინატებისა, თითოეული წვერო შეიცავს SDF მნიშვნელობას ∈ R და დეფორმაციას ∆ ∈ R3 წვეროს თავდაპირველი კანონიკური კოორდინატიდან. ეს წარმოდგენა იძლევა ექსპლიციტური ბადის აღდგენას დიფერენციალური მარტინგ-ტეტრაჰედრების [ ] მეშვეობით, სადაც SDF მნიშვნელობები უწყვეტ სივრცეში გამოითვლება მათი მნიშვნელობის ბარის-ცენტრული ინტერპოლაციით დეფორმირებულ წვეროებზე ′ = + ∆ . VT , T VT T Tk T v ak , v bk , v ck , v dk k K v ik VT , v ik i v i si v i 60 si v v i v i ჩვენ ვაპროექტებთ 1 ∈ R512-ს SDF მნიშვნელობებად და დეფორმაციებად თითოეულ წვეროზე სერიული პირობითი 3D კონვოლუციური და სრულად დაკავშირებული ფენების მეშვეობით. კერძოდ, ჩვენ პირველ რიგში ვიყენებთ 3D კონვოლუციურ ფენებს, რათა შევქმნათ ფუნქციური მოცულობა, რომელიც დამოკიდებულია 1-ზე. შემდეგ ჩვენ ვკითხულობთ ფუნქციას თითოეულ წვეროზე ∈ ტრილინეარული ინტერპოლაციის გამოყენებით და ვაწვდით მას MLPs-ს, რომელიც ქმნის SDF მნიშვნელობას და დეფორმაციას ∆ . იმ შემთხვევებში, როდესაც მაღალი რეზოლუციის მოდელირებაა საჭირო (მაგ., მოტოციკლი თხელი სტრუქტურებით ბორბლებზე), ჩვენ დამატებით ვიყენებთ მოცულობის დაყოფას [ ] მიხედვით. ქსელის არქიტექტურა w v i w v i VT si v i 60 ყველა წვეროსთვის და ∆ მიღების შემდეგ, ჩვენ ვიყენებთ დიფერენციალურ მარტინგ-ტეტრაჰედრების ალგორითმს ექსპლიციტური ბადის ამოსაღებად. მარტინგ-ტეტრაჰედრები განსაზღვრავს ზედაპირის ტოპოლოგიას თითოეული ტეტრაჰედონის შიგნით, -ის ნიშნების საფუძველზე. კერძოდ, ბადის სახე ამოღებულია, როდესაც sign( ) /= sign( ), სადაც აღნიშნავს ტეტრაჰედონის კიდის წვეროების ინდექსებს, და ამ სახის წვეროები განისაზღვრება წრფივი ინტროპოლაციით, როგორც mi,j = v 0 i sj−v 0 j si sj−si . შენიშნეთ, რომ ზემოთ მოცემული განტოლება შეფასებულია მხოლოდ მაშინ, როდესაც si 6= sj , ამრიგად ის დიფერენცირებადია და mi,j-დან გრადიენტი შეიძლება უკუ-გავრცელდეს SDF მნიშვნელობებში si და დეფორმაციებში ∆vi . ამ წარმოდგენით, თვითნებური ტოპოლოგიის მქონე ფორმები შეიძლება ადვილად შეი დიფერენციალური ბადის ამოღება si v i si si sj i, j m i,j