ავტორები: Jun Gao, NVIDIA, University of Toronto, Vector Institute (jung@nvidia.com) Tianchang Shen, NVIDIA, University of Toronto, Vector Institute (frshen@nvidia.com) Zian Wang, NVIDIA, University of Toronto, Vector Institute (zianw@nvidia.com) Wenzheng Chen, NVIDIA, University of Toronto, Vector Institute (wenzchen@nvidia.com) Kangxue Yin, NVIDIA (kangxuey@nvidia.com) Daiqing Li, NVIDIA (daiqingl@nvidia.com) Or Litany, NVIDIA (olitany@nvidia.com) Zan Gojcic, NVIDIA (zgojcic@nvidia.com) Sanja Fidler, NVIDIA, University of Toronto, Vector Institute (sfidler@nvidia.com) აბსტრაქტი იმის გამო, რომ რამდენიმე ინდუსტრია მიისწრაფვის მასიური 3D ვირტუალური სამყაროების მოდელირებისკენ, აშკარა ხდება 3D კონტენტის რაოდენობის, ხარისხისა და მრავალფეროვნების თვალსაზრისით მასშტაბირებადი კონტენტის შექმნის ინსტრუმენტების საჭიროება. ჩვენს ნამუშევარში, ჩვენ მიზნად ისახავს ეფექტური 3D გენერაციული მოდელების მომზადებას, რომლებიც სინთეზირებენ ტექსტურირებულ ბადეებს, რომლებსაც შეუძლიათ პირდაპირ მოხმარება 3D რენდერის ძრავების მიერ, რითაც დაუყოვნებლივ გამოიყენება ქვედა ნაკადის აპლიკაციებში. 3D გენერაციული მოდელირების წინა ნამუშევრები ან მოკლებულია გეომეტრიულ დეტალებს, შეზღუდულია ბადის ტოპოლოგიით, რომლის წარმოებაც შეუძლიათ, ჩვეულებრივ არ უჭერს მხარს ტექსტურებს, ან იყენებს ნეირონულ რენდერებს სინთეზის პროცესში, რაც მათ გამოყენებას საერთო 3D პროგრამულ უზრუნველყოფაში არცთუ იოლი ხდის. ამ ნამუშევარში, ჩვენ წარმოგიდგენთ GET3D-ს, enerative მოდელს, რომელიც პირდაპირ ქმნის xplicit extured ბადეებს კომპლექსური ტოპოლოგიით, მდიდარი გეომეტრიული დეტალებით და მაღალი ერთგულების ტექსტურებით. ჩვენ ვაერთიანებთ უახლეს წარმატებებს დიფერენცირებად ზედაპირის მოდელირებაში, დიფერენცირებად რენდერში, ასევე 2D Generative Adversarial Networks-ში, რათა მოვამზადოთ ჩვენი მოდელი 2D სურათების კოლექციებიდან. GET3D-ს შეუძლია მაღალი ხარისხის 3D ტექსტურირებული ბადეების შექმნა, მანქანებიდან, სკამებიდან, ცხოველებიდან, მოტოციკლებიდან და ადამიანის პერსონაჟებიდან შენობებამდე, მიაღწია მნიშვნელოვან გაუმჯობესებას წინა მეთოდებთან შედარებით. ჩვენი პროექტის გვერდი: G E T 3D https://nv-tlabs.github.io/GET3D 1 შესავალი მრავალფეროვანი, მაღალი ხარისხის 3D კონტენტი სულ უფრო მნიშვნელოვანი ხდება რამდენიმე ინდუსტრიისთვის, მათ შორის თამაშების, რობოტექნიკის, არქიტექტურისა და სოციალური პლატფორმების ჩათვლით. თუმცა, 3D აქტივების ხელით შექმნა ძალიან შრომატევადია და მოითხოვს სპეციფიკურ ტექნიკურ ცოდნას, ასევე მხატვრულ მოდელირების უნარებს. ერთ-ერთი მთავარი გამოწვევა არის მასშტაბი - მაშინ, როდესაც 3D მოდელების პოვნა შესაძლებელია 3D ბაზრებზე, როგორიცაა Turbosquid [ ] ან Sketchfab [ ], მრავალი 3D მოდელის შექმნა, ვთქვათ, თამაშის ან ფილმის პოპულარიზაციისთვის, რომელიც სავსეა მრავალფეროვანი პერსონაჟებით, მაინც დიდ დროს ართმევს მხატვარს. 4 3 კონტენტის შექმნის პროცესის გასაადვილებლად და მისი ხელმისაწვდომობისთვის მრავალი (ახალბედა) მომხმარებლისთვის, მაღალი ხარისხის და მრავალფეროვანი 3D აქტივების წარმოებაზე გენერაციული 3D ქსელები ბოლო დროს კვლევის აქტიურ სფეროდ იქცა [ , , , , , , , , , , ]. თუმცა, იმისთვის, რომ პრაქტიკულად სასარგებლო იყოს რეალურ სამყაროში მიმდინარე აპლიკაციებისთვის, 3D გენერაციულმა მოდელებმა იდეალურად უნდა შეასრულონ შემდეგი მოთხოვნები: მათ უნდა შეეძლოთ დეტალური გეომეტრიისა და თვითნებური ტოპოლოგიის მქონე ფორმების შექმნა, შედეგი უნდა იყოს ტექსტურირებული ბადე, რომელიც არის ძირითადი წარმოდგენა, რომელიც გამოიყენება სტანდარტული გრაფიკული პროგრამული პაკეტების მიერ, როგორიცაა Blender [ ] და Maya [ ], და ჩვენ უნდა შევძლოთ 2D სურათების გამოყენება ზედამხედველობისთვის, რადგან ისინი უფრო ფართოდ ხელმისაწვდომია, ვიდრე ექსპლიციტური 3D ფორმები. 5 14 43 46 53 68 75 60 59 69 23 (a) (b) 15 1 (c) 3D გენერაციული მოდელირების წინა ნამუშევრები ფოკუსირებული იყო ზემოთ ჩამოთვლილ მოთხოვნებზე, მაგრამ არცერთ მეთოდს დღემდე არ შეუსრულებია ყველა მათგანი (ცხრილი ). მაგალითად, მეთოდები, რომლებიც ქმნიან 3D წერტილოვან ღრუბლებს [ , 68, 75] ჩვეულებრივ არ ქმნიან ტექსტურებს და უნდა გადაიზარდონ ბადეში შემდგომი დამუშავებისას. 1 5 ვოქსელების შემქმნელი მეთოდები ხშირად მოკლებულია გეომეტრიულ დეტალებს და არ ქმნის ტექსტურას [ , , , ]. ნეირონულ ველებზე დაფუძნებული გენერაციული მოდელები [ , ] ფოკუსირებულია გეომეტრიის ამოღებაზე, მაგრამ უგულებელყოფენ ტექსტურას. ამათგან უმეტესობა ასევე მოითხოვს ექსპლიციტური 3D ზედამხედველობას. ბოლოს, მეთოდები, რომლებიც პირდაპირ ქმნიან ტექსტურირებულ 3D ბადეებს [ , ] ჩვეულებრივ მოითხოვენ წინასწარ განსაზღვრულ ფორმის შაბლონებს და ვერ ქმნიან კომპლექსური ტოპოლოგიისა და ცვლადი გვარის ფორმებს. 66 20 27 40 43 14 54 53 ბოლო დროს, ნეირონული მოცულობითი რენდერის [ ] და 2D Generative Adversarial Networks (GANs) [ , , , , ] სწრაფი პროგრესი გამოიწვია 3D-aware სურათების სინთეზის ზრდამ [ , , , , , ]. თუმცა, ამ ნამუშევრების მიზანია მრავალხედვით თანმიმდევრული სურათების სინთეზი ნეირონული რენდერის გამოყენებით სინთეზის პროცესში და არ იძლევა გარანტიას, რომ შესაძლებელია აზრიანი 3D ფორმების შექმნა. მიუხედავად იმისა, რომ ბადე პოტენციურად შეიძლება ამოღებულ იქნას ქვედა ნეირონული ველის წარმოდგენიდან მარშის კუბის ალგორითმის [ ] გამოყენებით, შესაბამისი ტექსტურის ამოღება არცთუ იოლი ამოცანაა. 45 34 35 33 29 52 7 57 8 49 51 25 39 ამ ნამუშევარში, ჩვენ წარმოგიდგენთ ახალ მიდგომას, რომელიც მიზნად ისახავს პრაქტიკულად სასარგებლო 3D გენერაციული მოდელის ყველა მოთხოვნას. კერძოდ, ჩვენ შემოგვთავაზეთ GET3D, enerative მოდელი 3D ფორმებისთვის, რომელიც პირდაპირ ქმნის xplicit extured ბადეებს მაღალი გეომეტრიული და ტექსტურული დეტალებით და თვითნებური ბადის ტოპოლოგიით. ჩვენი მიდგომის გულში დევს გენერაციული პროცესი, რომელიც იყენებს დიფერენცირებად ზედაპირის ამოღების მეთოდს [ ] და დიფერენცირებად რენდერის ტექნიკას [ , ]. პირველი საშუალებას გვაძლევს პირდაპირ ოპტიმიზაცია და ტექსტურირებული 3D ბადეების შექმნა თვითნებური ტოპოლოგიით, ხოლო მეორე საშუალებას გვაძლევს მოვამზადოთ ჩვენი მოდელი 2D სურათებით, რითაც ვიყენებთ ძლიერ და დახვეწილ დისკრიმინატორებს, რომლებიც შემუშავებულია 2D სურათების სინთეზისთვის. იმის გამო, რომ ჩვენი მოდელი პირდაპირ ქმნის ბადეებს და იყენებს მაღალეფექტურ (დიფერენცირებად) გრაფიკულ რენდერს, ჩვენ შეგვიძლია ადვილად გავზარდოთ ჩვენი მოდელი სურათებით G E T 3D ექსპლიციტურ 60 47 37 რეზოლუცია 1024 × 1024-მდე, რაც საშუალებას გვაძლევს ვისწავლოთ მაღალი ხარისხის გეომეტრიული და ტექსტურული დეტალები. ჩვენ ვაჩვენებთ უახლეს შესრულებას უპირობო 3D ფორმის გენერაციაში მრავალ კატეგორიაში კომპლექსური გეომეტრიით ShapeNet [ ], Turbosquid [ ] და Renderpeople [ ], როგორიცაა მანქანები, სკამები, ცხოველები, მოტოციკლები და ადამიანის პერსონაჟები, შენობები. ექსპლიციტური ბადით, როგორც შედეგი, GET3D ასევე ძალიან მოქნილია და ადვილად შეიძლება მორგებული სხვა ამოცანებზე, მათ შორის: მასალების დანაწევრებული და ხედზე დამოკიდებული განათების ეფექტების შექმნის სწავლა მოწინავე დიფერენცირებადი რენდერის [ ] გამოყენებით, ზედამხედველობის გარეშე, ტექსტ-ხელმძღვანელობით 3D ფორმის გენერაცია CLIP [ ] დანერგვის გამოყენებით. 9 4 2 (a) 12 (b) 56 2 დაკავშირებული ნამუშევრები ჩვენ განვიხილავთ უახლეს მიღწევებს 3D გენერაციულ მოდელებში გეომეტრიისა და გარეგნობისთვის, ასევე 3D-aware გენერაციული სურათების სინთეზში. ბოლო წლებში, 2D გენერაციულმა მოდელებმა მიაღწიეს ფოტო-რეალისტურ ხარისხეს მაღალი რეზოლუციის სურათების სინთეზში [ , , , , , , ]. ამ პროგრესმა ასევე შთააგონა კვლევები 3D კონტენტის გენერაციაში. ადრეული მიდგომები მიზნად ისახავდა 2D CNN გენერატორების პირდაპირ გაფართოებას 3D ვოქსელურ ბადეებზე [ , , , , ], მაგრამ 3D კონვოლუციების მაღალი მეხსიერების მოხმარება და გამოთვლითი სირთულე აფერხებს გენერაციას მაღალი რეზოლუციით. ალტერნატივად, სხვა ნამუშევრებმა შეისწავლეს წერტილოვანი ღრუბლის [ , , , ], იმპლიციტური [ , ] ან ოქტრი [ ] წარმოდგენები. თუმცა, ეს ნამუშევრები ძირითადად ფოკუსირებულია გეომეტრიის შექმნაზე და უგულებელყოფს გარეგნობას. მათი შედეგების წარმოდგენები ასევე საჭიროებენ შემდგომ დამუშავებას, რათა გახდნენ თავსებადი სტანდარტულ გრაფიკულ ძრავებთან. 3D გენერაციული მოდელები 34 35 33 52 29 19 16 66 20 27 40 62 5 68 75 46 43 14 30 ჩვენს ნამუშევართან უფრო ახლოს, Textured3DGAN [ , ] და DIBR [ ] ქმნიან ტექსტურირებულ 3D ბადეებს, მაგრამ ისინი ფორმულირებენ გენერაციას, როგორც შაბლონის ბადის დეფორმაციას, რაც მათ ხელს უშლის კომპლექსური ტოპოლოგიის ან ცვლადი გვარის მქონე ფორმების შექმნას, რაც ჩვენს მეთოდს შეუძლია. PolyGen [ ] და SurfGen [ ] შეუძლიათ თვითნებური ტოპოლოგიის მქონე ბადეების შექმნა, მაგრამ არ ქმნიან ტექსტურებს. 54 53 11 48 41 ნეირონული მოცულობითი რენდერის [ ] და იმპლიციტური წარმოდგენების [ , ] წარმატებით შთაგონებული, უახლესმა ნამუშევრებმა დაიწყო 3D-aware სურათების სინთეზის პრობლემის გადაჭრა [ , , , , , , , , , ]. თუმცა, ნეირონული მოცულობითი რენდერის ქსელები ჩვეულებრივ ნელა იკითხება, რაც იწვევს ხანგრძლივ სასწავლო დროს [ , ] და ზღუდავს გამოსახულების რეზოლუციას. GIRAFFE [ ] და StyleNerf [ ] აუმჯობესებენ სასწავლო და რენდერის ეფექტურობას ნეირონული რენდერის დაბალ რეზოლუციაზე შესრულებით და შემდეგ შედეგების 2D CNN-ით გაზრდით. თუმცა, შესრულების ზრდა მოდის მრავალხედვით თანმიმდევრულობის შემცირების ხარჯზე. ორმაგი დისკრიმინატორის გამოყენებით, EG3D [ ] შეუძლია ამ პრობლემის ნაწილობრივ შერბილება. მიუხედავად ამისა, ტექსტურირებული ზედაპირის ამოღება ნეირონულ რენდერზე დაფუძნებული მეთოდებიდან არცთუ იოლი ამოცანაა. ჩვენსგან განსხვავებით, GET3D პირდაპირ ქმნის ტექსტურირებულ 3D ბადეებს, რომლებიც მზად არიან გამოსაყენებლად სტანდარტულ გრაფიკულ ძრავებში. 3D-Aware Generative Image Synthesis 45 43 14 7 57 49 26 25 76 8 51 58 67 7 57 49 25 8 3 მეთოდი ჩვენ ახლა წარმოგიდგენთ ჩვენს GET3D ჩარჩოს ტექსტურირებული 3D ფორმების სინთეზისთვის. ჩვენი გენერაციული პროცესი დაყოფილია ორ ნაწილად: გეომეტრიის ფილიალი, რომელიც დიფერენცირებად ქმნის თვითნებური ტოპოლოგიის მქონე ზედაპირის ბადეს, და ტექსტურის ფილიალი, რომელიც ქმნის ტექსტურის ველს, რომელიც შეიძლება იკითხებოდეს ზედაპირის წერტილებზე ფერების წარმოებისთვის. უკანასკნელი შეიძლება გაფართოვდეს სხვა ზედაპირის თვისებებზე, როგორიცაა, მაგალითად, მასალები (სექ. ). სწავლების დროს, გამოიყენება ეფექტური დიფერენცირებადი რასტერიზატორი, რათა ბადე მოაქციოს 2D მაღალი რეზოლუციის სურათებში. მთელი პროცესი დიფერენცირებადია, რაც საშუალებას იძლევა ადვერსარული სწავლება სურათებიდან (ნიღბებით, რომლებიც მიუთითებენ საინტერესო ობიექტზე) 2D დისკრიმინატორის გრადიენტების ორივე გენერატორის ფილიალზე გავრცელებით. ჩვენი მოდელი ნაჩვენებია ნახ. . შემდეგში, ჩვენ ჯერ წარმოგიდგენთ ჩვენს 3D გენერატორს სექ. , სანამ გადავალთ დიფერენცირებად რენდერზე და დანაკარგის ფუნქციებზე სექ. . 4.3.1 2 3.1 3.2 3.1 3D ტექსტურირებული ბადეების გენერაციული მოდელი ჩვენ მიზნად გვაქვს 3D გენერატორის = ( ) სწავლა, რათა დავაკავშიროთ გაუსის განაწილებიდან აღებული ნიმუში M, E G z ∈ N (0*,* ) ბადეზე ტექსტურით . z I M E იმის გამო, რომ ერთსა და იმავე გეომეტრიას შეიძლება ჰქონდეს განსხვავებული ტექსტურები, და ერთსა და იმავე ტექსტურას შეიძლება გამოყენებულ იქნას სხვადასხვა გეომეტრიაზე, ჩვენ ვიღებთ ორ შემთხვევით შეყვანის ვექტორს 1 ∈ R512 და 2 ∈ R512. StyleGAN [ , , ] მიხედვით, ჩვენ შემდეგ ვიყენებთ არაწრფივ დამაკავშირებელ ქსელებს geo და tex, რათა დავაკავშიროთ 1 და 2 შუალედურ ლატენტურ ვექტორებამდე 1 = geo( 1) და 2 = tex( 2), რომლებიც შემდგომში გამოიყენება შესაქმნელად, რომლებიც აკონტროლებენ 3D ფორმებისა და ტექსტურის გენერაციას, შესაბამისად. ჩვენ ოფიციალურად წარმოგიდგენთ გეომეტრიის გენერატორს სექ. და ტექსტურის გენერატორს სექ. . z z 34 35 33 f f z z w f z w f z სტილების 3.1.1 3.1.2 3.1.1 გეომეტრიის გენერატორი ჩვენ შევიმუშავეთ ჩვენი გეომეტრიის გენერატორი, რათა ჩავრთოთ DMTet [ ], ბოლო დროს შემოთავაზებული დიფერენცირებადი ზედაპირის წარმოდგენა. DMTet წარმოადგენს გეომეტრიას, როგორც დეფორმირებად ტეტრაედრულ ბადეზე [ , ] განსაზღვრულ ნიშანთა მანძილის ველს (SDF), რომლისგანაც ზედაპირი შეიძლება დიფერენცირებად იქნას აღდგენილი ტეტრაედრების მარშინგით [ ]. ბადის დეფორმაცია მისი წვეროების გადაადგილებით იწვევს მის რეზოლუციის უკეთეს გამოყენებას. DMTet-ის გამოყენებით ზედაპირის ამოღებისთვის, ჩვენ შეგვიძლია შევქმნათ ექსპლიციტური ბადეები თვითნებური ტოპოლოგიითა და გვარით. შემდეგში ჩვენ მოკლედ შევაჯამებთ DMTet-ს და მივმართავთ მკითხველს ორიგინალ ნაშრომზე დამატებითი დეტალებისთვის. 60 22 24 17 დაე ( ) აღნიშნავს სრულ 3D სივრცეს, სადაც ობიექტი მდებარეობს, სადაც არის ტეტრაედრული ბადის წვეროები. თითოეული ტეტრაედონი ∈ განისაზღვრება ოთხი წვეროთი { }, სადაც ∈ {1*, . . . , K*}, სადაც არის ტეტრაედრების საერთო რაოდენობა და ∈ ∈ R3. მის 3D კოორდინატებთან ერთად, თითოეული წვერო შეიცავს SDF მნიშვნელობას ∈ R და წვეროს დეფორმაციას ∆ ∈ R3 მისი საწყისი კანონიკური კოორდინატიდან. ეს წარმოდგენა იძლევა ექსპლიციტური ბადის აღდგენას დიფერენცირებადი ტეტრაედრების მარშინგის [ ] საშუალებით, სადაც უწყვეტ სივრცეში SDF მნიშვნელობები გამოითვლება მათი მნიშვნელობის ბარიცენტრული ინტერპოლაციით დეფორმირებულ წვეროებზე ′ = + ∆ . VT , T VT T Tk T v ak , v bk , v ck , v dk k K v ik VT , v ik v i si v i 60 si v v i v i ჩვენ ვაკავშირებთ 1 ∈ R512-ს SDF მნიშვნელობებსა და დეფორმაციებს თითოეულ წვეროზე სერიის პირობითი 3D კონვოლუციური და სრულად დაკავშირებული ფენების მეშვეობით. კერძოდ, ჩვენ ჯერ ვიყენებთ 3D კონვოლუციურ ფენებს, რათა შევქმნათ ფუნქციური მოცულობა, რომელიც დამოკიდებულია 1-ზე. შემდეგ ჩვენ ვიკითხავთ ფუნქციას თითოეულ წვეროზე ∈ ტრილინეარული ინტერპოლაციის გამოყენებით და ვაწვდით მას MLPs-ებს, რომლებიც ქმნიან SDF მნიშვნელობას და დეფორმაციას ∆ . მაღალი რეზოლუციის მოდელირების საჭიროების შემთხვევაში (მაგ., მოტოციკლი თხელი ნაწილებით ბორბლებში), ჩვენ დამატებით ვიყენებთ მოცულობით დაყოფას [ ] მიხედვით. ქსელის არქიტექტურა w v i w v i VT si v i 60 ყველა წვეროსთვის და ∆ მიღების შემდეგ, ჩვენ ვიყენებთ დიფერენცირებად ტეტრაედრების მარშინგის ალგორითმს ექსპლიციტური ბადის ამოსაღებად. ტეტრაედრების მარშინგი განსაზღვრავს ზედაპირის ტოპოლოგიას თითოეული ტეტრაედონის შიგნით, ნიშნების საფუძველზე. კერძოდ, ბადის სახე ამოღებულია, როდესაც sign( ) /= sign( ), სადაც აღნიშნავს წვეროების ინდექსებს ტეტრაედონის კიდეზე, ხოლო ამ სახის წვეროები განისაზღვრება ხაზოვანი ინტერპოლაციით, როგორც mi,j = v 0 i sj−v 0 j si sj−si . გაითვალისწინეთ, რომ ზემოთ მოცემული განტოლება შეფასებულია მხოლოდ მაშინ, როდესაც si 6= sj, ამიტომ ის დიფერენცირებადია და mi,j-ის გრადიენტი შეიძლება უკან გავრცელდეს SDF მნიშვნელობებამდე si და დეფორმაციებამდე ∆vi . ამ წარმოდგენით, თვითნებური ტოპოლოგიის მქონე ფორმები ადვილად იქმნება si-ის განსხვავებული ნიშნების პროგნოზირებით. დიფერენცირებადი ბადის ამოღება si v i si si sj i, j m i,j 3.1.2 ტექსტურის გენერატორი შედეგად მიღებულ ბადეებთან თავსებადი ტექსტურის რუკის პირდაპირ შექმნა არ არის იოლი, რადგან შექმნილ ფორმას შეიძლება ჰქონდეს თვითნებური გვარი და ტოპოლოგია. ამრიგად, ჩვენ პარამეტრიზებთ ტექსტურას, როგორც ტექსტურის ველს [ ]. 50 კერძოდ, ჩვენ ვმოდელირებთ ტექსტურის ველს ფუნქციით , რომელიც აკავშირებს ზედაპირის წერტილის 3D მდებარეობას ∈ R3, 2-ზე დამოკიდებულებით, იმ ადგილას RGB ფერს ∈ R3-თან. იმის გამო, რომ ტექსტურის ველი დამოკიდებულია გეომეტრიაზე, ჩვენ დამატებით ვაკონდიციონებთ ამ კავშირს გეომეტრიის ლატენტურ კოდზე 1, ისე რომ = ( *,* 1 ⊕ 2), სადაც ⊕ აღნიშნავს კონკატენაციას. ft p w c w c ft p w w