```html Penulis: Jun Gao, NVIDIA, University of Toronto, Vector Institute (jung@nvidia.com) Tianchang Shen, NVIDIA, University of Toronto, Vector Institute (frshen@nvidia.com) Zian Wang, NVIDIA, University of Toronto, Vector Institute (zianw@nvidia.com) Wenzheng Chen, NVIDIA, University of Toronto, Vector Institute (wenzchen@nvidia.com) Kangxue Yin, NVIDIA (kangxuey@nvidia.com) Daiqing Li, NVIDIA (daiqingl@nvidia.com) Or Litany, NVIDIA (olitany@nvidia.com) Zan Gojcic, NVIDIA (zgojcic@nvidia.com) Sanja Fidler, NVIDIA, University of Toronto, Vector Institute (sfidler@nvidia.com) Abstrak Seiring berbagai industri beralih ke pemodelan dunia virtual 3D yang masif, kebutuhan akan alat pembuatan konten yang dapat diskalakan dalam hal kuantitas, kualitas, dan keragaman konten 3D menjadi nyata. Dalam pekerjaan kami, kami bertujuan untuk melatih model generatif 3D yang berkinerja tinggi yang menyintesis jala bertekstur yang dapat langsung dikonsumsi oleh mesin rendering 3D, sehingga segera dapat digunakan dalam aplikasi hilir. Karya sebelumnya tentang pemodelan generatif 3D baik kekurangan detail geometris, terbatas pada topologi mesh yang dapat dihasilkannya, biasanya tidak mendukung tekstur, atau menggunakan renderer saraf dalam proses sintesis, yang membuatnya sulit digunakan dalam perangkat lunak 3D umum. Dalam karya ini, kami memperkenalkan GET3D, model eneratif yang secara langsung menghasilkan jala kspresif ekstur dengan topologi kompleks, detail geometris kaya, dan tekstur fidelitas tinggi. Kami menjembatani keberhasilan terbaru dalam pemodelan permukaan diferensial, rendering diferensial, serta Jaringan Adversarial Generatif 2D untuk melatih model kami dari koleksi gambar 2D. GET3D mampu menghasilkan jala bertekstur 3D berkualitas tinggi, mulai dari mobil, kursi, hewan, sepeda motor, dan karakter manusia hingga bangunan, mencapai peningkatan signifikan dibandingkan metode sebelumnya. Halaman proyek kami: G E T 3D https://nv-tlabs.github.io/GET3D 1 Pendahuluan Konten 3D yang beragam dan berkualitas tinggi menjadi semakin penting bagi berbagai industri, termasuk game, robotika, arsitektur, dan platform sosial. Namun, pembuatan aset 3D secara manual sangat memakan waktu dan membutuhkan pengetahuan teknis khusus serta keterampilan pemodelan artistik. Salah satu tantangan utama adalah skala – sementara orang dapat menemukan model 3D di pasar 3D seperti Turbosquid [ ] atau Sketchfab [ ], membuat banyak model 3D untuk, katakanlah, mengisi game atau film dengan kerumunan karakter yang semuanya terlihat berbeda masih membutuhkan waktu seniman yang signifikan. 4 3 Untuk memfasilitasi proses pembuatan konten dan membuatnya dapat diakses oleh berbagai pengguna (pemula), jaringan generatif 3D yang dapat menghasilkan aset 3D berkualitas tinggi dan beragam baru-baru ini menjadi area penelitian aktif [ , , , , , , , , , , ]. Namun, agar berguna secara praktis untuk aplikasi dunia nyata saat ini, model generatif 3D sebaiknya memenuhi persyaratan berikut: Mereka harus memiliki kapasitas untuk menghasilkan bentuk dengan geometri terperinci dan topologi arbitrer, Keluaran harus berupa jala bertekstur, yang merupakan representasi utama yang digunakan oleh paket perangkat lunak grafis standar seperti Blender [ ] dan Maya [ ], dan Kita harus dapat memanfaatkan gambar 2D untuk pengawasan, karena gambar-gambar tersebut lebih tersedia daripada bentuk 3D eksplisit. 5 14 43 46 53 68 75 60 59 69 23 (a) (b) 15 1 (c) Karya sebelumnya tentang pemodelan generatif 3D telah berfokus pada subset persyaratan di atas, tetapi belum ada metode yang memenuhi semuanya (Tabel. ). Misalnya, metode yang menghasilkan point cloud 3D [ , 68, 75] biasanya tidak menghasilkan tekstur dan harus dikonversi menjadi mesh dalam pasca-pemrosesan. 1 5 Metode yang menghasilkan voxel seringkali kekurangan detail geometris dan tidak menghasilkan tekstur [ , , , ]. Model generatif berbasis bidang saraf [ , ] berfokus pada ekstraksi geometri tetapi mengabaikan tekstur. Sebagian besar dari ini juga memerlukan pengawasan 3D eksplisit. Terakhir, metode yang secara langsung mengeluarkan jala 3D bertekstur [ , ] biasanya memerlukan templat bentuk yang telah ditentukan sebelumnya dan tidak dapat menghasilkan bentuk dengan topologi kompleks dan genus variabel. 66 20 27 40 43 14 54 53 Baru-baru ini, kemajuan pesat dalam rendering volume saraf [ ] dan Jaringan Adversarial Generatif 2D (GAN) [ , , , , ] telah menyebabkan munculnya sintesis gambar yang sadar 3D [ , , , , , ]. Namun, lini kerja ini bertujuan untuk mensintesis gambar yang konsisten dengan berbagai tampilan menggunakan rendering saraf dalam proses sintesis dan tidak menjamin bahwa bentuk 3D yang bermakna dapat dihasilkan. Meskipun mesh secara potensial dapat diperoleh dari representasi bidang saraf yang mendasarinya menggunakan algoritma marching cube [ ], mengekstraksi tekstur yang sesuai bukanlah hal yang mudah. 45 34 35 33 29 52 7 57 8 49 51 25 39 Dalam karya ini, kami memperkenalkan pendekatan baru yang bertujuan untuk mengatasi semua persyaratan model generatif 3D yang berguna secara praktis. Secara khusus, kami mengusulkan GET3D, model eneratif untuk bentuk 3D yang secara langsung mengeluarkan jala kspresif ekstur dengan detail geometris dan tekstur tinggi serta topologi mesh arbitrer. Di jantung pendekatan kami adalah proses generatif yang memanfaatkan metode ekstraksi permukaan *eksplisit* diferensial [ ] dan teknik rendering diferensial [ , ]. Yang pertama memungkinkan kami untuk secara langsung mengoptimalkan dan mengeluarkan jala 3D bertekstur dengan topologi arbitrer, sementara yang terakhir memungkinkan kami untuk melatih model kami dengan gambar 2D, sehingga memanfaatkan diskriminator yang kuat dan matang yang dikembangkan untuk sintesis gambar 2D. Karena model kami secara langsung menghasilkan jala dan menggunakan renderer grafis (diferensial) yang sangat efisien, kami dapat dengan mudah menskalakan model kami untuk dilatih dengan gambar G E T 3D 60 47 37 resolusi setinggi 1024 × 1024, memungkinkan kami untuk mempelajari detail geometris dan tekstur berkualitas tinggi. Kami mendemonstrasikan kinerja state-of-the-art untuk generasi bentuk 3D tanpa syarat pada beberapa kategori dengan geometri kompleks dari ShapeNet [ ], Turbosquid [ ] dan Renderpeople [ ], seperti kursi, sepeda motor, mobil, karakter manusia, dan bangunan. Dengan mesh eksplisit sebagai representasi keluaran, GET3D juga sangat fleksibel dan dapat dengan mudah diadaptasi ke tugas lain, termasuk: belajar untuk menghasilkan efek pencahayaan material dan bergantung pada tampilan yang terdekomposisi menggunakan rendering diferensial canggih [ ], tanpa pengawasan, generasi bentuk 3D yang dipandu teks menggunakan embedding CLIP [ ]. 9 4 2 (a) 12 (b) 56 2 Karya Terkait Kami meninjau kemajuan terbaru dalam model generatif 3D untuk geometri dan penampilan, serta sintesis gambar generatif yang sadar 3D. Dalam beberapa tahun terakhir, model generatif 2D telah mencapai kualitas fotorealistik dalam sintesis gambar resolusi tinggi [ , , , , , , ]. Kemajuan ini juga telah menginspirasi penelitian dalam pembuatan konten 3D. Pendekatan awal bertujuan untuk memperluas generator CNN 2D secara langsung ke grid voxel 3D [ , , , , ], tetapi jejak memori yang tinggi dan kompleksitas komputasi konvolusi 3D menghambat proses generasi pada resolusi tinggi. Sebagai alternatif, karya lain telah mengeksplorasi representasi point cloud [ , , , ], implisit [ , ], atau octree [ ]. Namun, karya-karya ini terutama berfokus pada menghasilkan geometri dan mengabaikan penampilan. Representasi keluaran mereka juga perlu diproses lebih lanjut agar kompatibel dengan mesin grafis standar. Model Generatif 3D 34 35 33 52 29 19 16 66 20 27 40 62 5 68 75 46 43 14 30 Lebih mirip dengan pekerjaan kami, Textured3DGAN [ , ] dan DIBR [ ] menghasilkan jala 3D bertekstur, tetapi mereka merumuskan generasi sebagai deformasi jala templat, yang mencegah mereka menghasilkan topologi kompleks atau bentuk dengan genus bervariasi, yang dapat dilakukan oleh metode kami. PolyGen [ ] dan SurfGen [ ] dapat menghasilkan jala dengan topologi arbitrer, tetapi tidak mensintesis tekstur. 54 53 11 48 41 Terinspirasi oleh keberhasilan rendering volume saraf [ ] dan representasi implisit [ , ], karya terbaru mulai mengatasi masalah sintesis gambar yang sadar 3D [ , , , , , , , , , ]. Namun, jaringan rendering volume saraf biasanya lambat untuk dikueri, yang mengarah ke waktu pelatihan yang lama [ , ], dan menghasilkan gambar dengan resolusi terbatas. GIRAFFE [ ] dan StyleNerf [ ] meningkatkan efisiensi pelatihan dan rendering dengan melakukan rendering saraf pada resolusi yang lebih rendah dan kemudian meningkatkan hasilnya dengan CNN 2D. Namun, peningkatan kinerja datang dengan biaya konsistensi multi-tampilan yang berkurang. Dengan menggunakan diskriminator ganda, EG3D [ ] dapat mengurangi masalah ini sebagian. Meskipun demikian, mengekstraksi permukaan bertekstur dari metode yang berbasis pada rendering saraf bukanlah upaya yang mudah. Sebaliknya, GET3D secara langsung mengeluarkan jala 3D bertekstur yang dapat segera digunakan di mesin grafis standar. Sintesis Gambar Generatif yang Sadar 3D 45 43 14 7 57 49 26 25 76 8 51 58 67 7 57 49 25 8 3 Metode Sekarang kami menyajikan kerangka kerja GET3D kami untuk mensintesis bentuk 3D bertekstur. Proses generasi kami dibagi menjadi dua bagian: cabang geometri, yang secara diferensial menghasilkan mesh permukaan dengan topologi arbitrer, dan cabang tekstur yang menghasilkan bidang tekstur yang dapat dikueri pada titik permukaan untuk menghasilkan warna. Yang terakhir dapat diperluas ke properti permukaan lainnya seperti misalnya material (Bagian ). Selama pelatihan, rasterizer diferensial yang efisien digunakan untuk merender jala bertekstur yang dihasilkan ke dalam gambar resolusi tinggi 2D. Seluruh proses bersifat diferensial, memungkinkan pelatihan adversarial dari gambar (dengan masker yang menunjukkan objek yang diminati) dengan menyebarkan gradien dari diskriminator 2D ke kedua cabang generator. Model kami diilustrasikan pada Gambar . Selanjutnya, kami pertama-tama memperkenalkan generator 3D kami di Bagian , sebelum melanjutkan ke rendering diferensial dan fungsi kerugian di Bagian . 4.3.1 2 3.1 3.2 3.1 Model Generatif Jala 3D Bertekstur Kami bertujuan untuk mempelajari generator 3D = ( ) untuk memetakan sampel dari distribusi Gaussian M, E G z ∈ N (0*,* ) ke mesh dengan tekstur . z I M E Karena geometri yang sama dapat memiliki tekstur yang berbeda, dan tekstur yang sama dapat diterapkan pada geometri yang berbeda, kami mengambil sampel dua vektor masukan acak 1 ∈ R512 dan 2 ∈ R512. Mengikuti StyleGAN [ , , ], kami kemudian menggunakan jaringan pemetaan non-linear geo dan tex untuk memetakan 1 dan 2 ke vektor laten perantara 1 = geo( 1) dan 2 = tex( 2) yang selanjutnya digunakan untuk menghasilkan *gaya* yang mengontrol generasi bentuk 3D dan tekstur, masing-masing. Kami secara formal memperkenalkan generator untuk geometri di Bagian. dan generator tekstur di Bagian. . z z 34 35 33 f f z z w f z w f z 3.1.1 3.1.2 3.1.1 Generator Geometri Kami merancang generator geometri kami untuk menggabungkan DMTet [ ], representasi permukaan diferensial yang diusulkan baru-baru ini. DMTet merepresentasikan geometri sebagai bidang jarak bertanda (SDF) yang ditentukan pada grid tetrahedral yang dapat berubah bentuk [ , ], dari mana permukaan dapat dipulihkan secara diferensial melalui marching tetrahedra [ ]. Mengubah bentuk grid dengan menggerakkan simpulnya menghasilkan pemanfaatan resolusinya yang lebih baik. Dengan mengadopsi DMTet untuk ekstraksi permukaan, kami dapat menghasilkan mesh eksplisit dengan topologi dan genus arbitrer. Selanjutnya, kami memberikan ringkasan singkat tentang DMTet dan merujuk pembaca ke makalah aslinya untuk detail lebih lanjut. 60 22 24 17 Biarkan ( ) mewakili seluruh ruang 3D tempat objek berada, di mana adalah simpul dalam grid tetrahedral . Setiap tetrahedron ∈ didefinisikan menggunakan empat simpul { }, dengan ∈ {1*, . . . , K*}, di mana adalah jumlah total tetrahedron, dan ∈ ∈ R3. Selain koordinat 3D-nya , setiap simpul berisi nilai SDF ∈ R dan deformasi ∆ ∈ R3 dari simpul dari koordinat kanonis awal. Representasi ini memungkinkan pemulihan mesh eksplisit melalui marching tetrahedra diferensial [ ], di mana nilai SDF dalam ruang kontinu dihitung dengan interpolasi barysentris dari nilai pada simpul yang berubah bentuk ′ = + ∆ . VT , T VT T Tk T v ak , v bk , v ck , v dk k K v ik VT , v ik i v i si v i 60 si v v i v i Kami memetakan 1 ∈ R512 ke nilai SDF dan deformasi di setiap simpul melalui serangkaian lapisan konvolusional 3D bersyarat dan lapisan yang sepenuhnya terhubung. Khususnya, kami pertama-tama menggunakan lapisan konvolusional 3D untuk menghasilkan volume fitur yang dikondisikan pada 1. Kami kemudian mengkueri fitur pada setiap simpul ∈ menggunakan interpolasi trilinear dan memasukkannya ke dalam MLP yang menghasilkan nilai SDF dan deformasi ∆ . Dalam kasus di mana pemodelan pada resolusi tinggi diperlukan (misalnya, sepeda motor dengan struktur tipis di roda), kami selanjutnya menggunakan subdivisi volume mengikuti [ ]. Arsitektur Jaringan w v i w v i VT si v i 60 Setelah memperoleh dan ∆ untuk semua simpul, kami menggunakan algoritma marching tetrahedra diferensial untuk mengekstrak mesh eksplisit. Marching tetrahedra menentukan topologi permukaan di dalam setiap tetrahedron berdasarkan tanda . Khususnya, muka mesh diekstraksi ketika sign( ) /= sign( ), di mana menunjukkan indeks simpul di tepi tetrahedron, dan simpul dari muka tersebut ditentukan oleh interpolasi linier sebagai mi,j = v 0 i sj−v 0 j si sj−si . Perhatikan bahwa persamaan di atas hanya dievaluasi ketika si 6= sj , sehingga bersifat diferensial, dan gradien dari mi,j dapat disebarkan kembali ke nilai SDF si dan deformasi ∆vi . Dengan representasi ini, bentuk dengan topologi arbitrer dapat dengan mudah dihasilkan dengan memprediksi tanda si yang berbeda. Ekstraksi Mesh Diferensial si v i si si sj i, j m i,j 3.1.2 Generator Tekstur Menghasilkan peta tekstur yang konsisten dengan mesh keluaran secara langsung bukanlah hal yang mudah, karena bentuk yang dihasilkan dapat memiliki genus dan topologi arbitrer. Oleh karena itu, kami memparameterkan tekstur sebagai bidang tekstur [ ]. 50 Secara khusus, kami memodelkan bidang tekstur dengan fungsi yang memetakan lokasi 3D dari titik permukaan ∈ R3, dikondisikan pada 2, ke warna RGB ∈ R3 pada lokasi tersebut. Karena bidang tekstur bergantung pada geometri, kami juga mengkondisikan pemetaan ini pada kode laten geometri 1, sehingga = ( *,* 1 ⊕ 2), di mana ⊕ menunjukkan konkatenasi. ft p w c w c ft p w w Kami merepresentasikan bidang tekstur kami menggunakan representasi tri-plane, yang efisien dan ekspresif dalam merekonstruksi objek 3D [ ] dan menghasilkan gambar yang sadar 3D [ ] . Khususnya, kami mengikuti [ , ] dan menggunakan jaringan saraf konvolusional 2D bersyarat untuk memetakan kode laten 1 ⊕ 2 ke tiga bidang fitur ortogonal yang sejajar sumbu dengan ukuran × × ( × 3), di mana = 256 menunjukkan resolusi spasial dan = 32 jumlah saluran. Arsitektur Jaringan 55 8 8 35 w w N N C N C Diberikan bidang fitur, vektor fitur f t ∈ R 32 dari titik permukaan p dapat dipulihkan sebagai f t = P e ρ(πe(p)), di mana πe(p) adalah proyeksi titik p ke bidang fitur e dan ρ(·) menunjukkan interpolasi bilinear fitur. Lapisan yang sepenuhnya terhubung tambahan kemudian digunakan untuk memetakan vektor fitur agregat f t ke warna RGB c. Perhatikan bahwa, berbeda dari karya lain tentang sintesis gambar yang sadar 3D [8, 25, 7, 57] yang juga menggunakan representasi bidang saraf, kami hanya perlu mengambil sampel bidang tekstur pada lokasi titik permukaan (berlawanan dengan sampel padat di sepanjang sinar). Ini sangat mengurangi kompleksitas komputasi untuk merender gambar resolusi tinggi dan menjamin generasi gambar yang konsisten dengan berbagai tampilan berdasarkan konstruksi. 3.2 Rendering Diferensial dan Pelatihan Untuk mengawasi model kami selama pelatihan, kami mengambil inspirasi dari Nvdiffrec [ ] yang melakukan rekonstruksi objek 3D multi-tampilan dengan memanfaatkan renderer diferensial. Khususnya, kami merender jala 3D yang diekstraksi dan bidang tekstur ke dalam gambar 2D menggunakan renderer diferensial [ ], dan mengawasi jaringan kami dengan diskriminator 2D, yang mencoba membedakan gambar dari objek nyata atau yang dirender dari objek yang dihasilkan. 47 37 Kami mengasumsikan bahwa distribusi kamera C yang digunakan untuk memperoleh gambar dalam kumpulan data diketahui. Untuk merender bentuk yang dihasilkan, kami mengambil sampel kamera secara acak dari C, dan memanfaatkan rasterizer diferensial berkinerja tinggi Nvdiffrast [ ] untuk merender jala 3D menjadi siluet 2D serta gambar di mana setiap piksel berisi koordinat dari titik 3D yang sesuai Rendering Diferensial c 37 pada permukaan mesh. Koordinat ini selanjutnya digunakan untuk mengkueri bidang tekstur untuk mendapatkan nilai RGB. Karena kami beroperasi langsung pada mesh yang diekstraksi, kami dapat merender gambar resolusi tinggi dengan efisiensi tinggi, memungkinkan model kami dilatih dengan resolusi gambar setinggi 1024×1024. Kami melatih model kami menggunakan objektif adversarial. Kami mengadopsi arsitektur diskriminator dari StyleGAN [ ], dan menggunakan objektif GAN non-saturating yang sama dengan regularisasi R1 [ ]. Kami secara empiris menemukan bahwa menggunakan dua diskriminator terpisah, satu untuk gambar RGB dan satu lagi untuk siluet, memberikan hasil yang lebih baik daripada satu diskriminator yang beroperasi pada keduanya. Biarkan mewakili diskriminator, di mana bisa berupa gambar RGB atau siluet. Objektif adversarial kemudian didefinisikan sebagai berikut: Diskriminator & Objektif 34 42 Dx x di mana ( ) didefinisikan sebagai ( ) = − log(1 +exp(− )), adalah distribusi gambar nyata, mewakili rendering, dan adalah hiperparameter. Karena bersifat diferensial, gradien dapat disebarkan dari gambar 2D ke generator 3D kami. g u g u u px R λ R Untuk menghilangkan muka internal yang mengambang yang tidak terlihat dalam tampilan apa pun, kami selanjutnya meragulasi generator geometri dengan kerugian cross-entropy yang ditentukan antara nilai SDF simpul tetangga [ ]: Regularisasi 47 di mana mewakili kerugian cross-entropy biner dan mewakili fungsi sigmoid. Jumlah dalam Persamaan didefinisikan atas himpunan tepi unik S dalam grid tetrahedral, di mana sign( ) /= sign( ). H σ 2 e si sj Fungsi kerugian keseluruhan kemudian didefinisikan sebagai: di mana adalah hiperparameter yang mengontrol tingkat regularisasi. µ 4 Eksperimen Kami melakukan eksperimen ekstensif untuk mengevaluasi model kami. Kami pertama-tama membandingkan kualitas jala bertekstur 3D yang dihasilkan oleh GET3D dengan metode yang ada menggunakan kumpulan data ShapeNet [ ] dan Turbosquid [ ]. Selanjutnya, kami mengablas pilihan desain kami di Bagian . Akhirnya, kami mendemonstrasikan fleksibilitas GET3D dengan mengadaptasinya ke aplikasi hilir di Bagian . Hasil eksperimen tambahan dan detail implementasi disediakan di Lampiran. 9 4 4.2 4.3 4.1 Eksperimen pada Dataset Sintetis Untuk evaluasi pada ShapeNet [ ], kami menggunakan tiga kategori dengan geometri kompleks – , , dan , yang berisi masing-masing 7497, 6778, dan 337 bentuk. Kami secara acak membagi setiap kategori menjadi pelatihan (70%), validasi (10%), dan pengujian (20%), dan selanjutnya menghapus dari set pengujian bentuk yang memiliki duplikat di set pelatihan. Untuk merender data pelatihan, kami mengambil sampel pose kamera secara acak dari hemisfer atas setiap bentuk. Untuk kategori dan , kami menggunakan 24 tampilan acak, sementara untuk kami menggunakan 100 tampilan karena jumlah bentuk yang lebih sedikit. Karena model di ShapeNet hanya memiliki tekstur sederhana, kami juga mengevaluasi GET3D pada kumpulan data (442 bentuk) yang dikumpulkan dari TurboSquid [ ], di mana tekstur lebih rinci dan kami membaginya menjadi pelatihan, validasi, dan pengujian seperti yang didefinisikan di atas. Terakhir, untuk mendemonstrasikan keserbagunaan GET3D, kami juga memberikan hasil kualitatif pada kumpulan data yang dikumpulkan dari Turbosquid (563 bentuk), dan kumpulan data dari Renderpeople [ ] (500 bentuk). Kami melatih model terpisah pada setiap kategori. Dataset 9 Mobil Kursi Sepeda Motor Mobil Kursi Sepeda Motor Hewan 4 Rumah Tubuh Manusia 2 Kami membandingkan GET3D dengan dua kelompok karya: model generatif 3D yang mengandalkan pengawasan 3D: PointFlow [ ] dan OccNet [ ]. Perhatikan bahwa metode ini hanya menghasilkan geometri tanpa tekstur. metode generasi gambar yang sadar 3D: GRAF [ ], PiGAN [ ], dan EG3D [ ]. Dasar Perbandingan 1) 68 43 2) 57 7 8 Untuk mengevaluasi kualitas sintesis kami, kami mempertimbangkan geometri dan tekstur dari bentuk yang dihasilkan. Untuk geometri, kami mengadopsi metrik dari [ ] dan menggunakan Chamfer Distance (CD) dan Light Field Distance [ ] (LFD) untuk menghitung skor Coverage dan Minimum Matching Distance. Untuk OccNet [ ], GRAF [ ], PiGAN [ ] dan EG3D [ ], kami menggunakan marching cubes untuk mengekstrak geometri yang mendasarinya. Untuk PointFlow [ ], kami menggunakan rekonstruksi permukaan Poisson untuk mengonversi point cloud menjadi mesh saat mengevaluasi LFD. Untuk mengevaluasi kualitas tekstur, kami mengadopsi metrik FID [ ] yang umum digunakan untuk mengevaluasi sintesis gambar. Khususnya, untuk setiap kategori, kami merender bentuk pengujian ke dalam gambar 2D, dan juga merender bentuk 3D yang dihasilkan dari setiap model ke dalam 50k gambar menggunakan distribusi kamera yang sama. Kami kemudian menghitung FID pada kedua set gambar. Karena dasar perbandingan dari metode sintesis gambar yang sadar 3D [ , , ] tidak secara langsung mengeluarkan jala bertekstur, kami menghitung skor FID dalam dua cara: ( ) kami menggunakan rendering volume saraf mereka untuk mendapatkan gambar 2D, yang kami sebut sebagai FID-Ori, dan ( ) kami mengekstrak mesh dari representasi bidang saraf mereka menggunakan marching cubes, merendernya, dan kemudian menggunakan lokasi 3D setiap piksel untuk mengkueri jaringan untuk mendapatkan nilai RGB. Kami menyebut skor ini, yang lebih sadar akan bentuk 3D yang sebenarnya, sebagai FID-3D. Detail lebih lanjut tentang metrik evaluasi tersedia di Lampiran . Metrik 5 10 43 57 7 8 68 28 57 7 8 i ii B.3 Kami memberikan hasil kuantitatif di Tabel. dan contoh kualitatif di Gambar dan Gambar . Hasil tambahan tersedia di video tambahan. Dibandingkan dengan OccNet [ ] yang menggunakan pengawasan 3D selama pelatihan, GET3D mencapai kinerja yang lebih baik dalam hal keragaman (COV) dan kualitas (MMD), dan bentuk yang kami hasilkan memiliki lebih banyak detail geometris. Hasil Eksperimental 2 3 4 43 PointFlow [ ] mengungguli GET3D dalam hal MMD pada CD, sementara GET3D lebih baik dalam MMD pada LFG. Kami berhipotesis bahwa ini karena PointFlow secara langsung mengoptimalkan pada lokasi titik, yang mendukung CD. GET3D juga berkinerja baik jika dibandingkan dengan metode sintesis gambar yang sadar 3D, kami mencapai peningkatan signifikan atas PiGAN [ ] dan GRAF [ ] dalam hal semua metrik pada semua dataset. Bentuk yang kami hasilkan juga berisi detail geometri dan tekstur yang lebih rinci. Dibandingkan dengan karya terbaru EG3D [ ]. Kami mencapai kinerja yang sebanding dalam menghasilkan gambar 2D (FID-ori), sementara kami secara signifikan meningkatkan sintesis bentuk 3D dalam hal FID-3D, yang menunjukkan efektivitas model kami dalam mempelajari geometri dan tekstur 3D yang sebenarnya. 68 7 57 8 Karena kami mensintesis jala bertekstur, kami dapat mengekspor bentuk kami ke Blender . Kami menunjukkan hasil rendering di Gambar dan . GET3D mampu menghasilkan bentuk dengan geometri dan topologi yang beragam dan berkualitas tinggi, struktur yang sangat tipis (sepeda motor), serta tekstur kompleks pada mobil, hewan, dan rumah. 1 1 5 GET3D juga memungkinkan interpolasi bentuk, yang dapat berguna untuk tujuan pengeditan. Kami mengeksplorasi ruang laten GET3D di Gambar , di mana kami menginterpolasi kode laten untuk menghasilkan setiap bentuk dari kiri ke kanan. GET3D mampu menghasilkan transisi yang mulus dan bermakna dari satu bentuk ke bentuk lain secara setia. Kami selanjutnya mengeksplorasi ruang laten lokal dengan sedikit mengganggu kode laten ke arah acak. GET3D menghasilkan bentuk baru dan beragam saat menerapkan pengeditan lokal di ruang laten (Gambar ). Interpolasi Bentuk 6 7 4.2 Ablasi Kami mengablas model kami dalam dua cara: dengan dan tanpa subdivisi volume, melatih menggunakan resolusi gambar yang berbeda. Ablasi lebih lanjut disediakan di Lampiran . 1) 2) C.3 Seperti yang ditunjukkan pada Tbl. , subdivisi volume secara signifikan meningkatkan kinerja pada kelas dengan struktur tipis (misalnya, sepeda motor), sementara tidak memberikan peningkatan pada kelas lain. Kami berhipotesis bahwa resolusi tetrahedral awal sudah cukup untuk menangkap geometri terperinci pada Kursi dan Mobil, dan oleh karena itu subdivisi tidak dapat memberikan peningkatan lebih lanjut. Ablasi Subdivisi Volume 2 Ablasi Resolusi Gambar yang Berbeda Kami mengablas efek resolusi gambar pelatihan pada Tbl. . Seperti yang diharapkan, peningkatan resolusi gambar meningkatkan kinerja dalam hal FID dan kualitas bentuk, karena jaringan dapat melihat lebih banyak detail, yang seringkali tidak tersedia dalam gambar beresolusi rendah. Ini menegaskan pentingnya pelatihan dengan resolusi gambar yang lebih tinggi, yang seringkali sulit dimanfaatkan oleh metode berbasis implisit. 3 4.3 Aplikasi 4.3.1 Generasi Material untuk Efek Pencahayaan Bergantung Tampilan GET3D dapat dengan mudah diperluas untuk juga menghasilkan material permukaan yang siap digunakan di mesin grafis modern. Khususnya, kami mengikuti BRDF Disney yang banyak digunakan [ , ] dan mendeskripsikan material dalam hal warna dasar (R3), logam (R), dan kekasaran (R). Sebagai hasilnya, kami mengalihkan generator tekstur kami untuk sekarang menghasilkan bidang reflektansi 5-saluran (alih-alih hanya RGB). Untuk mengakomodasi rendering material diferensial, kami mengadopsi pipeline rendering tunda berbasis Gaussian Sferis (SG) yang efisien [ ]. Khususnya, kami merasterisasi bidang reflektansi ke dalam G-buffer, dan mengambil sampel gambar HDR secara acak dari sekumpulan panorama HDR luar ruangan dunia nyata Slight = { } , di mana ∈ R32×7 diperoleh dengan mencocokkan 32 lobus SG ke setiap panorama. Renderer SG [ ] kemudian menggunakan kamera untuk merender gambar RGB dengan efek pencahayaan bergantung tampilan, yang kami masukkan ke diskriminator selama pelatihan. Perhatikan bahwa GET3D tidak memerlukan pengawasan material selama pelatihan dan belajar menghasilkan material yang terdekomposisi secara mandiri. 6 32 12 LSG K LSG 12 c Kami memberikan hasil kualitatif material permukaan yang dihasilkan pada Gambar . Meskipun tanpa pengawasan, GET3D menemukan dekomposisi material yang menarik, mis., jendela diprediksi dengan benar dengan nilai kekasaran yang lebih kecil agar lebih mengkilap daripada bodi mobil, dan bodi mobil ditemukan sebagai lebih dielektrik sementara jendela lebih metalik. Material yang dihasilkan memungkinkan kami untuk menghasilkan hasil pencahayaan ulang yang realistis, yang dapat memperhitungkan efek spekular kompleks dalam kondisi pencahayaan yang berbeda. 8 4.3.2 Sintesis 3D yang Dipandu Teks Mirip dengan GAN gambar, GET3D juga mendukung sintesis konten 3D yang dipandu teks dengan menyetel halus model yang telah dilatih sebelumnya di bawah panduan CLIP [ ]. Perhatikan bahwa hasil sintesis akhir kami adalah jala 3D bertekstur. Untuk tujuan ini, kami mengikuti desain generator ganda dari styleGAN-NADA [ ], di mana salinan yang dapat dilatih dan salinan yang dibekukan dari generator yang telah dilatih sebelumnya diadopsi. Selama optimasi, dan keduanya merender gambar dari 16 tampilan kamera acak. Diberikan kueri teks, kami mengambil sampel 500 pasang vektor kebisingan 1 dan 2. Untuk setiap sampel, kami mengoptimalkan parameter untuk meminimalkan kerugian CLIP arah [ ] (label teks sumber adalah "mobil", "hewan", dan "rumah" untuk kategori yang sesuai), dan memilih sampel dengan kerugian minimal. Untuk mempercepat proses ini, kami pertama-tama menjalankan sejumlah kecil langkah optimasi untuk 500 sampel, kemudian memilih 50 sampel teratas dengan kerugian terendah, dan menjalankan optimasi selama 300 langkah. Hasil dan perbandingan dengan metode penataan gaya mesh yang digerakkan teks SOTA, Text2Mesh [ ], disediakan di Gambar . Perhatikan bahwa, [ ] memerlukan mesh bentuk sebagai masukan untuk metode tersebut. Kami menyediakan mesh yang dihasilkan dari generator yang dibekukan sebagai mesh masukan kepadanya. Karena ia membutuhkan verteks mesh yang padat untuk mensintesis detail permukaan dengan perpindahan verteks, kami selanjutnya membagi mesh masukan dengan subdivisi titik tengah untuk memastikan setiap mesh memiliki rata-rata 50k-150k verteks. 56 21 Gt Gf Gt Gf z z Gt 21 44 9 44 5 Kesimpulan Kami memperkenalkan GET3D, model generatif 3D baru yang mampu mensintesis jala bertekstur 3D berkualitas tinggi dengan topologi arbitrer. GET3D dilatih hanya menggunakan gambar 2D sebagai pengawasan. Kami secara eksperimental menunjukkan peningkatan signifikan dalam menghasilkan bentuk 3D dibandingkan dengan metode state-of-the-art sebelumnya pada beberapa kategori. Kami berharap karya ini membawa kami selangkah lebih dekat untuk mendemokratisasi pembuatan konten 3D menggunakan AI. Meskipun GET3D membuat langkah signifikan menuju model generatif 3D yang berguna secara praktis dari bentuk bertekstur 3D, ia masih memiliki beberapa keterbatasan. Khususnya, kami masih bergantung pada siluet 2D serta pengetahuan tentang distribusi kamera selama pelatihan. Akibatnya, GET3D saat ini hanya dievaluasi pada data sintetis. Perluasan yang menjanjikan dapat menggunakan kemajuan dalam segmentasi instance dan estimasi pose kamera untuk mengurangi masalah ini dan memperluas GET3D ke data dunia nyata. GET3D juga dilatih per kategori; memperluasnya ke beberapa kategori di masa mendatang, dapat membantu kami mewakili keragaman antar kategori dengan lebih baik. Keterbatasan Kami mengusulkan model generatif 3D baru yang menghasilkan jala bertekstur 3D, yang dapat langsung diimpor ke mesin grafis saat ini. Model kami mampu menghasilkan bentuk dengan topologi arbitrer, tekstur berkualitas tinggi, dan detail geometris yang kaya, membuka jalan bagi demokratisasi Dampak yang Lebih Luas alat AI untuk pembuatan konten 3D. Seperti semua model machine learning, GET3D juga rentan terhadap bias yang diperkenalkan dalam data pelatihan. Oleh karena itu, kehati-hatian yang berlebihan harus diterapkan saat menangani aplikasi sensitif, seperti menghasilkan tubuh manusia 3D, karena GET3D tidak disesuaikan untuk aplikasi ini. Kami tidak merekomendasikan penggunaan GET3D jika privasi atau pengenalan yang salah dapat menyebabkan potensi penyalahgunaan atau aplikasi berbahaya lainnya. Sebaliknya, kami mendorong praktisi untuk dengan cermat memeriksa dan menghilangkan bias dari dataset sebelum melatih model kami untuk menggambarkan distribusi warna kulit, ras, atau identitas gender yang adil dan luas. 6 Pengungkapan Pendanaan Pekerjaan ini didanai oleh NVIDIA. Jun Gao, Tianchang Shen, Zian Wang, dan Wenzheng Chen mengakui pendapatan tambahan dalam bentuk beasiswa mahasiswa dari University of Toronto dan Vector Institute, yang tidak secara langsung mendukung pekerjaan ini. Referensi [1] Autodesk Maya, . Diakses: 19-05-2022. https://www.autodesk.com/products/maya/overview [2] Renderpeople, . Diakses: 19-05-2022. http://https://renderpeople.com/ [3] Sketchfab, . Diakses: 19-05-2022. https://sketchfab.com/ [4] Turbosquid by Shutterstock, . Diakses: 19-05-2022. https://www.turbosquid.com/ [5] Panos Achlioptas, Olga Diamanti, Ioannis Mitliagkas, dan Leonidas Guibas. Learning representations and generative models for 3d point clouds. In , pages 40–49. PMLR, 2018. International conference on machine learning [6] Brent Burley dan Walt Disney Animation Studios. Physically-based shading at disney. In , volume 2012, pages 1–7. vol. 2012, 2012. ACM SIGGRAPH [7] Eric Chan, Marco Monteiro, Petr Kellnhofer, Jiajun Wu, dan Gordon Wetzstein. pi-gan: Periodic implicit generative adversarial networks for 3d-aware image synthesis. In , 2021. Proc. CVPR [8] Eric R Chan, Connor Z Lin, Matthew A Chan, Koki Nagano, Boxiao Pan, Shalini De Mello, Orazio Gallo, Leonidas J Guibas, Jonathan Tremblay, Sameh Khamis, et al. Efficient geometry-aware 3d generative adversarial networks. In , pages 16123–16133, 2022. Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition [9] Angel X Chang, Thomas Funkhouser, Leonidas Guibas, Pat Hanrahan, Qixing Huang, Zimo Li, Silvio Savarese, Manolis Savva, Shuran Song, Hao Su, et al. Shapenet: An information-rich 3d model repository. , 2015. arXiv preprint arXiv:1512.03012 [10] Ding-Yun Chen, Xiao-Pei Tian, Yu-Te Shen, dan Ming Ouhyoung. On visual similarity based 3d model retrieval. In , volume 22, pages 223–232. Wiley Online Library, 2003. Computer graphics forum [11] Wenzheng Chen, Jun Gao, Huan Ling, Edward Smith, Jaakko Lehtinen, Alec Jacobson, dan Sanja Fidler. Learning to predict 3d objects with an interpolation-based differentiable renderer. In , 2019. Advances In Neural Information Processing Systems [12] Wenzheng Chen, Joey Litalien, Jun Gao, Zian Wang, Clement Fuji Tsang, Sameh Khalis, Or Litany, dan Sanja Fidler. DIB-R++: Learning to predict lighting and material with a hybrid differentiable renderer. In , 2021. Advances in Neural Information Processing Systems (NeurIPS) [13] Yanqin Chen, Xin Jin, dan Qionghai Dai. Distance measurement based on light field geometry and ray tracing. , 25(1):59–76, 2017. Optics Express [14] Zhiqin Chen dan Hao Zhang. Learning implicit fields for generative shape modeling. , 2019. Proceedings of IEEE Conference on Computer Vision and Pattern Recognition (CVPR) [15] Blender Online Community. . Blender Foundation, Stichting Blender Foundation, Amsterdam, 2018. Blender - a 3D modelling and rendering package [16] Prafulla Dhariwal dan Alexander Nichol. Diffusion models beat gans on image synthesis. , 34, 2021. Advances in Neural Information Processing Systems [17] Akio Doi dan Akio Koide. An efficient method of triangulating equi-valued surfaces by using tetrahedral cells. , 74(1):214–224, 1991. IEICE TRANSACTIONS on Information and Systems [18] Alexey Dosovitskiy, Lucas Beyer, Alexander Kolesnikov, Dirk Weissenborn, Xiaohua Zhai, Thomas Unterthiner, Mostafa Dehghani, Matthias Minderer, Georg Heigold, Sylvain Gelly, et al. An image is worth 16x16 words: Transformers for image recognition at scale. , 2020. arXiv preprint arXiv:2010.11929 [19] Patrick Esser, Robin Rombach, dan Bjorn Ommer. Taming transformers for high-resolution image synthesis. In , pages 12873–12883, 2021. Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition [20] Matheus Gadelha, Subhransu Maji, dan Rui Wang. 3d shape induction from 2d views of multiple objects. In , pages 402–411. IEEE, 2017. 2017 International Conference on 3D Vision (3DV) [21] Rinon Gal, Or Patashnik, Haggai Maron, Amit H Bermano, Gal Chechik, dan Daniel Cohen-Or. Stylegan-nada: Clip-guided domain adaptation of image generators. , 41(4):1–13, 2022. ACM Transactions on Graphics (TOG) [22] Jun Gao, Wenzheng Chen, Tommy Xiang, Clement Fuji Tsang, Alec Jacobson, Morgan McGuire, dan Sanja Fidler. Learning deformable tetrahedral meshes for 3d reconstruction. In , 2020. Advances In Neural Information Processing Systems [23] Jun Gao, Chengcheng Tang, Vignesh Ganapathi-Subramanian, Jiahui Huang, Hao Su, dan Leonidas J Guibas. Deepspline: Data-driven reconstruction of parametric curves and surfaces. , 2019. arXiv preprint arXiv:1901.03781 [24] Jun Gao, Zian Wang, Jinchen Xuan, dan Sanja Fidler. Beyond fixed grid: Learning geometric image representation with a deformable grid. In , pages 108–125. Springer, 2020. European Conference on Computer Vision [25] Jiatao Gu, Lingjie Liu, Peng Wang, dan Christian Theobalt. Stylenerf: A style-based 3d aware generator for high-resolution image synthesis. In , 2022. International Conference on Learning Representations [26] Zekun Hao, Arun Mallya, Serge Belongie, dan Ming-Yu Liu. GANcraft: Unsupervised 3D Neural Rendering of Minecraft Worlds. In , 2021. ICCV [27] Philipp Henzler, Niloy J. Mitra, dan Tobias Ritschel. Escaping plato’s cave: 3d shape from adversarial rendering. In , October 2019. The IEEE International Conference on Computer Vision (ICCV) [28] Martin Heusel, Hubert Ramsauer, Thomas Unterthiner, Bernhard Nessler, dan Sepp Hochreiter. Gans trained by a two time-scale update rule converge to a local nash equilibrium. , 30, 2017. Advances in neural information processing systems [29] Xun Huang, Arun Mallya, Ting-Chun Wang, dan Ming-Yu Liu. Multimodal conditional image synthesis with product-of-experts GANs. In , 2022. ECCV [30] Moritz Ibing, Gregor Kobsik, dan Leif Kobbelt. Octree transformer: Autoregressive 3d shape generation on hierarchically structured sequences. , 2021. arXiv preprint arXiv:2111.12480 [31] James T. Kajiya. The rendering equation. SIGGRAPH ’86, pages 143–150, 1986. [32] Brian Karis dan Epic Games. Real shading in unreal engine 4. , 4(3), 2013. Proc. Physically Based Shading Theory Practice [33] Tero Karras, Miika Aittala, Samuli Laine, Erik Härkönen, Janne Hellsten, Jaakko Lehtinen, dan Timo Aila. Alias-free generative adversarial networks. In , 2021. Proc. NeurIPS [34] Tero Karras, Samuli Laine, dan Timo Aila. A style-based generator architecture for generative adversarial networks. In , pages 4401–4410, 2019. Proceedings of the IEEE/CVF conference on computer vision and pattern recognition [35] Tero Karras, Samuli Laine, Miika Aittala, Janne Hellsten, Jaakko Lehtinen, dan Timo Aila. Analyzing and improving the image quality of StyleGAN. In , 2020. Proc. CVPR [36] Michael Kazhdan, Matthew Bolitho, dan Hugues Hoppe. Poisson surface reconstruction. In , volume 7, 2006. Proceedings of the fourth Eurographics symposium on Geometry processing [37] Samuli Laine, Janne Hellsten, Tero Karras, Yeongho Seol, Jaakko Lehtinen, dan Timo Aila. Modular primitives for high-performance differentiable rendering. , 39(6), 2020. ACM Transactions on Graphics [38] Daiqing Li, Junlin Yang, Karsten Kreis, Antonio Torralba, dan Sanja Fidler. Semantic segmentation with generative models: Semi-supervised learning and strong out-of-domain generalization. In , 2021. Conference on Computer Vision and Pattern Recognition (CVPR) [39] William E Lorensen dan Harvey E Cline. Marching cubes: A high resolution 3d surface construction algorithm. , 21(4):163–169, 1987. ACM siggraph computer graphics [40] Sebastian Lunz, Yingzhen Li, Andrew Fitzgibbon, dan Nate Kushman. Inverse graphics gan: Learning to generate 3d shapes from unstructured 2d data. , 2020. arXiv preprint arXiv:2002.12674 [41] Andrew Luo, Tianqin Li, Wen-Hao Zhang, dan Tai Sing Lee. Surfgen: Adversarial 3d shape synthesis with explicit surface discriminators. In , pages 16238–16248, 2021. Proceedings of the IEEE/CVF International Conference on Computer Vision [42] Lars Mescheder, Sebastian Nowozin, dan Andreas Geiger. Which training methods for gans do actually converge? In , 2018. International Conference on Machine Learning (ICML) [43] Lars Mescheder, Michael Oechsle, Michael Niemeyer, Sebastian Nowozin, dan Andreas Geiger. Occupancy networks: Learning 3d reconstruction in function space. In , pages 4460–4470, 2019. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition [44] Oscar Michel, Roi Bar-On, Richard Liu, Sagie Benaim, dan Rana Hanocka. Text2mesh: Text-driven neural stylization for meshes. In , pages 13492–13502, 2022. Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition [45] Ben Mildenhall, Pratul P. Srinivasan, Matthew Tancik, Jonathan T. Barron, Ravi Ramamoorthi, dan Ren Ng. Nerf: Representing scenes as neural radiance fields for view synthesis. In , 2020. ECCV [46] Kaichun Mo, Paul Guerrero, Li Yi, Hao Su, Peter Wonka, Niloy Mitra, dan Leonidas Guibas. Structurenet: Hierarchical graph networks for 3d shape generation. , 38(6):Article 242, 2019. ACM Transactions on Graphics (TOG), Siggraph Asia 2019 [47] Jacob Munkberg, Jon Hasselgren, Tianchang Shen, Jun Gao, Wenzheng Chen, Alex Evans, Thomas Müller, dan Sanja Fidler. Extracting triangular 3d models, materials, and lighting from images. In , pages 8280–8290, 2022. Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition [48] Charlie Nash, Yaroslav Ganin, S. M. Ali Eslami, dan Peter W. Battaglia. Polygen: An autoregressive generative model of 3d meshes. , 2020. ICML [49] Michael Niemeyer dan Andreas Geiger. Giraffe: Representing scenes as compositional generative neural feature fields. In , 2021. Proc. IEEE Conf. on Computer Vision and Pattern Recognition (CVPR) [50] Michael Oechsle, Lars Mescheder, Michael Niemeyer, Thilo Strauss, dan Andreas Geiger. Texture fields: Learning texture representations in function space. In , pages 4531–4540, 2019. Proceedings of the IEEE/CVF International Conference on Computer Vision [51] Roy Or-El, Xuan Luo, Mengyi Shan, Eli Shechtman, Jeong Joon Park, dan Ira Kemelmacher-Shlizerman. Stylesdf: High-resolution 3d-consistent image and geometry generation. In , pages 13503–13513, 2022. Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition [52] Taesung Park, Ming-Yu Liu, Ting-Chun Wang, dan Jun-Yan Zhu. Semantic image synthesis with spatially-adaptive normalization. In , 2019. Proceedings of the IEEE Conference on Computer Vision and Pattern Recogni-tion [53] Dario Pavllo, Jonas Kohler, Thomas Hofmann, dan Aurelien Lucchi. Learning generative models of textured 3d meshes from real-world images. In , 2021. IEEE/CVF International Conference on Computer Vision (ICCV) [54] Dario Pavllo, Graham Spinks, Thomas Hofmann, Marie-Francine Moens, dan Aurelien Lucchi. Convolu-tional generation of textured 3d meshes. In , 2020. Advances in Neural Information Processing Systems (NeurIPS) [55] Songyou Peng, Michael Niemeyer, Lars Mescheder, Marc Pollefeys, dan Andreas Geiger. Convolutional occupancy networks. In , 2020. European Conference on Computer Vision (ECCV) [56] Alec Radford, Jong Wook Kim, Chris Hallacy, Aditya Ramesh, Gabriel Goh, Sandhini Agarwal, Girish Sastry, Amanda Askell, Pamela Mishkin, Jack Clark, et al. Learning transferable visual models from natural language supervision. In , pages 8748–8763. PMLR, 2021. International Conference on Machine Learning [57] Katja Schwarz, Yiyi Liao, Michael Niemeyer, dan Andreas Geiger. Graf: Generative radiance fields for 3d-aware image synthesis. In , 2020. Advances in Neural Information Processing Systems (NeurIPS) [58] Katja Schwarz, Axel Sauer, Michael Niemeyer, Yiyi Liao, dan Andreas Geiger. Voxgraf: Fast 3d-aware image synthesis with sparse voxel grids. , 2022. ARXIV [59] Tianchang Shen, Jun Gao, Amlan Kar, dan Sanja Fidler. Interactive annotation of 3d object geometry using 2d scribbles. In , pages 751–767. Springer, 2020. European Conference on Computer Vision [60] Tianchang Shen, Jun Gao, Kangxue Yin, Ming-Yu Liu, dan Sanja Fidler. Deep marching tetrahedra: a hybrid representation for high-resolution 3d shape synthesis. In , 2021. Advances in Neural Information Processing Systems (NeurIPS) [61] Vincent Sitzmann, Julien N.P. Martel, Alexander W. Bergman, David B. Lindell, dan Gordon Wetzstein. Implicit neural representations with periodic activation functions. In , 2020. Proc. NeurIPS [62] Edward J Smith dan David Meger. Improved adversarial systems for 3d object generation and reconstruction. In , pages 87–96. PMLR, 2017. Conference on Robot Learning [63] Christian Szegedy, Vincent Vanhoucke, Sergey Ioffe, Jon Shlens, dan Zbigniew Wojna. Rethinking the inception architecture for computer vision. In , pages 2818–2826, 2016. Proceedings of the IEEE conference on computer vision and pattern recognition [64] Jiaping Wang, Peiran Ren, Minmin Gong, John Snyder, dan Baining Guo. All-frequency rendering of dynamic, spatially-varying reflectance.