```html المؤلفون: جون جاو، NVIDIA، جامعة تورنتو، معهد فيكتور (jung@nvidia.com) تيانتشانغ شين، NVIDIA، جامعة تورنتو، معهد فيكتور (frshen@nvidia.com) زيان وانغ، NVIDIA، جامعة تورنتو، معهد فيكتور (zianw@nvidia.com) وينزينغ تشين، NVIDIA، جامعة تورنتو، معهد فيكتور (wenzchen@nvidia.com) كانغشيو ين، NVIDIA (kangxuey@nvidia.com) دايتشينغ لي، NVIDIA (daiqingl@nvidia.com) أور ليتاني، NVIDIA (olitany@nvidia.com) زان جوجتشيتش، NVIDIA (zgojcic@nvidia.com) سانجا فيدلر، NVIDIA، جامعة تورنتو، معهد فيكتور (sfidler@nvidia.com) ملخص مع انتقال العديد من الصناعات نحو نمذجة عوالم افتراضية ثلاثية الأبعاد ضخمة، أصبحت الحاجة إلى أدوات إنشاء محتوى يمكن أن تتوسع من حيث كمية وجودة وتنوع المحتوى ثلاثي الأبعاد واضحة. في عملنا، نهدف إلى تدريب نماذج توليدية ثلاثية الأبعاد عالية الأداء تولد شبكات محاكمة يمكن استهلاكها مباشرة بواسطة محركات العرض ثلاثية الأبعاد، وبالتالي يمكن استخدامها فورًا في التطبيقات اللاحقة. الأعمال السابقة في النمذجة التوليدية ثلاثية الأبعاد إما تفتقر إلى التفاصيل الهندسية، أو تقتصر على طوبولوجيا الشبكة التي يمكن إنتاجها، أو لا تدعم عادةً الأنسجة، أو تستخدم عارضات عصبية في عملية التوليف، مما يجعل استخدامها في البرامج ثلاثية الأبعاد الشائعة غير بسيط. في هذا العمل، نقدم GET3D، نموذج وليدي نتج بكات لاثية الأبعاد حاكمة بشكل مباشر مع طوبولوجيا معقدة، وتفاصيل هندسية غنية، وأنسجة عالية الدقة. نربط النجاحات الحديثة في نمذجة الأسطح التفاضلية، والعرض التفاضلي، والشبكات التنافسية التوليدية ثنائية الأبعاد لتدريب نموذجنا من مجموعات الصور ثنائية الأبعاد. GET3D قادر على إنشاء شبكات ثلاثية الأبعاد عالية الجودة، تتراوح من السيارات والكراسي والحيوانات والدراجات النارية والشخصيات البشرية إلى المباني، محققًا تحسينات كبيرة على الطرق السابقة. صفحة مشروعنا: ت ي ش ث م https://nv-tlabs.github.io/GET3D 1 مقدمة أصبح المحتوى ثلاثي الأبعاد المتنوع وعالي الجودة ذا أهمية متزايدة للعديد من الصناعات، بما في ذلك الألعاب والروبوتات والهندسة المعمارية والمنصات الاجتماعية. ومع ذلك، فإن الإنشاء اليدوي للأصول ثلاثية الأبعاد يستغرق وقتًا طويلاً ويتطلب معرفة تقنية محددة بالإضافة إلى مهارات النمذجة الفنية. أحد التحديات الرئيسية هو الحجم - بينما يمكن العثور على نماذج ثلاثية الأبعاد في أسواق ثلاثية الأبعاد مثل Turbosquid [ ] أو Sketchfab [ ]، فإن إنشاء العديد من النماذج ثلاثية الأبعاد، على سبيل المثال، لتعبئة لعبة أو فيلم بحشد من الشخصيات التي تبدو مختلفة لا يزال يستغرق قدرًا كبيرًا من وقت الفنان. 4 3 لتسهيل عملية إنشاء المحتوى وجعلها متاحة لمجموعة متنوعة من (المستخدمين المبتدئين)، أصبحت الشبكات التوليدية ثلاثية الأبعاد التي يمكنها إنتاج أصول ثلاثية الأبعاد عالية الجودة ومتنوعة مجالًا نشطًا للبحث مؤخرًا [ , , , , , , , , , , ]. ومع ذلك، لكي تكون مفيدة عمليًا للتطبيقات الحالية في العالم الحقيقي، يجب أن تفي نماذج التوليد ثلاثي الأبعاد بالمواصفات التالية: يجب أن تكون قادرة على توليد أشكال ذات تفاصيل هندسية وطوبولوجيا عشوائية، يجب أن يكون الناتج شبكة محكمة، وهي تمثيل أساسي تستخدمه حزم البرامج الرسومية القياسية مثل Blender [ ] و Maya [ ]، و يجب أن نكون قادرين على الاستفادة من الصور ثنائية الأبعاد للإشراف، حيث أنها أكثر توفرًا من الأشكال ثلاثية الأبعاد الصريحة. 5 14 43 46 53 68 75 60 59 69 23 (أ) (ب) 15 1 (ج) ركزت الأعمال السابقة في النمذجة التوليدية ثلاثية الأبعاد على مجموعات فرعية من المتطلبات المذكورة أعلاه، ولكن لم تفِ أي طريقة حتى الآن بجميعها (الجدول ). على سبيل المثال، الطرق التي تولد سحب النقاط ثلاثية الأبعاد [ , 68, 75] لا تنتج عادةً أنسجة ويجب تحويلها إلى شبكة في المعالجة اللاحقة. 1 5 غالباً ما تفتقر الطرق التي تولد فوكسل إلى التفاصيل الهندسية ولا تنتج نسيجًا [ , , , ]. تركز النماذج التوليدية القائمة على الحقول العصبية [ , ] على استخراج الهندسة ولكنها تتجاهل النسيج. معظم هذه تتطلب أيضًا إشرافًا ثلاثي الأبعاد صريحًا. أخيرًا، الطرق التي تنتج مباشرة شبكات ثلاثية الأبعاد محكمة [ , ] تتطلب عادةً قوالب أشكال محددة مسبقًا ولا يمكنها توليد أشكال ذات طوبولوجيا معقدة وجنس متغير. 66 20 27 40 43 14 54 53 مؤخرًا، أدى التقدم السريع في العرض الحجمي العصبي [ ] والشبكات التنافسية التوليدية ثنائية الأبعاد (GANs) [ , , , , ] إلى ظهور توليف الصور المدرك ثلاثي الأبعاد [ , , , , , ]. ومع ذلك، تهدف هذه الأعمال إلى توليف صور متسقة متعددة المناظر باستخدام العرض العصبي في عملية التوليف ولا تضمن إمكانية توليد أشكال ثلاثية الأبعاد ذات معنى. في حين أنه يمكن الحصول على شبكة بشكل محتمل من تمثيل المجال العصبي الأساسي باستخدام خوارزمية المكعبات الزاحفة [ ]، فإن استخراج النسيج المقابل ليس أمرًا بسيطًا. 45 34 35 33 29 52 7 57 8 49 51 25 39 في هذا العمل، نقدم نهجًا جديدًا يهدف إلى معالجة جميع متطلبات نموذج توليدي ثلاثي الأبعاد مفيد عمليًا. على وجه التحديد، نقترح GET3D، وهو نموذج وليدي للأشكال لاثية الأبعاد ينتج مباشرة بكات لاثية الأبعاد حاكمة ريحة بتفاصيل هندسية ونسيجية عالية وطوبولوجيا شبكة عشوائية. في قلب نهجنا توجد عملية توليد تستخدم طريقة استخراج أسطح قابلة للتفاضل [ ] وتقنية عرض قابلة للتفاضل [ , ]. الأول يمكّننا من تحسين شبكات ثلاثية الأبعاد محكمة ذات طوبولوجيا عشوائية مباشرة وإخراجها، بينما يسمح لنا الأخير بتدريب نموذجنا باستخدام صور ثنائية الأبعاد، وبالتالي الاستفادة من أجهزة التمييز القوية والمُثبتة والمطورة لتوليف الصور ثنائية الأبعاد. نظرًا لأن نموذجنا ينتج شبكات مباشرة ويستخدم عارض رسومات فعالًا (قابل للتفاضل)، يمكننا توسيع نموذجنا لتدريبه بدقة صورة ت ث ش ث م ص صريحة 60 47 37 تصل إلى 1024 × 1024، مما يسمح لنا بتعلم تفاصيل هندسية ونسيجية عالية الجودة. نعرض أداءً متطورًا في التوليد غير المشروط للأشكال ثلاثية الأبعاد عبر فئات متعددة ذات هندسة معقدة من ShapeNet [ ] و Turbosquid [ ] و Renderpeople [ ]، مثل الكراسي والدراجات النارية والسيارات والشخصيات البشرية والمباني. مع الشبكة الصريحة كتمثيل إخراج، فإن GET3D مرن جدًا ويمكن تكييفه بسهولة مع مهام أخرى، بما في ذلك: التعلم لتوليد مواد مفككة وتأثيرات إضاءة تعتمد على العرض باستخدام العرض التفاضلي المتقدم [ ]، دون إشراف، توليد الأشكال ثلاثية الأبعاد الموجهة بالنص باستخدام تضمين CLIP [ ]. 9 4 2 (أ) 12 (ب) 56 2 الأعمال ذات الصلة نستعرض التطورات الحديثة في النماذج التوليدية ثلاثية الأبعاد للهندسة والمظهر، بالإضافة إلى توليف الصور التوليدي المدرك ثلاثي الأبعاد. في السنوات الأخيرة، حققت النماذج التوليدية ثنائية الأبعاد جودة واقعية في توليف الصور عالية الدقة [ , , , , , , ]. ألهم هذا التقدم أيضًا البحث في إنشاء المحتوى ثلاثي الأبعاد. هدفت النهج المبكرة إلى توسيع مولدات CNN ثنائية الأبعاد مباشرة إلى شبكات فوكسل ثلاثية الأبعاد [ , , , , ]، ولكن البصمة الذاكرة العالية والتعقيد الحسابي للالتفافات ثلاثية الأبعاد يعيق عملية التوليد بدقة عالية. كبديل، استكشفت أعمال أخرى سحب النقاط [ , , , ]، أو الحقول الضمنية [ , ]، أو تمثيلات الأوكتري [ ]. ومع ذلك، تركز هذه الأعمال بشكل أساسي على توليد الهندسة وتتجاهل المظهر. كما تحتاج تمثيلات الإخراج الخاصة بها إلى معالجة لاحقة لجعلها متوافقة مع محركات الرسوميات القياسية. النماذج التوليدية ثلاثية الأبعاد 34 35 33 52 29 19 16 66 20 27 40 62 5 68 75 46 43 14 30 أقرب إلى عملنا، تولد Textured3DGAN [ , ] و DIBR [ ] شبكات ثلاثية الأبعاد محكمة، لكنها تصيغ التوليد كتشويه لشبكة قالب، مما يمنعها من توليد طوبولوجيا معقدة أو أشكال ذات جنس متغير، وهو ما يمكن لطريقتنا القيام به. يمكن لـ PolyGen [ ] و SurfGen [ ] إنتاج شبكات ذات طوبولوجيا عشوائية، لكنها لا تولد أنسجة. 54 53 11 48 41 مستوحاة من نجاح العرض الحجمي العصبي [ ] والتمثيلات الضمنية [ , ]، بدأ العمل الحديث في معالجة مشكلة توليف الصور المدرك ثلاثي الأبعاد [ , , , , , , , , , ]. ومع ذلك، فإن شبكات العرض الحجمي العصبي بطيئة عادةً في الاستعلام، مما يؤدي إلى أوقات تدريب طويلة [ , ] وتوليد صور محدودة الدقة. يحسن GIRAFFE [ ] و StyleNerf [ ] كفاءة التدريب والعرض عن طريق إجراء العرض العصبي بدقة أقل ثم رفع النتائج باستخدام CNN ثنائي الأبعاد. ومع ذلك، فإن مكاسب الأداء تأتي على حساب اتساق أقل بين المناظر. باستخدام مميز مزدوج، يمكن لـ EG3D [ ] التخفيف جزئيًا من هذه المشكلة. ومع ذلك، فإن استخراج سطح محكم من الطرق التي تعتمد على العرض العصبي هو مسعى ليس بالبسيط. في المقابل، ينتج GET3D مباشرة شبكات ثلاثية الأبعاد محكمة يمكن استخدامها بسهولة في محركات الرسوميات القياسية. توليف الصور التوليدي المدرك ثلاثي الأبعاد 45 43 14 7 57 49 26 25 76 8 51 58 67 7 57 49 25 8 3 الطريقة نقدم الآن إطار عمل GET3D الخاص بنا لتوليف الأشكال ثلاثية الأبعاد المحكمة. تنقسم عملية التوليد لدينا إلى جزأين: فرع هندسة، ينتج شبكة سطحية قابلة للتفاضل ذات طوبولوجيا عشوائية، وفرع نسيج ينتج مجال نسيج يمكن الاستعلام عنه عند نقاط السطح لإنتاج ألوان. يمكن توسيع الأخير ليشمل خصائص سطح أخرى مثل المواد على سبيل المثال (القسم ). أثناء التدريب، يتم استخدام عارض تجسيدي فعال قابل للتفاضل لعرض الشبكة المحكمة المستخرجة في صور ثنائية الأبعاد عالية الدقة. العملية بأكملها قابلة للتفاضل، مما يسمح بالتدريب العدائي من الصور (مع أقنعة تشير إلى كائن الاهتمام) عن طريق نشر التدرجات من المميز ثنائي الأبعاد إلى كلا فرعي المولد. يتم توضيح نموذجنا في الشكل . فيما يلي، نقدم أولاً مولدنا ثلاثي الأبعاد في القسم ، قبل الانتقال إلى العرض التفاضلي ودوال الخسارة في القسم . 4.3.1 2 3.1 3.2 3.1 مولد نماذج الأشكال ثلاثية الأبعاد المحكمة نهدف إلى تعلم مولد ثلاثي الأبعاد = ( ) لربط عينة من توزيع غاوسي M, E G z ∈ N (0*,* ) بشبكة مع نسيج . z I M E نظرًا لأن نفس الهندسة يمكن أن تحتوي على أنسجة مختلفة، ويمكن تطبيق نفس النسيج على هندسات مختلفة، فإننا نسحب متجهين إدخال عشوائيين 1 ∈ R512 و 2 ∈ R512. باتباع StyleGAN [ , , ]، نستخدم بعد ذلك شبكات توليد غير خطية geo و tex لربط 1 و 2 بمتجهات كامنة وسيطة 1 = geo( 1) و 2 = tex( 2) والتي تستخدم بعد ذلك لإنتاج تتحكم في توليد الأشكال ثلاثية الأبعاد والنسيج، على التوالي. نقدم رسميًا مولد الهندسة في القسم والمولد النسيج في القسم . z z 34 35 33 f f z z w f z w f z أنماط 3.1.1 3.1.2 3.1.1 مولد الهندسة نصمم مولد الهندسة الخاص بنا ليشمل DMTet [ ]، وهو تمثيل سطح قابل للتفاضل تم اقتراحه مؤخرًا. يمثل DMTet الهندسة كمجال مسافة معطل (SDF) معرف على شبكة رباعية الأوجه قابلة للتشوه [ , ]، والتي يمكن من خلالها استعادة السطح بشكل قابل للتفاضل من خلال المكعبات الزاحفة [ ]. يؤدي تشويه الشبكة عن طريق تحريك رؤوسها إلى استخدام أفضل لدقتها. من خلال اعتماد DMTet لاستخراج الأسطح، يمكننا إنتاج شبكات صريحة ذات طوبولوجيا وجنس عشوائيين. نقدم بعد ذلك ملخصًا موجزًا لـ DMTet ونشير إلى القارئ بالورقة الأصلية لمزيد من التفاصيل. 60 22 24 17 لنفترض أن ( ) تمثل الفضاء ثلاثي الأبعاد الكامل الذي يقع فيه الكائن، حيث هي الرؤوس في الشبكة الرباعية الأوجه . يتم تعريف كل رباعي الأوجه ∈ باستخدام أربعة رؤوس { }، مع ∈ {1*, . . . , K*}, حيث هو العدد الإجمالي لرباعيات الأوجه، و ∈ ∈ R3. بالإضافة إلى إحداثياتها ثلاثية الأبعاد ، يحتوي كل رأس على قيمة مجال المسافة المعطل (SDF) ∈ R وتشوه ∆ ∈ R3 للرأس من إحداثياته الأساسية الأصلية. هذا التمثيل يسمح باستعادة الشبكة الصريحة من خلال خوارزمية المكعبات الزاحفة القابلة للتفاضل [ ]، حيث يتم حساب قيم SDF في الفضاء المستمر عن طريق استيفاء خطي متناظر لقيمتها على الرؤوس المشوهة ′ = + ∆ . VT , T VT T Tk T v ak , v bk , v ck , v dk k K v ik VT , v ik i v i si v i 60 si v v i v i نربط 1 ∈ R512 بقيم SDF والتشوهات عند كل رأس من خلال سلسلة من طبقات الالتفاف ثلاثية الأبعاد وطبقات كاملة الاتصال. على وجه التحديد، نستخدم أولاً طبقات الالتفاف ثلاثية الأبعاد لتوليد حجم ميزات مشروط بـ 1. ثم نقوم بالاستعلام عن الميزات عند كل رأس ∈ باستخدام استيفاء ثلاثي الخطوط ونغذيه في MLPs التي تنتج قيمة SDF والتشوه ∆ . في الحالات التي تتطلب النمذجة بدقة عالية (مثل دراجة نارية ذات هياكل رفيعة في العجلات)، نستخدم أيضًا تقسيم حجمي يتبع [ ]. بنية الشبكة w v i w v i VT si v i 60 بعد الحصول على و ∆ لجميع الرؤوس، نستخدم خوارزمية المكعبات الزاحفة التفاضلية لاستخراج الشبكة الصريحة. تحدد المكعبات الزاحفة طوبولوجيا السطح داخل كل رباعي الأوجه بناءً على علامات . على وجه الخصوص، يتم استخراج وجه شبكة عندما sign( ) /= sign( )، حيث يشير إلى مؤشرات الرؤوس في حافة رباعي الأوجه، ويتم تحديد الرؤوس لهذا الوجه عن طريق استيفاء خطي مثل mi,j = v 0 i sj−v 0 j si sj−si. لاحظ أن المعادلة أعلاه يتم تقييمها فقط عندما si 6= sj، وبالتالي فهي قابلة للتفاضل، ويمكن إعادة نشر التدرج من mi,j إلى قيم SDF si والتشوهات ∆vi. مع هذا التمثيل، يمكن توليد الأشكال ذات الطوبولوجيا العشوائية بسهولة عن طريق التنبؤ بعلامات مختلفة لـ si. استخراج الشبكة التفاضلي si v i si si sj i, j m i,j 3.1.2 مولد النسيج إن توليد خريطة نسيج متسقة مع الشبكة الناتجة مباشرة ليس أمرًا بسيطًا، حيث يمكن أن يكون للشكل الناتج جنس وطوبولوجيا عشوائيين. لذلك، نقوم بترميز النسيج كمجال نسيج [ ]. 50 على وجه التحديد، نقوم بنمذجة مجال النسيج بوظيفة التي تربط الموقع ثلاثي الأبعاد لنقطة السطح ∈ R3، المشروط بـ 2، باللون RGB ∈ R3 في هذا الموقع. نظرًا لأن مجال النسيج يعتمد على الهندسة، فإننا نشترط أيضًا هذا الربط على رمز الهندسة الكامن 1، بحيث يكون = ( *,* 1 ⊕ 2)، حيث ⊕ يمثل الدمج. ft p w c w c ft p w w نمثل مجال النسيج الخاص بنا باستخدام تمثيل ثلاثي المستويات، وهو فعال ومعبر في إعادة بناء الأشكال ثلاثية الأبعاد [ ] وتوليد الصور المدركة ثلاثية الأبعاد [ ]. على وجه التحديد، نتبع [ , ] ونستخدم شبكة عصبية التفافية ثنائية الأبعاد مشروطة لربط الرمز الكامن 1 ⊕ 2 بثلاثة مستويات ميزات متعامدة متراصفة مع المحاور بحجم × × ( × 3)، حيث = 256 يمثل الدقة المكانية و = 32 عدد القنوات. بنية الشبكة 55 8 8 35 w w N N C N C بالنظر إلى مستويات الميزات، يمكن استعادة المتجه الميزي f t ∈ R 32 لنقطة سطح p كـ f t = P e ρ(πe(p))، حيث πe(p) هو إسقاط النقطة p على مستوى الميزة e و ρ(·) يمثل الاستيفاء الثنائي الميزات. ثم تستخدم طبقة إضافية كاملة الاتصال لربط متجه الميزات المجمع f t بلون RGB c. لاحظ أنه، على عكس الأعمال الأخرى في توليف الصور المدرك ثلاثي الأبعاد [8، 25، 7، 57] التي تستخدم أيضًا تمثيل مجال عصبي، نحتاج فقط إلى استعلام مجال النسيج عند مواقع نقاط السطح (على عكس العينات الكثيفة على طول شعاع). هذا يقلل بشكل كبير من التعقيد الحسابي لتصوير الصور عالية الدقة ويضمن توليد صور متسقة متعددة المناظر حسب التصميم. 3.2 العرض التفاضلي والتدريب من أجل الإشراف على نموذجنا أثناء التدريب، نستلهم من Nvdiffrec [ ] الذي يقوم بإعادة بناء الكائنات ثلاثية الأبعاد متعددة المناظر باستخدام عارض تفاضلي. على وجه التحديد، نقوم بعرض الشبكة ثلاثية الأبعاد المستخرجة ومجال النسيج إلى صور ثنائية الأبعاد باستخدام عارض تفاضلي [ ]، ونشرف على شبكتنا بمميز ثنائي الأبعاد، والذي يحاول التمييز بين الصورة من كائن حقيقي أو صورة تم إنشاؤها من الكائن المولّد. 47 37 نفترض أن توزيع الكاميرا C الذي استخدم للحصول على الصور في مجموعة البيانات معروف. لعرض الأشكال المولدة، نقوم بسحب عشوائي لكاميرا من C، ونستخدم عارض تجسيدي تفاضلي عالي الكفاءة Nvdiffrast [ ] لعرض الشبكة ثلاثية الأبعاد إلى صورة ظلية ثنائية الأبعاد بالإضافة إلى صورة تحتوي فيها كل بكسل على إحداثيات نقطة ثلاثية الأبعاد المقابلة على سطح الشبكة. تستخدم هذه الإحداثيات بعد ذلك للاستعلام عن مجال النسيج للحصول على قيم RGB. نظرًا لأننا نعمل مباشرة على الشبكة المستخرجة، يمكننا عرض صور عالية الدقة بكفاءة عالية، مما يسمح بتدريب نموذجنا بدقة صور تصل إلى 1024 × 1024. العرض التفاضلي c 37 نقوم بتدريب نموذجنا باستخدام هدف تنافسي. نعتمد بنية المميز من StyleGAN [ ]، ونستخدم نفس الهدف غير المشبع لـ GAN مع تنظيم R1 [ ]. وجدنا تجريبيًا أن استخدام مميزين منفصلين، أحدهما لصور RGB والآخر للصور الظلية، ينتج نتائج أفضل من مميز واحد يعمل على كليهما. لنفترض أن هو المميز، حيث يمكن أن يكون صورة RGB أو صورة ظلية. ثم يتم تعريف الهدف التنافسي على النحو التالي: المميز والهدف 34 42 Dx x حيث ( ) يُعرّف بـ ( ) = − log(1 +exp(− ))، هو توزيع الصور الحقيقية، يمثل العرض، و هو معامل فائق. بما أن قابل للتفاضل، يمكن إعادة نشر التدرجات من الصور ثنائية الأبعاد إلى مولداتنا ثلاثية الأبعاد. g u g u u px R λ R لإزالة الوجوه العائمة الداخلية غير المرئية في أي من المناظر، نقوم بالإضافة إلى ذلك بتنظيم مولد الهندسة بخسارة إنتروبيا متقاطعة معرفة بين قيم SDF للرؤوس المجاورة [ ]: التنظيم 47 حيث يمثل خسارة الإنتروبيا المتقاطعة الثنائية و يمثل دالة السيغمويد. يتم تعريف المجموع في المعادلة على مجموعة الحواف الفريدة S في الشبكة الرباعية الأوجه، حيث sign( ) /= sign( ). H σ 2 e si sj إذن، يتم تعريف دالة الخسارة الإجمالية على النحو التالي: حيث هو معامل فائق يتحكم في مستوى التنظيم. µ 4 التجارب نجري تجارب مكثفة لتقييم نموذجنا. نقارن أولاً جودة الشبكات ثلاثية الأبعاد المحكمة التي تم إنشاؤها بواسطة GET3D مع الطرق الحالية باستخدام مجموعات بيانات ShapeNet [ ] و Turbosquid [ ]. بعد ذلك، نحلل خيارات التصميم الخاصة بنا في القسم . أخيرًا، نعرض مرونة GET3D عن طريق تكييفه مع التطبيقات اللاحقة في القسم . يتم توفير نتائج تجريبية إضافية وتفاصيل التنفيذ في الملحق. 9 4 4.2 4.3 4.1 تجارب على مجموعات بيانات اصطناعية لتقييم ShapeNet [ ]، نستخدم ثلاث فئات ذات هندسة معقدة - و و ، والتي تحتوي على 7497 و 6778 و 337 شكلًا على التوالي. نقوم بتقسيم كل فئة عشوائيًا إلى تدريب (70٪) وتحقق (10٪) واختبار (20٪)، ونزيل بعد ذلك من مجموعة الاختبار الأشكال التي لها نسخ مكررة في مجموعة التدريب. لتصوير بيانات التدريب، نسحب عشوائيًا أوضاع الكاميرا من نصف الكرة العلوي لكل شكل. بالنسبة لفئات و ، نستخدم 24 عرضًا عشوائيًا، بينما بالنسبة لـ نستخدم 100 عرض نظرًا لعدد أقل من الأشكال. نظرًا لأن النماذج في ShapeNet تحتوي فقط على أنسجة بسيطة، فإننا نقوم أيضًا بتقييم GET3D على مجموعة بيانات (442 شكلًا) تم جمعها من TurboSquid [ ]، حيث تكون الأنسجة أكثر تفصيلاً ونقسمها إلى تدريب وتحقق واختبار كما هو محدد أعلاه. أخيرًا، لإظهار تنوع GET3D، نقدم أيضًا نتائج نوعية على مجموعة بيانات التي تم جمعها من Turbosquid (563 شكلًا) ومجموعة بيانات من Renderpeople [ ] (500 شكل). نقوم بتدريب نموذج منفصل على كل فئة. مجموعات البيانات 9 Car Chair Motorbike Car Chair Motorbike Animal 4 House Human Body 2 نقارن GET3D بمجموعتين من الأعمال: نماذج توليدية ثلاثية الأبعاد تعتمد على إشراف ثلاثي الأبعاد: PointFlow [ ] و OccNet [ ]. لاحظ أن هذه الطرق تولد الهندسة فقط بدون نسيج. طرق توليف الصور المدركة ثلاثية الأبعاد: GRAF [ ] و PiGAN [ ] و EG3D [ ]. الطرق الأساسية 1) 68 43 2) 57 7 8 لتقييم جودة التوليف الخاص بنا، نأخذ في الاعتبار كل من هندسة وجودة الأشكال المولدة. بالنسبة للهندسة، نعتمد المقاييس من [ ] ونستخدم كل من مسافة شامفر (CD) ومسافة المجال الضوئي [ ] (LFD) لحساب درجة التغطية ومسافة المطابقة الدنيا. بالنسبة لـ OccNet [ ] و GRAF [ ] و PiGAN [ ] و EG3D [ ]، نستخدم المكعبات الزاحفة لاستخراج الهندسة الأساسية. بالنسبة لـ PointFlow [ ]، نستخدم إعادة بناء سطح بواسون لتحويل سحابة النقاط إلى شبكة عند تقييم LFD. لتقييم جودة النسيج، نعتمد مقياس FID [ ] المستخدم بشكل شائع لتقييم توليف الصور. على وجه الخصوص، لكل فئة، نقوم بعرض الأشكال الاختبارية إلى صور ثنائية الأبعاد، ونقوم أيضًا بعرض الأشكال ثلاثية الأبعاد المولدة من كل نموذج إلى 50 ألف صورة باستخدام نفس توزيع الكاميرا. ثم نقوم بحساب FID على مجموعتي الصور. نظرًا لأن الطرق الأساسية من توليف الصور المدرك ثلاثي الأبعاد [ , , ] لا تنتج شبكات محكمة مباشرة، فإننا نحسب درجة FID بطريقتين: ( ) نستخدم العرض الحجمي العصبي الخاص بهم للحصول على صور ثنائية الأبعاد، والتي نشير إليها باسم FID-Ori، و ( ) نستخرج الشبكة من تمثيل المجال العصبي الخاص بهم باستخدام المكعبات الزاحفة، ونعرضها، ثم نستخدم الموقع ثلاثي الأبعاد لكل بكسل للاستعلام عن الشبكة للحصول على قيم RGB. نشير إلى هذه النتيجة، الأكثر وعياً بالشكل ثلاثي الأبعاد الفعلي، باسم FID-3D. تتوفر تفاصيل إضافية حول مقاييس التقييم في الملحق . المقاييس 5 10 43 57 7 8 68 28 57 7 8 i ii B.3 نقدم النتائج الكمية في الجدول والأمثلة النوعية في الشكل والشكل . تتوفر نتائج إضافية في الفيديو التكميلي. مقارنة بـ OccNet [ ] الذي يستخدم إشرافًا ثلاثي الأبعاد أثناء التدريب، يحقق GET3D أداءً أفضل من حيث التنوع (COV) والجودة (MMD)، وتتمتع أشكالنا المولدة بتفاصيل هندسية أكثر. نتائج التجارب 2 3 4 43 يتفوق PointFlow [ ] على GET3D من حيث MMD على CD، بينما يكون GET3D أفضل في MMD على LFG. نفترض أن هذا يرجع إلى أن PointFlow يقوم بالتحسين مباشرة على مواقع النقاط، مما يفضل CD. يتفوق GET3D أيضًا عند مقارنته بطرق توليف الصور المدركة ثلاثية الأبعاد، حيث نحقق تحسينات كبيرة على PiGAN [ ] و GRAF [ ] من حيث جميع المقاييس على جميع مجموعات البيانات. تحتوي أشكالنا المولدة أيضًا على تفاصيل هندسية ونسيجية أكثر. مقارنة بالعمل الحديث EG3D [ ]. نحقق أداءً مشابهًا في توليد صور ثنائية الأبعاد (FID-ori)، بينما نحسن بشكل كبير في توليد الأشكال ثلاثية الأبعاد من حيث FID-3D، مما يوضح فعالية نموذجنا في تعلم الهندسة والنسيج ثلاثية الأبعاد الفعلية. 68 7 57 8 نظرًا لأننا نولد شبكات محكمة، يمكننا تصدير أشكالنا إلى Blender . نعرض نتائج العرض في الشكل والشكل . GET3D قادر على توليد أشكال ذات هندسة وطوبولوجيا متنوعة وعالية الجودة، وهياكل رفيعة جدًا (دراجات نارية)، بالإضافة إلى أنسجة معقدة على السيارات والحيوانات والمنازل. 1 1 5 يتيح GET3D أيضًا استيفاء الأشكال، والذي يمكن أن يكون مفيدًا لأغراض التحرير. نستكشف المساحة الكامنة لـ GET3D في الشكل ، حيث نقوم باستيفاء الرموز الكامنة لتوليد كل شكل من اليسار إلى اليمين. GET3D قادر على توليد انتقال سلس وذو معنى من شكل إلى آخر بشكل موثوق. نستكشف أيضًا المساحة الكامنة المحلية عن طريق تغيير الرموز الكامنة بشكل طفيف في اتجاه عشوائي. ينتج GET3D أشكالًا جديدة ومتنوعة عند تطبيق تحرير محلي في المساحة الكامنة (الشكل ). استيفاء الأشكال 6 7 4.2 التحليلات نقوم بتحليل نموذجنا بطريقتين: مع وبدون تقسيم حجمي، التدريب باستخدام دقات صور مختلفة. تتوفر تحليلات إضافية في الملحق . 1) 2) C.3 كما هو موضح في الجدول ، فإن تقسيم الحجم يحسن الأداء بشكل كبير على الفئات ذات الهياكل الرفيعة (مثل الدراجات النارية)، مع عدم تحقيق مكاسب على الفئات الأخرى. نفترض أن دقة رباعي الأوجه الأولية كافية بالفعل لالتقاط الهندسة التفصيلية على الكراسي والسيارات، وبالتالي لا يمكن للتقسيم توفير تحسينات إضافية. تحليل تقسيم الحجم 2 تحليل دقات الصور المختلفة نحلل تأثير دقة صور التدريب في الجدول . كما هو متوقع، يؤدي زيادة دقة الصورة إلى تحسين الأداء من حيث FID وجودة الشكل، حيث يمكن للشبكة رؤية المزيد من التفاصيل، والتي غالبًا ما تكون غير متوفرة في الصور منخفضة الدقة. هذا يؤكد أهمية التدريب بدقة صور أعلى، والتي غالبًا ما يصعب الاستفادة منها للطرق المستندة إلى الحقول الضمنية. 3 4.3 التطبيقات 4.3.1 توليد المواد لتأثيرات الإضاءة المعتمدة على العرض يمكن توسيع GET3D بسهولة لإنشاء مواد سطحية قابلة للاستخدام مباشرة في محركات الرسوميات الحديثة. على وجه الخصوص، نتبع Disney BRDF المستخدم على نطاق واسع [ , ] ونصف المواد من حيث خصائص اللون الأساسي (R3) والمعدنية (R) والخشونة (R). نتيجة لذلك، نعيد توظيف مولد النسيج الخاص بنا لإخراج مجال انعكاس بخمس قنوات (بدلاً من RGB فقط). لاستيعاب العرض التفاضلي للمواد، نعتمد على خط أنابيب عرض مؤجل فعال قائم على Gaussian الكروي (SG) [ ]. على وجه التحديد، نقوم بتجسيد مجال الانعكاس في G-buffer، ونسحب عشوائيًا صورة HDR من مجموعة من panoramas HDR الخارجية الواقعية Slight = { } ، حيث يتم الحصول على ∈ R32×7 عن طريق ملاءمة 32 فصًا من SG لكل panorama. بعد ذلك، يستخدم عارض SG لعرض صورة RGB مع تأثيرات إضاءة تعتمد على العرض، والتي نقوم بتغذيتها إلى المميز أثناء التدريب. لاحظ أن GET3D لا يتطلب إشرافًا على المواد أثناء التدريب ويتعلم توليد مواد مفككة بطريقة غير خاضعة للإشراف. 6 32 12 LSG K LSG c نقدم نتائج نوعية لمواد السطح المولدة في الشكل . على الرغم من عدم الإشراف، يكتشف GET3D تفكيكًا مثيرًا للاهتمام للمواد، على سبيل المثال، يتم التنبؤ بالنوافذ بشكل صحيح بقيمة خشونة أصغر لتكون أكثر لمعانًا من جسم السيارة، ويتم اكتشاف جسم السيارة على أنه أكثر عزلًا بينما النافذة أكثر معدنية. تسمح المواد المولدة لنا بإنتاج نتائج إضاءة واقعية، والتي يمكن أن تستوعب التأثيرات اللامعة المعقدة تحت ظروف الإضاءة المختلفة. 8 4.3.2 توليف ثلاثي الأبعاد موجه بالنص على غرار GANs للصور، يدعم GET3D أيضًا توليف المحتوى ثلاثي الأبعاد الموجه بالنص عن طريق الضبط الدقيق لنموذج مدرب مسبقًا تحت توجيه CLIP [ ]. لاحظ أن نتيجة التوليف النهائية لدينا هي شبكة ثلاثية الأبعاد محكمة. لتحقيق ذلك، نتبع تصميم المولد المزدوج من styleGAN-NADA [ ]، حيث يتم استخدام نسخة قابلة للتدريب ونسخة مجمدة من المولد المدرب مسبقًا. أثناء التحسين، تقوم كل من و بعرض صور من 16 عرض كاميرا عشوائيًا. بالنظر إلى استعلام نصي، نسحب 500 زوج من متجهات الضوضاء 1 و 2. لكل عينة، نقوم بتحسين معلمات لتقليل خسارة CLIP الاتجاهية [ ] (تسميات النص المصدر هي "car" و "animal" و "house" للفئات المقابلة)، ونختار العينات ذات الحد الأدنى من الخسارة. لتسريع هذه العملية، نقوم أولاً بتنفيذ عدد صغير من خطوات التحسين للعينات الـ 500، ثم نختار أفضل 50 عينة بأقل الخسائر، وننفذ التحسين لمدة 300 خطوة. يتم تقديم النتائج والمقارنة مع طريقة تحسين الأنماط الشبكية الموجهة بالنص SOTA، Text2Mesh [ ]، في الشكل . لاحظ أن [ ] يتطلب شبكة للشكل كمدخل للطريقة. نقدم شبكاتنا المولدة من المولد المجمد كشبكات إدخال لها. نظرًا لأنه يحتاج إلى رؤوس شبكية لتكون كثيفة لتوليف تفاصيل السطح بإزاحات الرؤوس، فإننا نقوم بتقسيم الشبكات المدخلة إضافيًا بتقسيم نقطة المنتصف للتأكد من أن كل شبكة تحتوي على 50 ألف - 150 ألف رأس في المتوسط. 56 21 Gt Gf Gt Gf z z Gt 21 44 9 44 5 الخلاصة قدمنا GET3D، وهو نموذج توليدي ثلاثي الأبعاد جديد قادر على توليف شبكات ثلاثية الأبعاد محكمة عالية الجودة مع طوبولوجيا عشوائية. يتم تدريب GET3D باستخدام صور ثنائية الأبعاد فقط كإشراف. لقد أظهرنا تجريبيًا تحسينات كبيرة في توليد الأشكال ثلاثية الأبعاد مقارنة بالطرق السابقة المتطورة عبر فئات متعددة. نأمل أن تقربنا هذه الورقة خطوة واحدة من دمقرطة إنشاء المحتوى ثلاثي الأبعاد باستخدام الذكاء الاصطناعي. بينما حقق GET3D خطوة كبيرة نحو نموذج توليدي ثلاثي الأبعاد عملي للأشكال ثلاثية الأبعاد المحكمة، إلا أنه لا يزال لديه بعض القيود. على وجه الخصوص، لا نزال نعتمد على الصور الظلية ثنائية الأبعاد بالإضافة إلى معرفة توزيع الكاميرا أثناء التدريب. نتيجة لذلك، تم تقييم GET3D حاليًا على البيانات الاصطناعية فقط. يمكن أن يؤدي الامتداد الواعد إلى استخدام التطورات في تجزئة الكائنات وتقدير وضع الكاميرا للتخفيف من هذه المشكلة وتوسيع GET3D إلى بيانات العالم الحقيقي. يتم تدريب GET3D أيضًا لكل فئة؛ يمكن أن يساعدنا تمديده إلى فئات متعددة في المستقبل على تمثيل التنوع بين الفئات بشكل أفضل. القيود اقترحنا نموذجًا توليديًا ثلاثي الأبعاد جديدًا يولد شبكات ثلاثية الأبعاد محكمة، والتي يمكن استيرادها بسهولة إلى محركات الرسوميات الحالية. نموذجنا قادر على توليد أشكال ذات طوبولوجيا عشوائية، وأنسجة عالية الجودة، وتفاصيل هندسية غنية، مما يمهد الطريق لدمقرطة التأثير الأوسع أداة الذكاء الاصطناعي لإنشاء المحتوى ثلاثي الأبعاد. مثل جميع نماذج التعلم الآلي، فإن GET3D عرضة أيضًا للتحيزات التي تم إدخالها في بيانات التدريب. لذلك، يجب توخي الحذر الشديد عند التعامل مع التطبيقات الحساسة، مثل توليد أجسام بشرية ثلاثية الأبعاد، حيث أن GET3D غير مصمم لهذه التطبيقات. لا نوصي باستخدام GET3D إذا كانت الخصوصية أو التعرف الخاطئ يمكن أن يؤدي إلى سوء استخدام محتمل أو أي تطبيقات ضارة أخرى. بدلاً من ذلك، نشجع الممارسين على فحص مجموعات البيانات وإزالة التحيزات بعناية قبل تدريب نموذجنا لتمثيل توزيع عادل وواسع للنغمات البشرية والأعراق أو الهويات الجنسانية الممكنة. 6 الكشف عن التمويل تم تمويل هذا العمل من قبل NVIDIA. يقر جون جاو، وتيانشانغ شين، وزيان وانغ، ووينزينغ تشين بإيرادات إضافية في شكل منح دراسية من جامعة تورنتو ومعهد فيكتور، والتي لا تدعم هذا العمل بشكل مباشر. المراجع [1] Autodesk Maya، . تم الوصول إليه: 2022-05-19. https://www.autodesk.com/products/maya/overview [2] Renderpeople، . تم الوصول إليه: 2022-05-19. http://https://renderpeople.com/ [3] Sketchfab، . تم الوصول إليه: 2022-05-19. https://sketchfab.com/ [4] Turbosquid by Shutterstock، . تم الوصول إليه: 2022-05-19. https://www.turbosquid.com/ [5] Panos Achlioptas, Olga Diamanti, Ioannis Mitliagkas, and Leonidas Guibas. Learning representations and generative models for 3d point clouds. In , pages 40–49. PMLR, 2018. International conference on machine learning [6] Brent Burley and Walt Disney Animation Studios. Physically-based shading at disney. In , volume 2012, pages 1–7. vol. 2012, 2012. ACM SIGGRAPH [7] Eric Chan, Marco Monteiro, Petr Kellnhofer, Jiajun Wu, and Gordon Wetzstein. pi-gan: Periodic implicit generative adversarial networks for 3d-aware image synthesis. In , 2021. Proc. CVPR [8] Eric R Chan, Connor Z Lin, Matthew A Chan, Koki Nagano, Boxiao Pan, Shalini De Mello, Orazio Gallo, Leonidas J Guibas, Jonathan Tremblay, Sameh Khamis, et al. Efficient geometry-aware 3d generative adversarial networks. In , pages 16123–16133, 2022. Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition [9] Angel X Chang, Thomas Funkhouser, Leonidas Guibas, Pat Hanrahan, Qixing Huang, Zimo Li, Silvio Savarese, Manolis Savva, Shuran Song, Hao Su, et al. Shapenet: An information-rich 3d model repository. , 2015. arXiv preprint arXiv:1512.03012 [10] Ding-Yun Chen, Xiao-Pei Tian, Yu-Te Shen, and Ming Ouhyoung. On visual similarity based 3d model retrieval. In , volume 22, pages 223–232. Wiley Online Library, 2003. Computer graphics forum [11] Wenzheng Chen, Jun Gao, Huan Ling, Edward Smith, Jaakko Lehtinen, Alec Jacobson, and Sanja Fidler. Learning to predict 3d objects with an interpolation-based differentiable renderer. In , 2019. Advances In Neural Information Processing Systems [12] Wenzheng Chen, Joey Litalien, Jun Gao, Zian Wang, Clement Fuji Tsang, Sameh Khalis, Or Litany, and Sanja Fidler. DIB-R++: Learning to predict lighting and material with a hybrid differentiable renderer. In , 2021. Advances in Neural Information Processing Systems (NeurIPS) [13] Yanqin Chen, Xin Jin, and Qionghai Dai. Distance measurement based on light field geometry and ray tracing. , 25(1):59–76, 2017. Optics Express [14] Zhiqin Chen and Hao Zhang. Learning implicit fields for generative shape modeling. , 2019. Proceedings of IEEE Conference on Computer Vision and Pattern Recognition (CVPR) [15] Blender Online Community. . Blender Foundation, Stichting Blender Foundation, Amsterdam, 2018. Blender - a 3D modelling and rendering package [16] Prafulla Dhariwal and Alexander Nichol. Diffusion models beat gans on image synthesis. , 34, 2021. Advances in Neural Information Processing Systems [17] Akio Doi and Akio Koide. An efficient method of triangulating equi-valued surfaces by using tetrahedral cells. , 74(1):214–224, 1991. IEICE TRANSACTIONS on Information and Systems [18] Alexey Dosovitskiy, Lucas Beyer, Alexander Kolesnikov, Dirk Weissenborn, Xiaohua Zhai, Thomas Unterthiner, Mostafa Dehghani, Matthias Minderer, Georg Heigold, Sylvain Gelly, et al. An image is worth 16x16 words: Transformers for image recognition at scale. , 2020. arXiv preprint arXiv:2010.11929 [19] Patrick Esser, Robin Rombach, and Bjorn Ommer. Taming transformers for high-resolution image synthesis. In , pages 12873–12883, 2021. Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition [20] Matheus Gadelha, Subhransu Maji, and Rui Wang. 3d shape induction from 2d views of multiple objects. In , pages 402–411. IEEE, 2017. 2017 International Conference on 3D Vision (3DV) [21] Rinon Gal, Or Patashnik, Haggai Maron, Amit H Bermano, Gal Chechik, and Daniel Cohen-Or. Stylegan-nada: Clip-guided domain adaptation of image generators. , 41(4):1–13, 2022. ACM Transactions on Graphics (TOG) [22] Jun Gao, Wenzheng Chen, Tommy Xiang, Clement Fuji Tsang, Alec Jacobson, Morgan McGuire, and Sanja Fidler. Learning deformable tetrahedral meshes for 3d reconstruction. In , 2020. Advances In Neural Information Processing Systems [23] Jun Gao, Chengcheng Tang, Vignesh Ganapathi-Subramanian, Jiahui Huang, Hao Su, and Leonidas J Guibas. Deepspline: Data-driven reconstruction of parametric curves and surfaces. , 2019. arXiv preprint arXiv:1901.03781 [24] Jun Gao, Zian Wang, Jinchen Xuan, and Sanja Fidler. Beyond fixed grid: Learning geometric image representation with a deformable grid. In , pages 108–125. Springer, 2020. European Conference on Computer Vision [25] Jiatao Gu, Lingjie Liu, Peng Wang, and Christian Theobalt. Stylenerf: A style-based 3d aware generator for high-resolution image synthesis. In , 2022. International Conference on Learning Representations [26] Zekun Hao, Arun Mallya, Serge Belongie, and Ming-Yu Liu. GANcraft: Unsupervised 3D Neural Rendering of Minecraft Worlds. In , 2021. ICCV [27] Philipp Henzler, Niloy J. Mitra, and Tobias Ritschel. Escaping plato’s cave: 3d shape from adversarial rendering. In , October 2019. The IEEE International Conference on Computer Vision (ICCV) [28] Martin Heusel, Hubert Ramsauer, Thomas Unterthiner, Bernhard Nessler, and Sepp Hochreiter. Gans trained by a two time-scale update rule converge to a local nash equilibrium. , 30, 2017. Advances in neural information processing systems [29] Xun Huang, Arun Mallya, Ting-Chun Wang, and Ming-Yu Liu. Multimodal conditional image synthesis with product-of-experts GANs. In , 2022. ECCV [30] Moritz Ibing, Gregor Kobsik, and Leif Kobbelt. Octree transformer: Autoregressive 3d shape generation on hierarchically structured sequences. , 2021. arXiv preprint arXiv:2111.12480 [31] James T. Kajiya. The rendering equation. SIGGRAPH ’86, page 143–150, 1986. [32] Brian Karis and Epic Games. Real shading in unreal engine 4. , 4(3), 2013. Proc. Physically Based Shading Theory Practice [33] Tero Karras, Miika Aittala, Samuli Laine, Erik Härkönen, Janne Hellsten, Jaakko Lehtinen, and Timo Aila. Alias-free generative adversarial networks. In , 2021. Proc. NeurIPS [34] Tero Karras, Samuli Laine, and Timo Aila. A style-based generator architecture for generative adversarial networks. In , pages 4401–4410, 2019. Proceedings of the IEEE/CVF conference on computer vision and pattern recognition [35] Tero Karras, Samuli Laine, Miika Aittala, Janne Hellsten, Jaakko Lehtinen, and Timo Aila. Analyzing and improving the image quality of StyleGAN. In , 2020. Proc. CVPR [36] Michael Kazhdan, Matthew Bolitho, and Hugues Hoppe. Poisson surface reconstruction. In , volume 7, 2006. Proceedings of the fourth Eurographics symposium on Geometry processing [37] Samuli Laine, Janne Hellsten, Tero Karras, Yeongho Seol, Jaakko Lehtinen, and Timo Aila. Modular primitives for high-performance differentiable rendering. , 39(6), 2020. ACM Transactions on Graphics [38] Daiqing Li, Junlin Yang, Karsten Kreis, Antonio Torralba, and Sanja Fidler. Semantic segmentation with generative models: Semi-supervised learning and strong out-of-domain generalization. In , 2021. Conference on Computer Vision and Pattern Recognition (CVPR) [39] William E Lorensen and Harvey E Cline. Marching cubes: A high resolution 3d surface construction algorithm. , 21(4):163–169, 1987. ACM siggraph computer graphics [40] Sebastian Lunz, Yingzhen Li, Andrew Fitzgibbon, and Nate Kushman. Inverse graphics gan: Learning to generate 3d shapes from unstructured 2d data. , 2020. arXiv preprint arXiv:2002.12674 [41] Andrew Luo, Tianqin Li, Wen-Hao Zhang, and Tai Sing Lee. Surfgen: Adversarial 3d shape synthesis with explicit surface discriminators. In , pages 16238–16248, 2021. Proceedings of the IEEE/CVF International Conference on Computer Vision [42] Lars Mescheder, Sebastian Nowozin, and Andreas Geiger. Which training methods for gans do actually converge? In , 2018. International Conference on Machine Learning (ICML) [43] Lars Mescheder, Michael Oechsle, Michael Niemeyer, Sebastian Nowozin, and Andreas Geiger. Occupancy networks: Learning 3d reconstruction in function space. In , pages 4460–4470, 2019. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition [44] Oscar Michel, Roi Bar-On, Richard Liu, Sagie Benaim, and Rana Hanocka. Text2mesh: Text-driven neural stylization for meshes. In , pages 13492–13502, 2022. Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition [45] Ben Mildenhall, Pratul P. Srinivasan, Matthew Tancik,