ผู้เขียน: Jun Gao, NVIDIA, University of Toronto, Vector Institute (jung@nvidia.com) Tianchang Shen, NVIDIA, University of Toronto, Vector Institute (frshen@nvidia.com) Zian Wang, NVIDIA, University of Toronto, Vector Institute (zianw@nvidia.com) Wenzheng Chen, NVIDIA, University of Toronto, Vector Institute (wenzchen@nvidia.com) Kangxue Yin, NVIDIA (kangxuey@nvidia.com) Daiqing Li, NVIDIA (daiqingl@nvidia.com) Or Litany, NVIDIA (olitany@nvidia.com) Zan Gojcic, NVIDIA (zgojcic@nvidia.com) Sanja Fidler, NVIDIA, University of Toronto, Vector Institute (sfidler@nvidia.com) บทคัดย่อ เนื่องจากหลายอุตสาหกรรมกำลังก้าวไปสู่การสร้างแบบจำลองโลกเสมือน 3 มิติขนาดใหญ่ ความต้องการเครื่องมือสร้างเนื้อหาที่สามารถปรับขนาดได้ในแง่ของปริมาณ คุณภาพ และความหลากหลายของเนื้อหา 3 มิติก็เป็นที่ประจักษ์มากขึ้น ในงานของเรา เรามุ่งมั่นที่จะฝึกแบบจำลองการสร้าง 3 มิติที่มีประสิทธิภาพซึ่งสังเคราะห์ตาข่ายที่มีพื้นผิวซึ่งสามารถนำไปใช้ได้โดยตรงโดยเอนจิ้นการเรนเดอร์ 3 มิติ ซึ่งพร้อมใช้งานทันทีในแอปพลิเคชันดาวน์สตรีม งานก่อนหน้านี้เกี่ยวกับการสร้างแบบจำลอง 3 มิติแบบสร้างสรรค์นั้นขาดรายละเอียดทางเรขาคณิต มีข้อจำกัดในโทโพโลยีของตาข่ายที่สามารถผลิตได้ โดยทั่วไปไม่รองรับพื้นผิว หรือใช้ตัวเรนเดอร์แบบประสาทในกระบวนการสังเคราะห์ ซึ่งทำให้การใช้งานในซอฟต์แวร์ 3 มิติทั่วไปไม่ธรรมดา ในงานนี้ เราขอแนะนำ GET3D ซึ่งเป็นแบบจำลอง enerative ที่สร้างตาข่าย xplicit extured โดยตรง ซึ่งมีโทโพโลยีที่ซับซ้อน รายละเอียดทางเรขาคณิตที่หลากหลาย และพื้นผิวที่มีความเที่ยงตรงสูง เราเชื่อมโยงความสำเร็จล่าสุดในการสร้างแบบจำลองพื้นผิวที่แตกต่างกัน การเรนเดอร์ที่แตกต่างกัน รวมถึงเครือข่าย Adversarial แบบสร้างสรรค์ 2 มิติ (GANs) เพื่อฝึกแบบจำลองของเราจากคอลเลกชันรูปภาพ 2 มิติ GET3D สามารถสร้างตาข่ายที่มีพื้นผิว 3 มิติคุณภาพสูง ตั้งแต่รถยนต์ เก้าอี้ สัตว์ มอเตอร์ไซค์ และตัวละครมนุษย์ ไปจนถึงอาคาร โดยบรรลุผลการปรับปรุงที่สำคัญเมื่อเทียบกับวิธีการก่อนหน้านี้ หน้าโครงการของเรา: G E T 3D https://nv-tlabs.github.io/GET3D 1 บทนำ เนื้อหา 3 มิติคุณภาพสูงที่หลากหลายมีความสำคัญมากขึ้นเรื่อยๆ สำหรับหลายอุตสาหกรรม รวมถึงเกม หุ่นยนต์ สถาปัตยกรรม และแพลตฟอร์มโซเชียล อย่างไรก็ตาม การสร้างเนื้อหา 3 มิติด้วยตนเองนั้นใช้เวลานานมาก และต้องใช้ความรู้ทางเทคนิคเฉพาะทาง รวมถึงทักษะการสร้างแบบจำลองทางศิลปะ ความท้าทายหลักประการหนึ่งจึงเป็นเรื่องของขนาด – แม้ว่าเราจะพบโมเดล 3 มิติในตลาด 3 มิติ เช่น Turbosquid [ ] หรือ Sketchfab [ ] การสร้างโมเดล 3 มิติจำนวนมากเพื่อเติมเต็มเกมหรือภาพยนตร์ด้วยฝูงตัวละครที่มีลักษณะแตกต่างกันทั้งหมด ก็ยังคงต้องใช้เวลาของศิลปินเป็นจำนวนมาก 4 3 เพื่ออำนวยความสะดวกในกระบวนการสร้างเนื้อหาและทำให้เข้าถึงได้สำหรับผู้ใช้ (มือใหม่) ที่หลากหลาย เครือข่าย 3 มิติแบบสร้างสรรค์ที่สามารถสร้างเนื้อหา 3 มิติคุณภาพสูงและหลากหลายได้กลายเป็นพื้นที่วิจัยที่กำลังมาแรงเมื่อเร็วๆ นี้ [ , , , , , , , , , , ] อย่างไรก็ตาม เพื่อให้มีประโยชน์ในทางปฏิบัติสำหรับการใช้งานจริงในปัจจุบัน แบบจำลอง 3 มิติแบบสร้างสรรค์ควรกำหนดข้อกำหนดดังต่อไปนี้: ควรมีความสามารถในการสร้างรูปทรงที่มีรายละเอียดทางเรขาคณิตและโทโพโลยีตามอำเภอใจ ผลลัพธ์ควรเป็นตาข่ายที่มีพื้นผิว ซึ่งเป็นตัวแทนหลักที่ใช้โดยแพ็คเกจซอฟต์แวร์กราฟิกมาตรฐาน เช่น Blender [ ] และ Maya [ ] และ เราควรสามารถใช้รูปภาพ 2 มิติเพื่อการกำกับดูแล เนื่องจากมีรูปภาพ 3 มิติที่ชัดเจนมากกว่า 5 14 43 46 53 68 75 60 59 69 23 (a) (b) 15 1 (c) งานก่อนหน้านี้เกี่ยวกับการสร้างแบบจำลอง 3 มิติแบบสร้างสรรค์ได้มุ่งเน้นไปที่ส่วนย่อยของข้อกำหนดข้างต้น แต่ยังไม่มีวิธีใดที่ตรงตามข้อกำหนดทั้งหมด (ตาราง ) ตัวอย่างเช่น วิธีการที่สร้างคลาวด์จุด 3 มิติ [ , 68, 75] โดยทั่วไปไม่ได้สร้างพื้นผิวและต้องแปลงเป็นตาข่ายในขั้นตอนหลังการประมวลผล 1 5 วิธีการสร้างวอกเซลมักขาดรายละเอียดทางเรขาคณิตและไม่สร้างพื้นผิว [ , , , ] แบบจำลองสร้างสรรค์ที่ใช้ฟิลด์ประสาท [ , ] มุ่งเน้นไปที่การดึงข้อมูลทางเรขาคณิต แต่ไม่สนใจพื้นผิว ส่วนใหญ่เหล่านี้ยังต้องการการกำกับดูแล 3 มิติที่ชัดเจน ในที่สุด วิธีการที่ส่งออกตาข่าย 3 มิติที่มีพื้นผิวโดยตรง [ , ] โดยทั่วไปต้องการเทมเพลตรูปทรงที่กำหนดไว้ล่วงหน้าและไม่สามารถสร้างรูปทรงที่มีโทโพโลยีที่ซับซ้อนและอันดับที่แปรผันได้ 66 20 27 40 43 14 54 53 เมื่อเร็วๆ นี้ ความก้าวหน้าอย่างรวดเร็วในการเรนเดอร์ปริมาตรแบบประสาท [ ] และเครือข่าย Adversarial แบบสร้างสรรค์ 2 มิติ (GANs) [ , , , , ] ได้นำไปสู่การสังเคราะห์ภาพที่รับรู้ 3 มิติ [ , , , , , ] อย่างไรก็ตาม แนวงานนี้มีเป้าหมายเพื่อสังเคราะห์ภาพหลายมุมมองที่สอดคล้องกันโดยใช้การเรนเดอร์แบบประสาทในกระบวนการสังเคราะห์ และไม่รับประกันว่ารูปทรง 3 มิติที่มีความหมายสามารถสร้างขึ้นได้ แม้ว่าตาข่ายจะสามารถได้รับจากการแสดงผลแบบประสาทเบื้องหลังโดยใช้อัลกอริทึม marching cube [ ] การดึงพื้นผิวที่สอดคล้องกันนั้นไม่ใช่เรื่องง่าย 45 34 35 33 29 52 7 57 8 49 51 25 39 ในงานนี้ เราขอแนะนำแนวทางใหม่ที่มุ่งตอบสนองข้อกำหนดทั้งหมดของแบบจำลอง 3 มิติแบบสร้างสรรค์ที่มีประโยชน์ในทางปฏิบัติ โดยเฉพาะอย่างยิ่ง เราขอเสนอ GET3D ซึ่งเป็นแบบจำลอง enerative สำหรับรูปทรง 3 มิติที่ส่งออกตาข่าย xplicit extured โดยตรง พร้อมรายละเอียดทางเรขาคณิตและพื้นผิวคุณภาพสูง และโทโพโลยีตาข่ายตามอำเภอใจ หัวใจของแนวทางของเราคือกระบวนการสร้างสรรค์ที่ใช้วิธีการสกัดพื้นผิว ที่แตกต่างกัน [ ] และเทคนิคการเรนเดอร์ที่แตกต่างกัน [ , ] อย่างแรกช่วยให้เราสามารถปรับปรุงและส่งออกตาข่าย 3 มิติที่มีพื้นผิวที่มีโทโพโลยีตามอำเภอใจได้โดยตรง ในขณะที่อย่างหลังช่วยให้เราสามารถฝึกแบบจำลองของเราด้วยรูปภาพ 2 มิติ ซึ่งใช้ประโยชน์จากตัวแยกแยะที่ทรงพลังและเป็นผู้ใหญ่ที่พัฒนาขึ้นสำหรับการสังเคราะห์รูปภาพ 2 มิติ เนื่องจากแบบจำลองของเราสร้างตาข่ายโดยตรงและใช้ตัวเรนเดอร์กราฟิก (ที่แตกต่างกัน) ที่มีประสิทธิภาพสูง เราจึงสามารถปรับขนาดแบบจำลองของเราเพื่อฝึกด้วยความละเอียดของรูปภาพสูงถึง 1024 × 1024 ได้อย่างง่ายดาย ซึ่งช่วยให้เราเรียนรู้รายละเอียดทางเรขาคณิตและพื้นผิวคุณภาพสูง G E T 3D ชัดเจน 60 47 37 เราแสดงประสิทธิภาพที่ทันสมัยสำหรับการสร้างรูปทรง 3 มิติแบบไม่มีเงื่อนไขในหลายหมวดหมู่ที่มีเรขาคณิตที่ซับซ้อนจาก ShapeNet [ ], Turbosquid [ ] และ Renderpeople [ ] เช่น เก้าอี้ มอเตอร์ไซค์ รถยนต์ ตัวละครมนุษย์ และอาคาร ด้วยการแสดงผลตาข่ายที่ชัดเจน GET3D ยังมีความยืดหยุ่นสูงและสามารถปรับใช้กับงานอื่นๆ ได้ง่าย รวมถึง: การเรียนรู้เพื่อสร้างผลกระทบจากแสงที่ขึ้นอยู่กับมุมมองและวัสดุที่แยกส่วนโดยใช้การเรนเดอร์ที่แตกต่างกันขั้นสูง [ ] โดยไม่ต้องมีการกำกับดูแล การสร้างรูปทรง 3 มิติที่นำโดยข้อความโดยใช้ CLIP [ ] การฝัง 9 4 2 (a) 12 (b) 56 2 งานที่เกี่ยวข้อง เราจะทบทวนความก้าวหน้าล่าสุดในแบบจำลอง 3 มิติแบบสร้างสรรค์สำหรับเรขาคณิตและลักษณะที่ปรากฏ รวมถึงการสังเคราะห์ภาพแบบสร้างสรรค์ที่รับรู้ 3 มิติ ในช่วงไม่กี่ปีที่ผ่านมา แบบจำลองสร้างสรรค์ 2 มิติได้บรรลุคุณภาพที่เหมือนจริงในการสังเคราะห์ภาพความละเอียดสูง [ , , , , , , ] ความก้าวหน้านี้ได้เป็นแรงบันดาลใจให้กับการวิจัยในการสร้างเนื้อหา 3 มิติ วิธีการในยุคแรกๆ มีเป้าหมายเพื่อขยายตัวสร้าง CNN 2 มิติไปยังกริดวอกเซล 3 มิติโดยตรง [ , , , , ] แต่ปริมาณหน่วยความจำสูงและความซับซ้อนในการคำนวณของการคอนโวลูชัน 3 มิติขัดขวางกระบวนการสร้างสรรค์ที่ความละเอียดสูง ในทางกลับกัน งานอื่นๆ ได้สำรวจคลาวด์จุด [ , , , ] อิมพลิซิท [ , ] หรือการแสดงผลอ็อกทรี [ ] อย่างไรก็ตาม งานเหล่านี้ส่วนใหญ่เน้นไปที่การสร้างเรขาคณิตและไม่สนใจลักษณะที่ปรากฏ การแสดงผลผลลัพธ์ของพวกเขายังต้องได้รับการประมวลผลภายหลังเพื่อให้เข้ากันได้กับเอนจิ้นกราฟิกมาตรฐาน แบบจำลอง 3 มิติแบบสร้างสรรค์ 34 35 33 52 29 19 16 66 20 27 40 62 5 68 75 46 43 14 30 ใกล้เคียงกับงานของเรามากกว่า Textured3DGAN [ , ] และ DIBR [ ] สร้างตาข่าย 3 มิติที่มีพื้นผิว แต่พวกเขาได้กำหนดการสร้างสรรค์เป็นการบิดเบือนของตาข่ายเทมเพลต ซึ่งป้องกันไม่ให้พวกเขาสร้างโทโพโลยีที่ซับซ้อนหรือรูปทรงที่มีอันดับที่แปรผัน ซึ่งวิธีการของเราสามารถทำได้ PolyGen [ ] และ SurfGen [ ] สามารถสร้างตาข่ายที่มีโทโพโลยีตามอำเภอใจได้ แต่ไม่สามารถสังเคราะห์พื้นผิวได้ 54 53 11 48 41 ได้รับแรงบันดาลใจจากความสำเร็จของการเรนเดอร์ปริมาตรแบบประสาท [ ] และการแสดงผลแบบอิมพลิซิท [ , ] งานล่าสุดได้เริ่มจัดการกับปัญหาการสังเคราะห์ภาพที่รับรู้ 3 มิติ [ , , , , , , , , , ] อย่างไรก็ตาม เครือข่ายการเรนเดอร์ปริมาตรแบบประสาทมักจะช้าในการสอบถาม ทำให้ใช้เวลาฝึกนาน [ , ] และสร้างภาพที่มีความละเอียดจำกัด GIRAFFE [ ] และ StyleNerf [ ] ปรับปรุงประสิทธิภาพการฝึกและการเรนเดอร์โดยทำการเรนเดอร์แบบประสาทที่ความละเอียดต่ำแล้วปรับขนาดผลลัพธ์ด้วย CNN 2 มิติ อย่างไรก็ตาม การเพิ่มประสิทธิภาพมาพร้อมกับต้นทุนของการลดความสอดคล้องของมุมมองหลายมุมมอง ด้วยการใช้ตัวแยกแยะคู่ EG3D [ ] สามารถบรรเทาปัญหานี้ได้บางส่วน อย่างไรก็ตาม การดึงพื้นผิวที่มีพื้นผิวออกจากวิธีการที่ใช้การเรนเดอร์แบบประสาทนั้นเป็นเรื่องที่ไม่ธรรมดา ในทางตรงกันข้าม GET3D จะส่งออกตาข่าย 3 มิติที่มีพื้นผิวโดยตรงซึ่งสามารถนำไปใช้กับเอนจิ้นกราฟิกมาตรฐานได้อย่างง่ายดาย การสังเคราะห์ภาพแบบสร้างสรรค์ที่รับรู้ 3 มิติ 45 43 14 7 57 49 26 25 76 8 51 58 67 7 57 49 25 8 3 วิธีการ ตอนนี้เราขอแนะนำเฟรมเวิร์ก GET3D ของเราสำหรับการสังเคราะห์รูปทรง 3 มิติที่มีพื้นผิว กระบวนการสร้างสรรค์ของเราแบ่งออกเป็นสองส่วน: สาขาเรขาคณิต ซึ่งส่งออกตาข่ายพื้นผิวที่มีโทโพโลยีตามอำเภอใจที่แตกต่างกัน และสาขาพื้นผิวที่สร้างฟิลด์พื้นผิวที่สามารถสอบถามได้ที่จุดพื้นผิวเพื่อสร้างสี ส่วนหลังสามารถขยายไปยังคุณสมบัติพื้นผิวอื่นๆ เช่น วัสดุ (ส่วน ) ในระหว่างการฝึก จะใช้ตัวจัดลำดับเรขาคณิตที่แตกต่างกันอย่างมีประสิทธิภาพเพื่อเรนเดอร์ตาข่ายที่มีพื้นผิวที่สกัดออกมาเป็นภาพความละเอียดสูง 2 มิติ กระบวนการทั้งหมดมีความแตกต่างกัน ทำให้สามารถฝึกแบบ Adversarial จากรูปภาพ (พร้อมมาสก์ที่ระบุวัตถุที่สนใจ) โดยการแพร่กระจายเกรเดียนต์จากตัวแยกแยะ 2 มิติไปยังทั้งสองสาขาของตัวสร้าง แบบจำลองของเราแสดงในรูปที่ ในส่วนต่อไปนี้ เราจะแนะนำตัวสร้าง 3 มิติของเราก่อนในส่วน ก่อนที่จะดำเนินการเกี่ยวกับการเรนเดอร์ที่แตกต่างกันและฟังก์ชันการสูญเสียในส่วน 4.3.1 2 3.1 3.2 3.1 แบบจำลองสร้างสรรค์ของตาข่าย 3 มิติที่มีพื้นผิว เราตั้งเป้าที่จะเรียนรู้ตัวสร้าง 3 มิติ = ( ) เพื่อจับคู่ตัวอย่างจากการแจกแจงแบบเกาส์เซียน M, E G z ∈ N (0*,* ) ไปยังตาข่าย ที่มีพื้นผิว z I M E เนื่องจากรูปทรงเดียวกันสามารถมีพื้นผิวที่แตกต่างกันได้ และพื้นผิวเดียวกันสามารถนำไปใช้กับรูปทรงที่แตกต่างกันได้ เราจึงสุ่มเวกเตอร์อินพุตสองตัว 1 ∈ R512 และ 2 ∈ R512 ตาม StyleGAN [ , , ] เราจะใช้เครือข่ายการทำแผนที่แบบไม่เชิงเส้น geo และ tex เพื่อจับคู่ 1 และ 2 กับเวกเตอร์แฝงระดับกลาง 1 = geo( 1) และ 2 = tex( 2) ซึ่งจะใช้ต่อไปเพื่อสร้าง ที่ควบคุมการสร้างรูปทรง 3 มิติและพื้นผิวตามลำดับ เราขอแนะนำตัวสร้างสำหรับเรขาคณิตอย่างเป็นทางการในส่วน และตัวสร้างพื้นผิวในส่วน z z 34 35 33 f f z z w f z w f z สไตล์ 3.1.1 3.1.2 3.1.1 ตัวสร้างเรขาคณิต เราออกแบบตัวสร้างเรขาคณิตของเราเพื่อรวม DMTet [ ] ซึ่งเป็นการแสดงพื้นผิวที่แตกต่างกันที่นำเสนอเมื่อเร็วๆ นี้ DMTet แสดงเรขาคณิตเป็นฟิลด์ระยะทางที่มีเครื่องหมาย (SDF) ที่กำหนดบนกริดเทตราฮีดรอลที่เปลี่ยนรูปได้ [ , ] ซึ่งพื้นผิวสามารถกู้คืนได้อย่างแตกต่างกันผ่าน marching tetrahedra [ ] การบิดเบือนกริดโดยการย้ายจุดยอดจะช่วยให้ใช้ความละเอียดได้ดีขึ้น ด้วยการใช้ DMTet สำหรับการสกัดพื้นผิว เราสามารถสร้างตาข่ายที่ชัดเจนพร้อมโทโพโลยีและอันดับตามอำเภอใจได้ ต่อไปเราจะสรุป DMTet สั้นๆ และอ้างอิงผู้อ่านไปยังบทความต้นฉบับสำหรับรายละเอียดเพิ่มเติม 60 22 24 17 ให้ ( ) แทนปริภูมิ 3 มิติเต็มที่วัตถุอยู่ โดย คือจุดยอดในกริดเทตราฮีดรอล แต่ละเทตราฮีดรอล ∈ กำหนดโดยใช้จุดยอดสี่จุด { } โดยที่ ∈ {1*, . . . , K*}, โดยที่ คือจำนวนเทตราฮีดรอลทั้งหมด และ ∈ ∈ R3 นอกเหนือจากพิกัด 3 มิติ ของมัน จุดยอด แต่ละจุดมีค่า SDF ∈ R และการบิดเบือน ∆ ∈ R3 จากพิกัดมาตรฐานเริ่มต้น การแสดงผลนี้ช่วยให้สามารถกู้คืนตาข่ายที่ชัดเจนผ่าน marching tetrahedra ที่แตกต่างกัน [ ] ซึ่งคำนวณค่า SDF ในปริภูมิต่อเนื่องโดยการประมาณค่าเชิงเส้นแบบบาริเซนทริกของค่า บนจุดยอดที่บิดเบือน ′ = + ∆ VT , T VT T Tk T v ak , v bk , v ck , v dk k K v ik VT , v ik i v i si v i 60 si v v i v i เราจับคู่ 1 ∈ R512 กับค่า SDF และการบิดเบือนที่จุดยอดแต่ละจุด ผ่านชุดของคอนโวลูชัน 3 มิติแบบมีเงื่อนไขและเลเยอร์ที่เชื่อมต่อกันทั้งหมด โดยเฉพาะอย่างยิ่ง เราใช้เลเยอร์คอนโวลูชัน 3 มิติเพื่อสร้างปริมาตรคุณสมบัติที่มีเงื่อนไขบน 1 จากนั้นเราสอบถามคุณสมบัติที่จุดยอดแต่ละจุด ∈ โดยใช้การประมาณค่าเชิงเส้นแบบไตรเชิงเส้นและป้อนเข้าสู่ MLP ที่ส่งออกค่า SDF และการบิดเบือน ∆ ในกรณีที่ต้องการการสร้างแบบจำลองที่ความละเอียดสูง (เช่น มอเตอร์ไซค์ที่มีโครงสร้างบางในล้อ) เรายังใช้การแบ่งส่วนปริมาตรตาม [ ] สถาปัตยกรรมเครือข่าย w v i w v i VT si v i 60 หลังจากได้รับ และ ∆ สำหรับจุดยอดทั้งหมด เราใช้อัลกอริทึม marching tetrahedra ที่แตกต่างกันเพื่อสกัดตาข่ายที่ชัดเจน Marching tetrahedra กำหนดโทโพโลยีพื้นผิวภายในเทตราฮีดรอลแต่ละอันตามเครื่องหมายของ โดยเฉพาะอย่างยิ่ง หน้าตาข่ายจะถูกสกัดเมื่อ sign( ) /= sign( ) โดยที่ แทนดัชนีของจุดยอดในขอบของเทตราฮีดรอล และจุดยอด ของหน้านั้นถูกกำหนดโดยการประมาณค่าเชิงเส้นเป็น mi,j = v 0 i sj−v 0 j si sj−si . โปรดทราบว่าสมการข้างต้นจะถูกประเมินเฉพาะเมื่อ si 6= sj เท่านั้น ดังนั้นจึงมีความแตกต่างกัน และเกรเดียนต์จาก mi,j สามารถแพร่กระจายย้อนกลับไปยังค่า SDF si และการบิดเบือน ∆vi ได้ ด้วยการแสดงผลนี้ รูปทรงที่มีโทโพโลยีตามอำเภอใจสามารถสร้างขึ้นได้ง่ายโดยการคาดการณ์เครื่องหมายที่แตกต่างกันของ si การสกัดตาข่ายที่แตกต่างกัน si v i si si sj i, j m i,j 3.1.2 ตัวสร้างพื้นผิว การสร้างแผนที่พื้นผิวที่สอดคล้องกับตาข่ายผลลัพธ์โดยตรงนั้นไม่ใช่เรื่องง่าย เนื่องจากรูปทรงที่สร้างขึ้นอาจมีอันดับและโทโพโลยีตามอำเภอใจ ดังนั้นเราจึงตั้งพารามิเตอร์พื้นผิวเป็นฟิลด์พื้นผิว [ ] 50 โดยเฉพาะอย่างยิ่ง เราสร้างแบบจำลองฟิลด์พื้นผิวด้วยฟังก์ชัน ที่จับคู่ตำแหน่ง 3 มิติของจุดพื้นผิว ∈ R3 โดยมีเงื่อนไขบน 2 เพื่อสร้างสี RGB ∈ R3 ที่ตำแหน่งนั้น เนื่องจากฟิลด์พื้นผิวขึ้นอยู่กับเรขาคณิต เราจึงกำหนดเงื่อนไขการจับคู่นี้เพิ่มเติมด้วยรหัสแฝงเรขาคณิต 1 โดยที่ = ( *,* 1 ⊕ 2) โดยที่ ⊕ แทนการต่อ ft p w c w c ft p w w เราแสดงแบบจำลองฟิลด์พื้นผิวของเราโดยใช้การแสดงผลแบบ tri-plane ซึ่งมีประสิทธิภาพและแสดงออกในการสร้างโครงสร้าง 3 มิติ [ ] และการสร้างภาพที่รับรู้ 3 มิติ [ ] โดยเฉพาะอย่างยิ่ง เราตาม [ , ] และใช้เครือข่ายประสาทคอนโวลูชัน 2 มิติแบบมีเงื่อนไขเพื่อจับคู่รหัสแฝง 1 ⊕ 2 กับระนาบคุณสมบัติฉากตั้งฉากสามระนาบที่มีขนาด × × ( × 3) โดยที่ = 256 แทนความละเอียดเชิงพื้นที่ และ = 32 คือจำนวนช่องสัญญาณ สถาปัตยกรรมเครือข่าย 55 8 8 35 w w N N C N C เมื่อกำหนดระนาบคุณสมบัติแล้ว เวกเตอร์คุณสมบัติ f t ∈ R 32 ของจุดพื้นผิว p สามารถกู้คืนได้เป็น f t = P e ρ(πe(p)) โดยที่ πe(p) คือการฉายภาพของจุด p ไปยังระนาบคุณสมบัติ e และ ρ(·) แทนการประมาณค่าเชิงเส้นแบบทวิภาคของคุณสมบัติ จากนั้นใช้เลเยอร์ที่เชื่อมต่อกันเพิ่มเติมเพื่อจับคู่เวกเตอร์คุณสมบัติที่รวมเข้าด้วยกัน f t กับสี RGB c โปรดทราบว่า แตกต่างจากงานอื่นๆ เกี่ยวกับการสังเคราะห์ภาพที่รับรู้ 3 มิติ ที่ใช้การแสดงผลแบบประสาทด้วย เราจำเป็นต้องสุ่มตัวอย่างฟิลด์พื้นผิวที่ตำแหน่งของจุดพื้นผิวเท่านั้น (ตรงกันข้ามกับการสุ่มตัวอย่างหนาแน่นตามรังสี) สิ่งนี้ช่วยลดความซับซ้อนในการคำนวณได้อย่างมากสำหรับการเรนเดอร์ภาพความละเอียดสูง และรับประกันการสร้างภาพหลายมุมมองที่สอดคล้องกันตามโครงสร้าง 3.2 การเรนเดอร์และการฝึกที่แตกต่างกัน เพื่อให้สามารถกำกับดูแลแบบจำลองของเราในระหว่างการฝึก เราได้รับแรงบันดาลใจจาก Nvdiffrec [ ] ซึ่งทำการสร้างแบบจำลองวัตถุ 3 มิติหลายมุมมองโดยใช้ตัวเรนเดอร์ที่แตกต่างกัน โดยเฉพาะอย่างยิ่ง เราเรนเดอร์ตาข่าย 3 มิติที่สกัดออกมาและฟิลด์พื้นผิวเป็นภาพ 2 มิติโดยใช้ตัวเรนเดอร์ที่แตกต่างกัน [ ] และกำกับดูแลเครือข่ายของเราด้วยตัวแยกแยะ 2 มิติ ซึ่งพยายามแยกแยะภาพจากวัตถุจริงหรือเรนเดอร์จากวัตถุที่สร้างขึ้น 47 37 เราสมมติว่าการแจกแจงกล้อง C ที่ใช้ในการรับภาพในชุดข้อมูลนั้นเป็นที่ทราบกันดี ในการเรนเดอร์รูปทรงที่สร้างขึ้น เราสุ่มตัวอย่างกล้อง จาก C และใช้ตัวจัดลำดับเรขาคณิตที่แตกต่างกัน Nvdiffrast [ ] ที่ปรับให้เหมาะสมสูงเพื่อเรนเดอร์ตาข่าย 3 มิติเป็นเงา 2 มิติ รวมถึงภาพที่แต่ละพิกเซลมีพิกัดของ 3 มิติที่สอดคล้องกัน การเรนเดอร์ที่แตกต่างกัน c 37 จุดบนตาข่าย พิกัดเหล่านี้จะถูกใช้ต่อไปเพื่อสอบถามฟิลด์พื้นผิวเพื่อรับค่า RGB เนื่องจากเราดำเนินการโดยตรงบนตาข่ายที่สกัดออกมา เราจึงสามารถเรนเดอร์ภาพความละเอียดสูงได้อย่างมีประสิทธิภาพสูง ซึ่งช่วยให้แบบจำลองของเราสามารถฝึกด้วยความละเอียดของภาพสูงถึง 1024×1024 ได้ เราฝึกแบบจำลองของเราโดยใช้วัตถุประสงค์แบบ Adversarial เรานำสถาปัตยกรรมตัวแยกแยะจาก StyleGAN [ ] มาใช้ และใช้เป้าหมาย GAN แบบไม่ทำให้อิ่มตัวเดียวกันพร้อมกับการทำให้เป็นปกติ R1 [ ] เราพบจากประสบการณ์ว่าการใช้ตัวแยกแยะสองตัวแยกกัน ตัวหนึ่งสำหรับภาพ RGB และอีกตัวสำหรับเงา ให้ผลลัพธ์ที่ดีกว่าตัวแยกแยะตัวเดียวที่ดำเนินการกับทั้งสองตัว วัตถุประสงค์แบบ Adversarial จะถูกกำหนดดังนี้: ตัวแยกแยะ & วัตถุประสงค์ 34 42 โดยที่ ( ) กำหนดเป็น ( ) = − log(1 +exp(− )), คือการแจกแจงของภาพจริง, แทนการเรนเดอร์ และ เป็นไฮเปอร์พารามิเตอร์ เนื่องจาก มีความแตกต่างกัน เกรเดียนต์สามารถแพร่กระจายย้อนกลับจากภาพ 2 มิติไปยังตัวสร้าง 3 มิติของเรา g u g u u px R λ R เพื่อลบหน้าภายในที่ไม่ปรากฏในมุมมองใดๆ เราทำให้ตัวสร้างเรขาคณิตเป็นปกติเพิ่มเติมด้วยฟังก์ชันการสูญเสียแบบไขว้เอนโทรปีที่กำหนดระหว่างค่า SDF ของจุดยอดที่อยู่ติดกัน [ ]: การทำให้เป็นปกติ 47 โดยที่ แทนฟังก์ชันการสูญเสียแบบไขว้เอนโทรปีแบบไบนารี และ แทนฟังก์ชันซิกมอยด์ ผลรวมในสมการ กำหนดเหนือชุดขอบที่ไม่ซ้ำกัน S ในกริดเทตราฮีดรอล โดยที่ sign( ) /= sign( ) H σ 2 e si sj ฟังก์ชันการสูญเสียโดยรวมจะถูกกำหนดดังนี้: โดยที่ คือไฮเปอร์พารามิเตอร์ที่ควบคุมระดับของการทำให้เป็นปกติ µ