Tác giả: Jun Gao, NVIDIA, University of Toronto, Vector Institute (jung@nvidia.com) Tianchang Shen, NVIDIA, University of Toronto, Vector Institute (frshen@nvidia.com) Zian Wang, NVIDIA, University of Toronto, Vector Institute (zianw@nvidia.com) Wenzheng Chen, NVIDIA, University of Toronto, Vector Institute (wenzchen@nvidia.com) Kangxue Yin, NVIDIA (kangxuey@nvidia.com) Daiqing Li, NVIDIA (daiqingl@nvidia.com) Or Litany, NVIDIA (olitany@nvidia.com) Zan Gojcic, NVIDIA (zgojcic@nvidia.com) Sanja Fidler, NVIDIA, University of Toronto, Vector Institute (sfidler@nvidia.com) Tóm tắt Khi nhiều ngành công nghiệp đang hướng tới việc mô hình hóa các thế giới ảo 3D khổng lồ, nhu cầu về các công cụ sáng tạo nội dung có thể mở rộng về số lượng, chất lượng và sự đa dạng của nội dung 3D ngày càng trở nên rõ ràng. Trong công việc của chúng tôi, chúng tôi nhắm mục tiêu đào tạo các mô hình tạo sinh 3D hiệu suất cao tổng hợp các lưới được tô màu có thể được sử dụng trực tiếp bởi các công cụ kết xuất 3D, do đó có thể sử dụng ngay trong các ứng dụng hạ lưu. Các công trình trước đây về mô hình hóa tạo sinh 3D hoặc thiếu chi tiết hình học, bị giới hạn về cấu trúc lưới mà chúng có thể tạo ra, thường không hỗ trợ màu sắc, hoặc sử dụng các công cụ kết xuất thần kinh trong quá trình tổng hợp, điều này làm cho việc sử dụng chúng trong phần mềm 3D thông thường không hề đơn giản. Trong công trình này, chúng tôi giới thiệu GET3D, một mô hình enerative mô hình hóa xplicit extured lưới với cấu trúc phức tạp, chi tiết hình học phong phú và màu sắc có độ trung thực cao. Chúng tôi kết hợp những thành công gần đây trong mô hình hóa bề mặt có thể phân biệt, kết xuất có thể phân biệt cũng như Mạng đối nghịch tạo sinh 2D để đào tạo mô hình của chúng tôi từ các bộ sưu tập ảnh 2D. GET3D có khả năng tạo ra các lưới 3D được tô màu chất lượng cao, từ ô tô, ghế, động vật, xe máy và nhân vật con người cho đến các tòa nhà, đạt được những cải tiến đáng kể so với các phương pháp trước đây. Trang dự án của chúng tôi: G E T 3D https://nv-tlabs.github.io/GET3D 1 Giới thiệu Nội dung 3D đa dạng, chất lượng cao ngày càng trở nên quan trọng đối với nhiều ngành công nghiệp, bao gồm trò chơi, robot, kiến trúc và các nền tảng xã hội. Tuy nhiên, việc tạo tài sản 3D thủ công rất tốn thời gian và đòi hỏi kiến thức kỹ thuật cụ thể cũng như kỹ năng mô hình hóa nghệ thuật. Một trong những thách thức chính là quy mô – trong khi người ta có thể tìm thấy các mô hình 3D trên các thị trường 3D như Turbosquid [ ] hoặc Sketchfab [ ], việc tạo ra nhiều mô hình 3D để, ví dụ, lấp đầy một trò chơi hoặc một bộ phim với một đám đông các nhân vật trông khác nhau vẫn đòi hỏi một lượng thời gian đáng kể của nghệ sĩ. 4 3 Để tạo điều kiện thuận lợi cho quá trình sáng tạo nội dung và làm cho nó có thể tiếp cận với nhiều người dùng (người mới bắt đầu), các mạng tạo sinh 3D có thể tạo ra các tài sản 3D chất lượng cao và đa dạng gần đây đã trở thành một lĩnh vực nghiên cứu sôi nổi [ , , , , , , , , , , ]. Tuy nhiên, để hữu ích trong thực tế cho các ứng dụng thế giới thực hiện nay, các mô hình tạo sinh 3D lý tưởng nên đáp ứng các yêu cầu sau: Chúng nên có khả năng tạo ra các hình dạng với chi tiết hình học và cấu trúc tùy ý, Đầu ra nên là một lưới được tô màu, là biểu diễn chính được sử dụng bởi các gói phần mềm đồ họa tiêu chuẩn như Blender [ ] và Maya [ ], và Chúng ta nên có thể tận dụng các hình ảnh 2D để giám sát, vì chúng có sẵn nhiều hơn các hình dạng 3D rõ ràng. 5 14 43 46 53 68 75 60 59 69 23 (a) (b) 15 1 (c) Các công trình trước đây về mô hình hóa tạo sinh 3D đã tập trung vào các tập hợp con của các yêu cầu trên, nhưng chưa có phương pháp nào đáp ứng tất cả chúng (Bảng ). Ví dụ, các phương pháp tạo đám mây điểm 3D [ , 68, 75] thường không tạo ra màu sắc và phải được chuyển đổi thành lưới trong quá trình xử lý hậu kỳ. 1 5 Các phương pháp tạo voxel thường thiếu chi tiết hình học và không tạo ra màu sắc [ , , , ]. Các mô hình tạo sinh dựa trên trường thần kinh [ , ] tập trung vào việc trích xuất hình học nhưng bỏ qua màu sắc. Hầu hết trong số này cũng yêu cầu giám sát 3D rõ ràng. Cuối cùng, các phương pháp xuất trực tiếp lưới 3D được tô màu [ , ] thường yêu cầu các mẫu hình dạng được xác định trước và không thể tạo ra các hình dạng có cấu trúc phức tạp và số lượng biến đổi. 66 20 27 40 43 14 54 53 Gần đây, những tiến bộ nhanh chóng trong kết xuất khối thần kinh [ ] và Mạng đối nghịch tạo sinh 2D (GANs) [ , , , , ] đã dẫn đến sự gia tăng của tổng hợp ảnh nhận biết 3D [ , , , , , ]. Tuy nhiên, dòng công việc này nhằm mục đích tổng hợp các ảnh nhất quán đa góc nhìn bằng cách sử dụng kết xuất thần kinh trong quá trình tổng hợp và không đảm bảo rằng các hình dạng 3D có ý nghĩa có thể được tạo ra. Mặc dù một lưới có thể được thu được từ biểu diễn trường thần kinh cơ bản bằng thuật toán khối lập phương kỳ diệu [ ], việc trích xuất màu sắc tương ứng là không hề đơn giản. 45 34 35 33 29 52 7 57 8 49 51 25 39 Trong công trình này, chúng tôi giới thiệu một phương pháp mới nhằm giải quyết tất cả các yêu cầu của một mô hình tạo sinh 3D hữu ích trong thực tế. Cụ thể, chúng tôi đề xuất GET3D, một mô hình enerative cho các hình dạng 3D trực tiếp xuất ra lưới 3D xplicit extured với chi tiết hình học và màu sắc cao cũng như cấu trúc lưới tùy ý. Nòng cốt của phương pháp của chúng tôi là một quy trình tạo sinh sử dụng phương pháp trích xuất bề mặt có thể phân biệt [ ] và kỹ thuật kết xuất có thể phân biệt [ , ]. Phương pháp trước cho phép chúng tôi trực tiếp tối ưu hóa và xuất lưới 3D được tô màu với cấu trúc tùy ý, trong khi phương pháp sau cho phép chúng tôi đào tạo mô hình của mình bằng ảnh 2D, do đó tận dụng các bộ phân biệt mạnh mẽ và trưởng thành được phát triển cho tổng hợp ảnh 2D. Vì mô hình của chúng tôi trực tiếp tạo ra lưới và sử dụng trình kết xuất đồ họa hiệu quả (có thể phân biệt), chúng tôi có thể dễ dàng mở rộng mô hình của mình để đào tạo với độ phân giải ảnh cao tới 1024 × 1024, cho phép chúng tôi học các chi tiết hình học và màu sắc chất lượng cao. G E T rõ ràng 60 47 37 Chúng tôi trình diễn hiệu suất tiên tiến cho việc tạo sinh hình dạng 3D không điều kiện trên nhiều danh mục với hình học phức tạp từ ShapeNet [ ], Turbosquid [ ] và Renderpeople [ ], chẳng hạn như ghế, xe máy, ô tô, nhân vật con người và tòa nhà. Với lưới rõ ràng làm biểu diễn đầu ra, GET3D cũng rất linh hoạt và có thể dễ dàng thích ứng với các tác vụ khác, bao gồm: học cách tạo các hiệu ứng ánh sáng phụ thuộc vào vật liệu và góc nhìn được phân tách bằng cách sử dụng kết xuất có thể phân biệt nâng cao [ ], mà không cần giám sát, tổng hợp hình dạng 3D dựa trên văn bản bằng cách sử dụng CLIP [ ] embedding. 9 4 2 (a) 12 (b) 56 2 Công việc liên quan Chúng tôi xem xét các tiến bộ gần đây trong các mô hình tạo sinh 3D cho hình học và ngoại hình, cũng như tổng hợp ảnh tạo sinh nhận biết 3D. Trong những năm gần đây, các mô hình tạo sinh 2D đã đạt được chất lượng ảnh chân thực trong tổng hợp ảnh độ phân giải cao [ , , , , , , ]. Tiến bộ này cũng đã truyền cảm hứng cho nghiên cứu trong việc tạo nội dung 3D. Các phương pháp ban đầu nhằm mục đích mở rộng trực tiếp các bộ tạo CNN 2D sang các lưới voxel 3D [ , , , , ], nhưng dấu chân bộ nhớ cao và độ phức tạp tính toán của các tích chập 3D cản trở quá trình tạo ở độ phân giải cao. Như một giải pháp thay thế, các công trình khác đã khám phá các biểu diễn đám mây điểm [ , , , ], ẩn [ , ], hoặc octree [ ]. Tuy nhiên, các công trình này chủ yếu tập trung vào việc tạo ra hình học và bỏ qua ngoại hình. Biểu diễn đầu ra của chúng cũng cần được xử lý hậu kỳ để làm cho chúng tương thích với các công cụ đồ họa tiêu chuẩn. Mô hình tạo sinh 3D 34 35 33 52 29 19 16 66 20 27 40 62 5 68 75 46 43 14 30 Gần giống với công trình của chúng tôi, Textured3DGAN [ , ] và DIBR [ ] tạo ra lưới 3D được tô màu, nhưng chúng định dạng việc tạo ra dưới dạng biến dạng của một lưới mẫu, điều này ngăn chúng tạo ra cấu trúc phức tạp hoặc hình dạng có số lượng thay đổi, điều mà phương pháp của chúng tôi có thể làm. PolyGen [ ] và SurfGen [ ] có thể tạo ra lưới với cấu trúc tùy ý, nhưng không tổng hợp màu sắc. 54 53 11 48 41 Lấy cảm hứng từ sự thành công của kết xuất khối thần kinh [ ] và biểu diễn ẩn [ , ], các công trình gần đây đã bắt đầu giải quyết vấn đề tổng hợp ảnh nhận biết 3D [ , , , , , , , , , ]. Tuy nhiên, các mạng kết xuất khối thần kinh thường chậm khi truy vấn, dẫn đến thời gian đào tạo dài [ , ] và tạo ra ảnh có độ phân giải hạn chế. GIRAFFE [ ] và StyleNerf [ ] cải thiện hiệu quả đào tạo và kết xuất bằng cách thực hiện kết xuất thần kinh ở độ phân giải thấp hơn và sau đó nâng cấp kết quả bằng CNN 2D. Tuy nhiên, lợi ích hiệu suất đi kèm với chi phí giảm tính nhất quán đa góc nhìn. Bằng cách sử dụng bộ phân biệt kép, EG3D [ ] có thể giảm thiểu một phần vấn đề này. Tuy nhiên, việc trích xuất bề mặt được tô màu từ các phương pháp dựa trên kết xuất thần kinh là một nỗ lực không hề đơn giản. Ngược lại, GET3D trực tiếp xuất lưới 3D được tô màu có thể được sử dụng ngay trong các công cụ đồ họa tiêu chuẩn. Tổng hợp ảnh tạo sinh nhận biết 3D 45 43 14 7 57 49 26 25 76 8 51 58 67 7 57 49 25 8 3 Phương pháp Bây giờ chúng tôi trình bày khung GET3D của chúng tôi để tổng hợp các hình dạng 3D được tô màu. Quy trình tạo sinh của chúng tôi được chia thành hai phần: một nhánh hình học, xuất ra lưới bề mặt có cấu trúc tùy ý một cách có thể phân biệt, và một nhánh màu sắc tạo ra trường màu có thể được truy vấn tại các điểm bề mặt để tạo ra màu sắc. Trường hợp sau có thể được mở rộng cho các thuộc tính bề mặt khác, ví dụ như vật liệu (Mục ). Trong quá trình đào tạo, một bộ kết xuất có thể phân biệt hiệu quả được sử dụng để kết xuất lưới được tô màu thành ảnh 2D độ phân giải cao. Toàn bộ quy trình có thể phân biệt, cho phép đào tạo đối nghịch từ ảnh (với mặt nạ chỉ ra đối tượng quan tâm) bằng cách lan truyền gradient từ bộ phân biệt 2D đến cả hai nhánh tạo sinh. Mô hình của chúng tôi được minh họa trong Hình . Tiếp theo, chúng tôi trước tiên giới thiệu bộ tạo sinh 3D của chúng tôi trong Mục , trước khi chuyển sang kết xuất có thể phân biệt và các hàm mất mát trong Mục . 4.3.1 2 3.1 3.2 3.1 Mô hình tạo sinh lưới 3D được tô màu Chúng tôi nhắm mục tiêu học một bộ tạo sinh 3D = ( ) để ánh xạ một mẫu từ phân phối Gaussian M, E G z ∈ N (0*,* ) sang một lưới có màu . z I M E Vì cùng một hình học có thể có các màu khác nhau, và cùng một màu có thể được áp dụng cho các hình học khác nhau, chúng tôi lấy mẫu hai vector đầu vào ngẫu nhiên 1 ∈ R512 và 2 ∈ R512. Theo StyleGAN [ , , ], chúng tôi sau đó sử dụng các mạng ánh xạ phi tuyến geo và tex để ánh xạ 1 và 2 sang các vector tiềm ẩn trung gian 1 = geo( 1) và 2 = tex( 2) sẽ được sử dụng thêm để tạo ra các kiểm soát việc tạo hình dạng 3D và màu sắc tương ứng. Chúng tôi chính thức giới thiệu bộ tạo sinh cho hình học trong Mục và bộ tạo sinh màu sắc trong Mục . z z 34 35 33 f f z z w f z w f z kiểu 3.1.1 3.1.2 3.1.1 Bộ tạo sinh hình học Chúng tôi thiết kế bộ tạo sinh hình học của mình để kết hợp DMTet [ ], một biểu diễn bề mặt có thể phân biệt được đề xuất gần đây. DMTet biểu diễn hình học dưới dạng trường khoảng cách có dấu (SDF) được xác định trên một lưới tứ diện có thể biến dạng [ , ], từ đó bề mặt có thể được phục hồi một cách có thể phân biệt thông qua thuật toán khối lập phương kỳ diệu [ ]. Việc biến dạng lưới bằng cách di chuyển các đỉnh của nó dẫn đến việc sử dụng độ phân giải của nó tốt hơn. Bằng cách áp dụng DMTet để trích xuất bề mặt, chúng tôi có thể tạo ra các lưới rõ ràng với cấu trúc và số lượng tùy ý. Tiếp theo, chúng tôi cung cấp một bản tóm tắt ngắn gọn về DMTet và giới thiệu người đọc đến bài báo gốc để biết thêm chi tiết. 60 22 24 17 Để ( ) biểu thị toàn bộ không gian 3D mà đối tượng nằm trong đó, nơi là các đỉnh trong lưới tứ diện . Mỗi tứ diện ∈ được xác định bằng bốn đỉnh { }, với ∈ {1*, . . . , K*}, trong đó là tổng số tứ diện, và ∈ ∈ R3. Ngoài tọa độ 3D của nó , mỗi đỉnh chứa giá trị SDF ∈ R và biến dạng ∆ ∈ R3 của đỉnh từ tọa độ gốc ban đầu của nó. Biểu diễn này cho phép phục hồi lưới rõ ràng thông qua thuật toán khối lập phương kỳ diệu có thể phân biệt [ ], trong đó các giá trị SDF trong không gian liên tục được tính bằng phép nội suy song tuyến tính các giá trị của chúng trên các đỉnh bị biến dạng ′ = + ∆ . VT , T VT T Tk T v ak , v bk , v ck , v dk k K v ik VT , v ik i v i si v i 60 si v v i v i Chúng tôi ánh xạ 1 ∈ R512 thành các giá trị SDF và biến dạng tại mỗi đỉnh thông qua một loạt các lớp tích chập 3D có điều kiện và các lớp kết nối đầy đủ. Cụ thể, chúng tôi trước tiên sử dụng các lớp tích chập 3D để tạo ra một khối tính năng có điều kiện với 1. Sau đó, chúng tôi truy vấn tính năng tại mỗi đỉnh ∈ bằng cách nội suy ba tuyến tính và đưa nó vào các MLP xuất ra giá trị SDF và biến dạng ∆ . Trong các trường hợp yêu cầu mô hình hóa ở độ phân giải cao (ví dụ: xe máy có cấu trúc mỏng ở bánh xe), chúng tôi tiếp tục sử dụng phân chia khối theo [ ]. Kiến trúc mạng w v i w v i VT si v i 60 Sau khi thu được và ∆ cho tất cả các đỉnh, chúng tôi sử dụng thuật toán khối lập phương kỳ diệu có thể phân biệt để trích xuất lưới rõ ràng. Thuật toán khối lập phương kỳ diệu xác định cấu trúc bề mặt trong mỗi tứ diện dựa trên dấu của . Cụ thể, một mặt lưới được trích xuất khi sign( ) /= sign( ), trong đó biểu thị chỉ số của các đỉnh trên cạnh của tứ diện, và các đỉnh của mặt đó được xác định bằng phép nội suy tuyến tính như mi,j = v 0 i sj−v 0 j si sj−si . Lưu ý rằng phương trình trên chỉ được đánh giá khi si 6= sj , do đó nó có thể phân biệt được, và gradient từ mi,j có thể được lan truyền ngược vào các giá trị SDF si và biến dạng ∆vi . Với biểu diễn này, các hình dạng có cấu trúc tùy ý có thể dễ dàng được tạo ra bằng cách dự đoán các dấu khác nhau của si . Trích xuất lưới có thể phân biệt si v i si si sj i, j m i,j 3.1.2 Bộ tạo sinh màu sắc Việc tạo trực tiếp một bản đồ màu nhất quán với lưới đầu ra không hề đơn giản, vì hình dạng được tạo ra có thể có số lượng và cấu trúc tùy ý. Do đó, chúng tôi tham số hóa màu sắc dưới dạng một trường màu [ ]. 50 Cụ thể, chúng tôi mô hình hóa trường màu bằng một hàm ánh xạ vị trí 3D của một điểm bề mặt ∈ R3, được điều kiện hóa bởi 2, thành màu RGB ∈ R3 tại vị trí đó. Vì trường màu phụ thuộc vào hình học, chúng tôi bổ sung thêm điều kiện ánh xạ này dựa trên mã tiềm ẩn hình học 1, sao cho = ( *,* 1 ⊕ 2), trong đó ⊕ biểu thị phép nối. ft p w c w c ft p w w Chúng tôi biểu diễn trường màu của mình bằng biểu diễn ba mặt phẳng, hiệu quả và biểu cảm trong việc tái tạo các đối tượng 3D [ ] và tạo ảnh nhận biết 3D [ ] . Cụ thể, chúng tôi làm theo [ , ] và sử dụng một mạng nơ-ron tích chập 2D có điều kiện để ánh xạ mã tiềm ẩn 1 ⊕ 2 sang ba mặt phẳng tính năng vuông góc với các trục có kích thước × × ( × 3), trong đó = 256 biểu thị độ phân giải không gian và = 32 số lượng kênh. Kiến trúc mạng 55 8 8 35 w w N N C N C Cho trước các mặt phẳng tính năng, vector tính năng f t ∈ R 32 của một điểm bề mặt p có thể được khôi phục dưới dạng f t = P e ρ(πe(p)), trong đó πe(p) là phép chiếu của điểm p lên mặt phẳng tính năng e và ρ(·) biểu thị phép nội suy song tuyến tính các tính năng. Sau đó, một lớp kết nối đầy đủ bổ sung được sử dụng để ánh xạ vector tính năng tổng hợp f t thành màu RGB c. Lưu ý rằng, khác với các công trình khác về tổng hợp ảnh nhận biết 3D cũng sử dụng biểu diễn trường thần kinh, chúng tôi chỉ cần lấy mẫu trường màu tại các vị trí của các điểm bề mặt (trái ngược với các mẫu dày đặc dọc theo tia). Điều này làm giảm đáng kể độ phức tạp tính toán để kết xuất ảnh có độ phân giải cao và đảm bảo tạo ra ảnh nhất quán đa góc nhìn theo thiết kế. 3.2 Kết xuất và đào tạo có thể phân biệt Để giám sát mô hình của chúng tôi trong quá trình đào tạo, chúng tôi lấy cảm hứng từ Nvdiffrec [ ] thực hiện tái tạo đối tượng 3D đa góc nhìn bằng cách sử dụng trình kết xuất có thể phân biệt. Cụ thể, chúng tôi kết xuất lưới 3D và trường màu thành ảnh 2D bằng trình kết xuất có thể phân biệt [ ], và giám sát mạng của chúng tôi bằng một bộ phân biệt 2D, cố gắng phân biệt ảnh từ một đối tượng thực hoặc được kết xuất từ đối tượng được tạo ra. 47 37 Chúng tôi giả định rằng phân phối máy ảnh C đã được sử dụng để thu thập ảnh trong tập dữ liệu là đã biết. Để kết xuất các hình dạng được tạo ra, chúng tôi lấy mẫu ngẫu nhiên một máy ảnh từ C và sử dụng bộ rasterizer có thể phân biệt được tối ưu hóa cao Nvdiffrast [ ] để kết xuất lưới 3D thành hình bóng 2D cũng như một ảnh mà mỗi pixel chứa tọa độ của điểm 3D tương ứng trên bề mặt lưới. Các tọa độ này sau đó được sử dụng để truy vấn trường màu để thu được các giá trị RGB. Vì chúng tôi hoạt động trực tiếp trên lưới đã trích xuất, chúng tôi có thể kết xuất ảnh có độ phân giải cao với hiệu quả cao, cho phép mô hình của chúng tôi được đào tạo với độ phân giải ảnh cao tới 1024 × 1024. Kết xuất có thể phân biệt c 37 Chúng tôi đào tạo mô hình của mình bằng mục tiêu đối nghịch. Chúng tôi áp dụng kiến trúc bộ phân biệt từ StyleGAN [ ], và sử dụng mục tiêu GAN không bão hòa với chuẩn hóa R1 [ ]. Chúng tôi thực nghiệm thấy rằng việc sử dụng hai bộ phân biệt riêng biệt, một cho ảnh RGB và một cho hình bóng, mang lại kết quả tốt hơn so với một bộ phân biệt hoạt động trên cả hai. Gọi là bộ phân biệt, trong đó có thể là ảnh RGB hoặc hình bóng. Mục tiêu đối nghịch sau đó được định nghĩa như sau: Bộ phân biệt & Mục tiêu 34 42 Dx x trong đó ( ) được định nghĩa là ( ) = − log(1 +exp(− )), là phân phối của ảnh thực, biểu thị kết xuất, và là một siêu tham số. Vì có thể phân biệt được, gradient có thể được lan truyền ngược từ ảnh 2D đến các bộ tạo sinh 3D của chúng tôi. g u g u u px R λ R Để loại bỏ các mặt nội bộ nổi không nhìn thấy được trong bất kỳ góc nhìn nào, chúng tôi tiếp tục chuẩn hóa bộ tạo sinh hình học bằng hàm mất mát chéo entropy được định nghĩa giữa các giá trị SDF của các đỉnh lân cận [ ]: Chuẩn hóa 47 trong đó biểu thị hàm mất mát chéo entropy nhị phân và biểu thị hàm sigmoid. Tổng trong Phương trình được định nghĩa trên tập hợp các cạnh duy nhất S trong lưới tứ diện, đối với các cạnh mà sign( ) /= sign( ). H σ 2 e si sj Hàm mất mát tổng thể sau đó được định nghĩa là: trong đó là một siêu tham số kiểm soát mức độ chuẩn hóa. µ 4 Thử nghiệm Chúng tôi tiến hành các thử nghiệm rộng rãi để đánh giá mô hình của mình. Trước tiên, chúng tôi so sánh chất lượng của lưới 3D được tô màu được tạo bởi GET3D với các phương pháp hiện có bằng cách sử dụng các tập dữ liệu ShapeNet [ ] và Turbosquid [ ]. Tiếp theo, chúng tôi phân tích các lựa chọn thiết kế của mình trong Mục . Cuối cùng, chúng tôi chứng minh tính linh hoạt của GET3D bằng cách điều chỉnh nó cho các ứng dụng hạ lưu trong Mục . Kết quả thử nghiệm bổ sung và chi tiết triển khai được cung cấp trong Phụ lục. 9 4 4.2 4.3 4.1