2,071 lượt đọc

Cách tạo nội dung 3D dựa trên AI

từ tác giả artlabs7m2023/03/03

dài quá đọc không nổi

Nhóm của chúng tôi đã đi sâu vào thế giới hấp dẫn về cách các phương pháp AI thể hiện và xử lý nội dung 3D cũng như các cách khác nhau mà AI tận dụng những cách thể hiện này để tạo nội dung 3D. Chúng tôi cũng đã khám phá những ưu điểm và nhược điểm của những kỹ thuật này.

featured image - Cách tạo nội dung 3D dựa trên AI

CHÀO! Chào mừng bạn đến với 'Inside the Lab', blog nghiên cứu và kỹ thuật của artlabs . Chủ đề của tuần này là cách thức các phương pháp AI thể hiện và xử lý nội dung 3D, cách AI sử dụng các cách thể hiện này để tạo nội dung 3D, cũng như ưu và nhược điểm của các kỹ thuật này.

Các mô hình máy học được đào tạo bằng cách sử dụng các biểu diễn nội dung 3D khác nhau như voxel, đám mây điểm, trường khoảng cách đã ký, trường bức xạ thần kinh (NeRF), lưới đa giác… Chúng ta sẽ nói về biểu diễn voxel, đám mây điểm, NeRF và đa giác trong bài đăng này. Chúng ta hãy đi qua những điều này, từng cái một.

Voxels

Bạn biết về các yếu tố hình ảnh (còn gọi là pixel) nhưng bạn đã bao giờ nghe nói về các yếu tố âm lượng (hay còn gọi là voxels) chưa? Bây giờ bạn đã làm! Các pixel được biểu thị dưới dạng các giá trị cường độ màu đỏ, lục và lam với giá trị độ mờ bổ sung trong khoảng từ 0 đến 255 trên lưới 2D được biểu thị bằng tọa độ x và y. Voxels, tương tự bao gồm các giá trị màu đỏ, xanh lá cây, xanh dương và độ mờ trên lưới 3D. Các mô hình AI nhằm mục đích tìm hiểu 4 giá trị này cho mỗi điểm ảnh ba chiều để thể hiện cảnh một cách hiệu quả.

Các mô hình Machine Learning như 3D-R2N2 (2016), Pix2Vox / ++ (2019/2020) và EVoIT (2021) tận dụng tính đơn giản của biểu diễn voxel và sử dụng hình ảnh nhiều chế độ xem của một đối tượng để tái tạo lại đối tượng đó dưới dạng một voxel lưới.

Ưu điểm của biểu diễn voxel

Biểu diễn đơn giản nhất có thể cho nội dung 3D. Biểu diễn chỉ đơn giản là các giá trị màu đỏ, xanh lá cây, xanh dương và độ mờ cho mỗi khối trong lưới.
Dễ dàng xây dựng một mô hình học máy. Vì cách biểu diễn đơn giản nên mô hình sẽ dễ dàng tìm hiểu hơn.

Nhược điểm của biểu diễn voxel

Độ phân giải, và đó là một độ phân giải lớn! Lưới voxel có chiều dài cạnh là 512 thực sự chứa hơn 134 triệu điểm dữ liệu, trong khi hình ảnh 4096x4096 chỉ chứa hơn 16 triệu điểm và chúng tôi biết kích thước tệp của hình ảnh 4K có thể lớn đến mức nào. Có nhiều phương pháp nén tệp voxel để giảm kích thước tệp của chúng. Tuy nhiên, các mô hình học máy hiện tại vẫn phải vật lộn để theo kịp nhiều thông tin này. Tất nhiên, người ta có thể khắc phục hạn chế này bằng cách không lưu trữ các điểm ảnh ba chiều trống trong bộ nhớ hoặc tiến xa hơn và nén nhiều hơn. Nhưng những phép nén này không thể được áp dụng trong quá trình học máy vì quá trình nén có thể được thực hiện sau khi tạo lưới voxel và những gì đang được thực hiện với học máy vẫn là "xây dựng".
dựng hình. GPU được tối ưu hóa để hiển thị đa giác và không có phần cứng cụ thể nào để hiển thị hiệu quả các điểm ảnh ba chiều có độ phân giải cao.

Các trường hợp sử dụng có thể có trong ngành

Voxels rất tốt nếu bạn muốn biểu diễn các hình khối. Vì có nghệ thuật pixel, nên cũng có nghệ thuật 3D dựa trên voxels. Hơn nữa, ai lại không muốn tạo ra những thế giới giống như Minecraft ?! Các metaverse như Sandbox cũng sử dụng các biểu diễn voxel và việc tạo voxel dựa trên AI cũng có thể giúp cải thiện chúng.

Mây điểm

Chà, bạn đã đoán ra rồi đấy: Mây điểm là những đám mây được hình thành bởi các điểm màu trong không gian 3D. Không giống như các điểm ảnh ba chiều, chúng không được chứa trong một lưới, vì vậy bạn có thể biểu diễn nhiều đối tượng tốt hơn bằng các đám mây điểm. Tuy nhiên, vì không có lưới nên bạn cũng cần xem xét vị trí của từng điểm trong không gian 3D. Điều này có nghĩa là bạn cần giữ nhiều dữ liệu hơn so với voxels cho từng điểm dữ liệu.

Các mô hình như Point-E của OpenAI (2022) đã chứng tỏ thành công trong việc tạo nội dung 3D dựa trên đám mây điểm. Tuy nhiên, cũng như mọi thứ tốt đẹp trên thế giới, các đám mây điểm đều có ưu điểm và nhược điểm.

Ưu điểm của biểu diễn đám mây điểm

Xử lý tốt hơn các chi tiết nhỏ so với voxels. Các đám mây điểm có thể dày đặc hoặc thưa thớt. Khi thưa thớt, rất dễ bỏ sót hầu hết các chi tiết, nhưng khi đám mây điểm dày đặc, người ta có thể thể hiện rất tốt đối tượng/hình dạng ban đầu.
Tuyệt vời trong việc đại diện cho những cảnh lớn! LiDAR là một cách tuyệt vời để có được các đám mây điểm và chúng được sử dụng rộng rãi trong các phương tiện thông minh. Có một số ví dụ về máy bay không người lái quét toàn bộ khu vực, bao gồm rừng, nhà máy, sân vận động, quảng trường thành phố, v.v. Chúng thậm chí còn tạo ra một đám mây điểm của toàn thành phố Düsseldorf !

Nhược điểm của biểu diễn đám mây điểm

Không có khối lượng. Ngay cả khi một đám mây điểm dày đặc, nó được cấu tạo từ các điểm và các điểm không thể biểu diễn một thể tích.
dựng hình. Vì không có đa giác trên đám mây điểm, nên các GPU hiện tại hoàn toàn không thể hiển thị các đám mây điểm. Chúng cũng không thể được sử dụng để sản xuất. Các đám mây điểm có thể được chuyển đổi thành các mắt lưới đa giác, tuy nhiên, các thuật toán hiện tại tái tạo lại các đầu ra dạng cục.

Các trường hợp sử dụng có thể có trong ngành

Các đám mây điểm thực sự được sử dụng rộng rãi trong một số ngành công nghiệp. Chúng có thể được mua lại bằng LiDAR được cài đặt trên máy bay không người lái hoặc ô tô thông minh. Người ta có thể tạo các đối tượng và môi trường đám mây điểm với AI để sử dụng trong các mô phỏng nhằm cải thiện các thuật toán đang được chạy cho các phương tiện không người lái tốt hơn. Hơn nữa, chúng cũng được sử dụng trong hình ảnh y tế. Việc tạo ra các đám mây điểm y tế dựa trên AI cũng có thể cải thiện khả năng phát hiện bệnh tật và chấn thương thể chất ở bệnh nhân.

Trường bức xạ thần kinh (NeRF)

Đưa ra một tập hợp hình ảnh và thông tin về tư thế máy ảnh tương ứng, NeRF có thể tái tạo lại cảnh 3D bằng cách tìm ra vị trí của từng pixel trên hình ảnh tương ứng trong không gian 3D. Sau khi cảnh được tái tạo, NeRF có thể cung cấp chế độ xem 3D đầy đủ của cảnh, ngay cả từ các góc không nhìn thấy được. Hơn nữa, bản thân đại diện là AI! Về cơ bản, nó là một mạng thần kinh chứa toàn bộ thông tin cần thiết để hiển thị cảnh 3D. Cảnh được thể hiện trong mạng thần kinh và khi được truy vấn bằng tư thế máy ảnh mới, mạng thần kinh có thể phản hồi bằng kết xuất mới của chế độ xem đó. Mặc dù mạng NeRF ban đầu phải được đào tạo trong nhiều giờ (trong một số trường hợp là vài ngày), nhưng một số biến thể NeRF mới có thể tái tạo lại cảnh 3D chất lượng cao chỉ trong vài giây.

Ưu điểm của đại diện NeRF

Cảnh được thể hiện khi chúng ta cảm nhận nó bằng máy ảnh của mình và chúng ta có thể nhìn thấy cảnh đó qua các góc độ chưa từng thấy trước đây. Có thể dễ dàng nói rằng bạn có thể truy xuất các chi tiết đẹp bằng NeRF.
dựng hình. Toàn bộ mục đích của mô hình là hiển thị cảnh từ một góc nhìn mới.

Nhược điểm của đại diện NeRF

Không có khối lượng. Các cảnh 3D được tái tạo bởi Trường bức xạ thần kinh thực sự là một kết xuất. Do đó, chúng không thể được sử dụng cho mô phỏng vật lý, sản xuất, v.v.
Chúng là bản dựng lại của cảnh 3D, nhưng chúng không cho phép chỉnh sửa cảnh. Có các phương pháp để tách một đối tượng khỏi nền, tuy nhiên, bạn vẫn chưa thể đặt một NeRF bên trong một NeRF khác như bạn có thể làm với đa giác, voxels hoặc đám mây điểm.

Các trường hợp sử dụng có thể có trong ngành

Trường bức xạ thần kinh có thể hiển thị cảnh từ mọi góc độ và chúng có thể được sử dụng rộng rãi trong nghệ thuật điện ảnh. Mọi người đều biết rằng góc và chuyển động của máy quay rất quan trọng trong quay phim và NeRF có thể tạo kết xuất từ các góc mà người quay phim có thể gặp khó khăn.

lưới đa giác

Lưới đa giác bao gồm các điểm (cụ thể là các đỉnh), các đường kết nối các điểm này với nhau (cụ thể là các cạnh) và các đa giác được tạo ở giữa các cạnh này. Các đỉnh được biểu diễn bằng tọa độ của chúng; các cạnh được biểu thị bằng các đỉnh mà chúng đang kết nối và các đa giác được biểu thị bằng các cạnh mà chúng đang được xây dựng trên đó. Hơn nữa, có nhiều cách biểu diễn màu sắc trên các mắt lưới, từ việc tô màu đơn giản cho mỗi đỉnh bằng các giá trị cường độ đỏ, lục và lam để quyết định cách màu đó sẽ tương tác với bất kỳ ánh sáng cụ thể nào bằng cách cung cấp các thuộc tính vật liệu như độ khuếch tán, độ đặc trưng, độ mờ, độ khúc xạ chỉ số, quy tắc bề mặt, vv

Các phương pháp như NVDiffrec-MC (2022) có thể suy ra bộ ba lưới, ánh sáng và vật liệu bằng cách sử dụng các tập hợp hình ảnh. Gần đây, nhiều phương pháp khác đã được phát triển để tái tạo lại lưới và kết cấu từ đầu vào văn bản hoặc hình ảnh: GET3D , DreamFusion , Score Jacobian Chaining , Magic3D …

Ưu điểm của biểu diễn lưới đa giác

Phần cứng GPU được tối ưu hóa cho các biểu diễn đa giác, do đó các mắt lưới đa giác là cách dễ dàng nhất để hiển thị và trực quan hóa. Chúng được sử dụng rộng rãi để chơi game, CGI, VFX, AR/VR… Bạn có thể đặt tên cho nó!
Các nhà thiết kế có thể chơi với các thông số lưới và vật liệu khác nhau để tạo ra các thiết kế rất độc đáo với các chi tiết rất tốt.
Mức độ chi tiết có thể được kiểm soát dễ dàng bằng cách thay đổi số lượng đỉnh và đa giác.
Có những công cụ rất tiên tiến để chỉnh sửa lưới và ngày nay, các mắt lưới có thể được sửa đổi tương đối dễ dàng.

Nhược điểm của biểu diễn lưới đa giác

Cấu trúc phức tạp. Để các mô hình AI tạo lưới, các mô hình thần kinh cần có khả năng tạo các đỉnh, cạnh, đa giác, vật liệu và màu sắc.
Thiết kế và tạo lưới từ đầu mà không có AI đặc biệt tốn thời gian và rất khó xử lý trên quy mô lớn.

Các trường hợp sử dụng có thể có trong ngành

Các mắt lưới đa giác đã được sử dụng trong trò chơi, nghệ thuật điện ảnh, Web3 và XR. Nhiều ngành như thương mại điện tử được hưởng lợi rất nhiều từ các mắt lưới đa giác bằng cách trực quan hóa sản phẩm của họ ở dạng 3D. Bằng cách tạo nội dung với AI, tất cả các ngành này có thể tạo nội dung ở quy mô lớn và khiến khán giả của họ kinh ngạc.

Tại artlabs , chúng tôi sử dụng tất cả các biểu diễn này và AI ở các phần khác nhau trong quy trình của chúng tôi. Xem thêm về cách artlabs sử dụng AI để tạo nội dung ở quy mô lớn tại đây .

Cảm ơn vì đã đọc! Hẹn gặp lại các bạn trong bài viết tiếp theo của “Inside the Lab” 👋🏻

Tác giả: Doğancan Kebude , Trưởng phòng R&D tại artlabs