CHÀO! Chào mừng bạn đến với 'Inside the Lab', blog nghiên cứu và kỹ thuật của artlabs . Chủ đề của tuần này là cách thức các phương pháp AI thể hiện và xử lý nội dung 3D, cách AI sử dụng các cách thể hiện này để tạo nội dung 3D, cũng như ưu và nhược điểm của các kỹ thuật này.
Các mô hình máy học được đào tạo bằng cách sử dụng các biểu diễn nội dung 3D khác nhau như voxel, đám mây điểm, trường khoảng cách đã ký, trường bức xạ thần kinh (NeRF), lưới đa giác… Chúng ta sẽ nói về biểu diễn voxel, đám mây điểm, NeRF và đa giác trong bài đăng này. Chúng ta hãy đi qua những điều này, từng cái một.
Bạn biết về các yếu tố hình ảnh (còn gọi là pixel) nhưng bạn đã bao giờ nghe nói về các yếu tố âm lượng (hay còn gọi là voxels) chưa? Bây giờ bạn đã làm! Các pixel được biểu thị dưới dạng các giá trị cường độ màu đỏ, lục và lam với giá trị độ mờ bổ sung trong khoảng từ 0 đến 255 trên lưới 2D được biểu thị bằng tọa độ x và y. Voxels, tương tự bao gồm các giá trị màu đỏ, xanh lá cây, xanh dương và độ mờ trên lưới 3D. Các mô hình AI nhằm mục đích tìm hiểu 4 giá trị này cho mỗi điểm ảnh ba chiều để thể hiện cảnh một cách hiệu quả.
Các mô hình Machine Learning như 3D-R2N2 (2016), Pix2Vox / ++ (2019/2020) và EVoIT (2021) tận dụng tính đơn giản của biểu diễn voxel và sử dụng hình ảnh nhiều chế độ xem của một đối tượng để tái tạo lại đối tượng đó dưới dạng một voxel lưới.
Voxels rất tốt nếu bạn muốn biểu diễn các hình khối. Vì có nghệ thuật pixel, nên cũng có nghệ thuật 3D dựa trên voxels. Hơn nữa, ai lại không muốn tạo ra những thế giới giống như Minecraft ?! Các metaverse như Sandbox cũng sử dụng các biểu diễn voxel và việc tạo voxel dựa trên AI cũng có thể giúp cải thiện chúng.
Chà, bạn đã đoán ra rồi đấy: Mây điểm là những đám mây được hình thành bởi các điểm màu trong không gian 3D. Không giống như các điểm ảnh ba chiều, chúng không được chứa trong một lưới, vì vậy bạn có thể biểu diễn nhiều đối tượng tốt hơn bằng các đám mây điểm. Tuy nhiên, vì không có lưới nên bạn cũng cần xem xét vị trí của từng điểm trong không gian 3D. Điều này có nghĩa là bạn cần giữ nhiều dữ liệu hơn so với voxels cho từng điểm dữ liệu.
Các mô hình như Point-E của OpenAI (2022) đã chứng tỏ thành công trong việc tạo nội dung 3D dựa trên đám mây điểm. Tuy nhiên, cũng như mọi thứ tốt đẹp trên thế giới, các đám mây điểm đều có ưu điểm và nhược điểm.
Các đám mây điểm thực sự được sử dụng rộng rãi trong một số ngành công nghiệp. Chúng có thể được mua lại bằng LiDAR được cài đặt trên máy bay không người lái hoặc ô tô thông minh. Người ta có thể tạo các đối tượng và môi trường đám mây điểm với AI để sử dụng trong các mô phỏng nhằm cải thiện các thuật toán đang được chạy cho các phương tiện không người lái tốt hơn. Hơn nữa, chúng cũng được sử dụng trong hình ảnh y tế. Việc tạo ra các đám mây điểm y tế dựa trên AI cũng có thể cải thiện khả năng phát hiện bệnh tật và chấn thương thể chất ở bệnh nhân.
Đưa ra một tập hợp hình ảnh và thông tin về tư thế máy ảnh tương ứng, NeRF có thể tái tạo lại cảnh 3D bằng cách tìm ra vị trí của từng pixel trên hình ảnh tương ứng trong không gian 3D. Sau khi cảnh được tái tạo, NeRF có thể cung cấp chế độ xem 3D đầy đủ của cảnh, ngay cả từ các góc không nhìn thấy được. Hơn nữa, bản thân đại diện là AI! Về cơ bản, nó là một mạng thần kinh chứa toàn bộ thông tin cần thiết để hiển thị cảnh 3D. Cảnh được thể hiện trong mạng thần kinh và khi được truy vấn bằng tư thế máy ảnh mới, mạng thần kinh có thể phản hồi bằng kết xuất mới của chế độ xem đó. Mặc dù mạng NeRF ban đầu phải được đào tạo trong nhiều giờ (trong một số trường hợp là vài ngày), nhưng một số biến thể NeRF mới có thể tái tạo lại cảnh 3D chất lượng cao chỉ trong vài giây.
Trường bức xạ thần kinh có thể hiển thị cảnh từ mọi góc độ và chúng có thể được sử dụng rộng rãi trong nghệ thuật điện ảnh. Mọi người đều biết rằng góc và chuyển động của máy quay rất quan trọng trong quay phim và NeRF có thể tạo kết xuất từ các góc mà người quay phim có thể gặp khó khăn.
Lưới đa giác bao gồm các điểm (cụ thể là các đỉnh), các đường kết nối các điểm này với nhau (cụ thể là các cạnh) và các đa giác được tạo ở giữa các cạnh này. Các đỉnh được biểu diễn bằng tọa độ của chúng; các cạnh được biểu thị bằng các đỉnh mà chúng đang kết nối và các đa giác được biểu thị bằng các cạnh mà chúng đang được xây dựng trên đó. Hơn nữa, có nhiều cách biểu diễn màu sắc trên các mắt lưới, từ việc tô màu đơn giản cho mỗi đỉnh bằng các giá trị cường độ đỏ, lục và lam để quyết định cách màu đó sẽ tương tác với bất kỳ ánh sáng cụ thể nào bằng cách cung cấp các thuộc tính vật liệu như độ khuếch tán, độ đặc trưng, độ mờ, độ khúc xạ chỉ số, quy tắc bề mặt, vv
Các phương pháp như NVDiffrec-MC (2022) có thể suy ra bộ ba lưới, ánh sáng và vật liệu bằng cách sử dụng các tập hợp hình ảnh. Gần đây, nhiều phương pháp khác đã được phát triển để tái tạo lại lưới và kết cấu từ đầu vào văn bản hoặc hình ảnh: GET3D , DreamFusion , Score Jacobian Chaining , Magic3D …
Các mắt lưới đa giác đã được sử dụng trong trò chơi, nghệ thuật điện ảnh, Web3 và XR. Nhiều ngành như thương mại điện tử được hưởng lợi rất nhiều từ các mắt lưới đa giác bằng cách trực quan hóa sản phẩm của họ ở dạng 3D. Bằng cách tạo nội dung với AI, tất cả các ngành này có thể tạo nội dung ở quy mô lớn và khiến khán giả của họ kinh ngạc.
Tại artlabs , chúng tôi sử dụng tất cả các biểu diễn này và AI ở các phần khác nhau trong quy trình của chúng tôi. Xem thêm về cách artlabs sử dụng AI để tạo nội dung ở quy mô lớn tại đây .
Cảm ơn vì đã đọc! Hẹn gặp lại các bạn trong bài viết tiếp theo của “Inside the Lab” 👋🏻
Tác giả: Doğancan Kebude , Trưởng phòng R&D tại artlabs