你好!欢迎来到“Inside the Lab”, artlabs的研究和工程博客。本周的主题是 AI 方法如何表示和处理 3D 内容,AI 如何利用这些表示来创建 3D 内容,以及这些技术的优缺点。
机器学习模型使用各种 3D 内容表示进行训练,例如体素、点云、符号距离场、神经辐射场 (NeRF)、多边形网格……我们将在本文中讨论体素、点云、NeRF 和多边形表示。让我们逐一讨论这些。
您知道图片元素(又名像素),但您听说过体积元素(又名体素)吗?现在你做到了!在由 x 和 y 坐标表示的 2D 网格上,像素表示为红色、绿色和蓝色强度值以及介于 0 和 255 之间的附加不透明度值。体素同样由 3D 网格上的红色、绿色、蓝色和不透明度值组成。 AI 模型旨在为每个体素学习这 4 个值,以有效地表示场景。
3D-R2N2 (2016)、 Pix2Vox / ++ (2019/2020) 和EVoIT (2021) 等机器学习模型利用体素表示的简单性,并利用对象的多视图图像将该对象重建为体素网格。
如果您想表示立方体形状,体素非常好。正如有像素艺术一样,也有基于体素的 3D 艺术。此外,谁不想生成类似 Minecraft 的世界?!像 Sandbox 这样的 Metaverse 也使用体素表示,基于 AI 的体素创建也可以帮助改进它们。
嗯,您猜对了:点云是由 3D 空间中的彩色点形成的云。与体素不同,它们不包含在网格中,因此您可以使用点云更好地表示范围更广的对象。但是,由于没有网格,您还需要考虑每个点在 3D 空间中的位置。这意味着与每个数据点的体素相比,您需要保留更多数据。
OpenAI 的Point-E (2022) 等模型已证明在基于点云的 3D 内容创建方面取得了成功。然而,与世界上所有美好的事物一样,点云也有其优点和缺点。
点云实际上广泛应用于多个行业。它们可以通过安装在无人机或智能汽车上的 LiDAR 获取。人们可以使用 AI 创建点云对象和环境,以在模拟中使用,以改进为更好的无人驾驶车辆运行的算法。此外,它们还用于医学成像。基于人工智能的医疗点云创建也可以改善患者的疾病和身体创伤检测。
给定一组图像和相应的相机姿态信息, NeRF可以通过找出图像上的每个像素在 3D 空间中对应的位置来重建 3D 场景。一旦场景被重建,NeRF 就可以提供场景的完整 3D 视图,即使是从看不见的角度。此外,代表本身就是人工智能!基本上,它是一个神经网络,包含渲染 3D 场景所需的全部信息。场景在神经网络中表示,当用新的相机姿势查询时,神经网络可以用该视图的新渲染来响应。虽然原始的 NeRF 网络必须训练数小时(在某些情况下为数天),但几个新颖的 NeRF 变体可以在几秒钟内重建高质量的 3D 场景。
神经辐射场可以从任何角度渲染场景,它们有可能被电影艺术广泛使用。众所周知,摄像机角度和运动在电影摄影中非常重要,而 NeRF 可以从摄像机人员可能难以处理的角度创建渲染。
多边形网格由点(即顶点)、将这些点彼此连接的线(即边)以及在这些边之间构造的多边形组成。顶点由它们的坐标表示;边由它们连接的顶点表示,多边形由它们在其上构建的边表示。此外,有多种方法可以在网格上表示颜色,从简单地用红色、绿色和蓝色强度值为每个顶点着色,到通过提供漫射、镜面反射、不透明度、折射等材料属性来决定该颜色如何与任何给定的光相互作用。指数,表面法线等。
NVDiffrec-MC (2022) 等方法可以利用图像集推断网格、光和材料三元组。最近,开发了更多的方法来从文本或图像输入重建网格和纹理: GET3D 、 DreamFusion 、 Score Jacobian Chaining 、 Magic3D ……
多边形网格已用于游戏、电影艺术、Web3 和 XR。电子商务等许多行业通过以 3D 方式可视化其产品,从多边形网格中获益匪浅。通过使用 AI 创建内容,所有这些行业都可以大规模生成内容并吸引他们的观众。
在artlabs ,我们在管道的不同部分使用所有这些表示和 AI。在此处查看更多关于 artlabs 如何利用 AI 大规模创建内容的信息。
谢谢阅读!在“实验室内部”的下一篇文章中见 👋🏻
作者: Dogancan Kebude , artlabs研发主管