やあ! artlabsの研究とエンジニアリングのブログ、「Inside the Lab」へようこそ。今週のトピックは、3D コンテンツが AI 方法論によってどのように表現および処理されるか、AI がこれらの表現を 3D コンテンツ作成にどのように利用するか、およびこれらの手法の長所と短所です。
機械学習モデルは、ボクセル、ポイント クラウド、符号付き距離フィールド、ニューラル ラジアンス フィールド (NeRF)、ポリゴン メッシュなど、さまざまな 3D コンテンツ表現を使用してトレーニングされます。この投稿では、ボクセル、ポイント クラウド、NeRF、およびポリゴン表現について説明します。これらを 1 つずつ見ていきましょう。
画像要素 (別名ピクセル) については知っていますが、ボリューム要素 (別名ボクセル) について聞いたことがありますか?今、あなたはやった!ピクセルは、x 座標と y 座標で表される 2D グリッド上に、0 から 255 までの追加の不透明度値を持つ赤、緑、青の色強度値として表されます。ボクセルも同様に、3D グリッド上の赤、緑、青、および不透明度の値で構成されます。 AI モデルは、シーンを効率的に表現するために、ボクセルごとにこれら 4 つの値を学習することを目的としています。
3D-R2N2 (2016)、 Pix2Vox / ++ (2019/2020)、 EVoIT (2021) などの機械学習モデルは、ボクセル表現の単純さを利用し、オブジェクトの多視点画像を利用して、そのオブジェクトをボクセルとして再構築します。グリッド。
立方体の形状を表現したい場合は、ボクセルが非常に適しています。ピクセル アートがあるように、ボクセルに基づく 3D アートもあります。さらに、マインクラフトのような世界を作りたくない人はいますか?!サンドボックスのようなメタバースもボクセル表現を利用しており、AI ベースのボクセル作成はそれらの改善にも役立ちます。
ご想像のとおり、点群は 3D 空間内の色付きの点によって形成される雲です。ボクセルとは異なり、ボクセルはグリッド内に含まれていないため、ポイント クラウドを使用すると、より広い範囲のオブジェクトをより適切に表すことができます。ただし、グリッドがないため、3D 空間内の各ポイントの位置も考慮する必要があります。これは、各データ ポイントのボクセルと比較して、より多くのデータを保持する必要があることを意味します。
OpenAI のPoint-E (2022) などのモデルは、点群ベースの 3D コンテンツ作成で成功を収めています。ただし、世界中の優れたものすべてと同様に、点群にも長所と短所があります。
点群は、実際にはいくつかの業界で広く使用されています。ドローンやスマートカーに搭載された LiDAR で取得できます。 AI を使用して点群オブジェクトと環境を作成し、シミュレーション内で使用して、より優れた自動運転車のために実行されているアルゴリズムを改善できます。さらに、それらは医療用画像にも使用されます。 AI ベースの医療点群の作成により、患者の病気や身体的外傷の検出も改善できます。
一連の画像と対応するカメラ ポーズ情報が与えられると、 NeRFは、画像上の各ピクセルが 3D 空間のどこに対応するかを見つけることで、3D シーンを再構成できます。シーンが再構築されると、NeRF は見えない角度からでもシーンの完全な 3D ビューを提供できます。しかも表現そのものがAI!基本的に、これは 3D シーンのレンダリングに必要なすべての情報を含むニューラル ネットワークです。シーンはニューラル ネットワーク内で表現され、新しいカメラ ポーズでクエリが実行されると、ニューラル ネットワークはそのビューの新しいレンダリングで応答できます。元の NeRF ネットワークは数時間 (場合によっては数日) トレーニングする必要がありましたが、いくつかの新しい NeRF バリアントはわずか数秒で高品質の 3D シーンを再構築できます。
Neural Radiance Fields はあらゆる角度からシーンをレンダリングでき、映画芸術で広く使用される可能性があります。カメラ アングルとモーションが映画撮影において非常に重要であることは広く知られています。
ポリゴン メッシュは、点 (つまり頂点)、これらの点を互いに接続する線 (つまりエッジ)、およびこれらのエッジの間に構築されるポリゴンで構成されます。頂点は座標で表されます。エッジは接続している頂点によって表され、ポリゴンは構築されているエッジによって表されます。さらに、各頂点を赤、緑、青の強度値で単純に色付けすることから、拡散、鏡面性、不透明度、屈折などのマテリアル プロパティを提供することによってその色が特定の光とどのように相互作用するかを決定することまで、メッシュで色を表現する方法は複数あります。インデックス、表面法線など
NVDiffrec-MC (2022) などの方法では、画像セットを利用してメッシュ、ライト、マテリアルのトリプレットを推測できます。最近、テキストまたは画像入力からメッシュとテクスチャを再構築するために、さらに多くの方法が開発されました: GET3D 、 DreamFusion 、 Score Jacobian Chaining 、 Magic3D …
ポリゴン メッシュは、ゲーム、映画芸術、Web3、および XR で既に利用されています。 e コマースなどの多くの業界は、製品を 3D で視覚化することにより、多角形メッシュから大きな恩恵を受けています。 AI を使用してコンテンツを作成することにより、これらすべての業界で大規模なコンテンツを作成し、視聴者を驚かせることができます。
artlabsでは、パイプラインのさまざまなセクションでこれらすべての表現と AI を利用しています。 artlabs が AI を利用して大規模なコンテンツを作成する方法の詳細については、こちら を参照してください。
読んでくれてありがとう!次回の「Inside the Lab」の投稿でお会いしましょう👋🏻
著者: Doğancan Kebude 、 artlabsの R&D リード