著者:  （１）Hoon Kim、Beeble AI、本研究に同等の貢献をした。  （２）ミンジェ・ジャン、Beeble AI、本研究に同等の貢献をした。  （３）Wonjun Yoon、Beeble AI、本研究に同等の貢献をした。  （4）Jisoo Lee、Beeble AI、本研究に同等の貢献をした。  （５） Donghyun Na、Beeble AI、本研究に同等の貢献をした。  （6）Sanghyun Woo、ニューヨーク大学、そして本研究に等しく貢献した。 編集者注: これは、デジタル画像内の人物のポートレートに光と影を適用する方法を改善する方法を紹介する研究の 14 部構成の第 1 部です。続きは以下をご覧ください。 リンク一覧 要約と1. はじめに 2. 関連研究 3. SwitchLight と 3.1. 準備 3.2. 問題の定式化 3.3. アーキテクチャ 3.4. 目的 4. マルチマスクオートエンコーダの事前トレーニング 5. データ 6. 実験 7. 結論 付録 A. 実装の詳細 B. ユーザースタディインターフェース C. ビデオデモンストレーション D. 追加の定性的な結果と参考文献 抽象的な 我々は、物理法則に基づくアーキテクチャと事前トレーニング フレームワークを組み合わせた、人間のポートレートの再照明のための共同設計アプローチを紹介します。Cook-Torrance 反射率モデルを利用して、光と表面の相互作用を正確にシミュレートするようにアーキテクチャ設計を細心の注意を払って構成しました。さらに、高品質のライトステージ データが不足しているという制限を克服するために、自己教師ありの事前トレーニング戦略を開発しました。正確な物理モデリングと拡張されたトレーニング データセットのこの斬新な組み合わせは、再照明のリアリズムにおける新しいベンチマークを確立します。  1. はじめに 再照明は単なる美的ツールではありません。無限の物語の可能性を解き放ち、対象を多様な環境にシームレスに統合することを可能にします (図 1 を参照)。この進歩は、空間と時間の物理的な制約を超越したいという人間の生来の欲求に共鳴すると同時に、デジタル コンテンツ作成における実際的な課題に対する具体的なソリューションも提供します。特に、再照明は仮想 (VR) および拡張現実 (AR) アプリケーションで変革をもたらし、再照明によって照明のリアルタイム適応が容易になり、ユーザーとデジタル要素があらゆる環境で自然に共存できるようになり、テレプレゼンスの次のレベルが実現します。 この研究では、人間のポートレートの再照明に焦点を当てています。再照明の作業には、基本的に幾何学、材質特性、照明に関する詳細な理解が必要ですが、人間の被写体を扱う場合は、皮膚表面の独特な特性や、さまざまな衣服、髪型、アクセサリーの多様な質感や反射特性のため、課題はさらに複雑になります。これらの要素は複雑に相互作用するため、さまざまな表面と光の微妙な相互作用をシミュレートできる高度なアルゴリズムが必要です。 現在、最も有望なアプローチは、照明ステージセットアップから供給される高品質の再照明ポートレート画像とそれに対応する固有属性のペアでトレーニングされたディープニューラルネットワークの使用を伴う [10]。初期の取り組みでは、基礎となるメカニズムを掘り下げることなく、再照明プロセスを「ブラックボックス」としてアプローチした [45, 48]。その後の進歩では、画像固有特性と画像形成物理学の明示的なモデリングを組み込んだ、物理学に基づいたモデル設計が採用された [32]。Pandey ら [34] は、やはり物理学に基づいた Total Relight (TR) アーキテクチャを提案した。これは、入力画像を表面法線とアルベドマップに分解し、Phong 鏡面反射モデルに基づいて再照明を実行する。TR アーキテクチャは画像の再照明の基礎モデルとなり、最新の高度なアーキテクチャのほとんどがその原理に基づいて構築されている [23, 31, 52]。 物理学に基づくアプローチに従い、私たちの貢献は、自己教師付きの事前トレーニング フレームワークとアーキテクチャの共同設計にあります。まず、私たちのアーキテクチャは、Cook-Torrance 鏡面反射モデル [8] を統合することで、より正確な物理モデルへと進化しています。これは、Total Relight アーキテクチャで使用されている経験的な Phong 鏡面反射モデル [37] からの顕著な進歩を表しています。Cook-Torrance モデルは、空間的に変化する粗さと反射率を考慮して、表面のマイクロファセットとの光の相互作用を巧みにシミュレートします。次に、事前トレーニング フレームワークは、通常は入手が難しいライトステージ データを超えて学習プロセスを拡張します。マスク オートエンコーダ (MAE) フレームワーク [19] を再検討することで、それを再照明のタスクに適応させました。これらの変更は、このタスクによってもたらされる固有の課題に対処するために作成されており、モデルがラベルなしデータから学習し、微調整中にリアルな再照明ポートレートを生成する能力を改良できるようにします。私たちの知る限り、再照明タスクに特に自己教師あり事前トレーニングを適用したのはこれが初めてです。 要約すると、私たちの貢献は 2 つあります。まず、物理反射率モデルを強化することで、出力に新しいレベルのリアリティを導入しました。次に、自己教師あり学習を採用することで、トレーニング データの規模を拡大し、さまざまな現実世界のシナリオでの照明の表現を強化しました。これらの進歩により、SwitchLight フレームワークは、人間のポートレートの再照明における新しい最先端のレベルを達成しました。 この論文は、CC BY-NC-SA 4.0 DEED ライセンスの下で 。 arxiv で公開されています

Part of HackerNoon's growing list of open-source research papers, promoting free access to academic material.

AutoEncoder.tech

Research & publications on Auto Encoders, revolutionizing data compression and feature learning techniques.

Auto Encoder's blog

このオーディオは、ストーリーの元の言語で制作されています。

Beeble 研究者による新しいフレームワークは、AI を使用してデジタルポートレートにリアルな輝きをもたらすことを約束します

About Author

コメント

ラベル

この記事は

Related Stories

Claude Sonnet 3.5 システムプロンプトの漏洩: 法医学的分析

State of the Noonion: Green Clock Strikes Noon

クラウド移行を成功させるための完全ガイド: 戦略とベストプラクティス

フォーラムからフィードへ: ソーシャルメディアアルゴリズムがデジタルインタラクションを形作る仕組み

Claude Sonnet 3.5 システムプロンプトの漏洩: 法医学的分析

State of the Noonion: Green Clock Strikes Noon

クラウド移行を成功させるための完全ガイド: 戦略とベストプラクティス

フォーラムからフィードへ: ソーシャルメディアアルゴリズムがデジタルインタラクションを形作る仕組み

Light-Mode

Classic

Newspaper

Minty

Dark-Mode

Neon Noir

Minty

HN StartUps

Beeble 研究者による新しいフレームワークは、AI を使用してデジタル ポートレートにリアルな輝きをもたらすことを約束します

About Author

コメント

ラベル

この記事は

Related Stories

Light-Mode

Classic

Newspaper

Minty

Dark-Mode

Neon Noir

Minty

HN StartUps

Beeble 研究者による新しいフレームワークは、AI を使用してデジタルポートレートにリアルな輝きをもたらすことを約束します