著者:
(1)ケダン・リー、イリノイ大学アーバナ・シャンペーン校
(2)ミン・ジン・チョン、イリノイ大学アーバナ・シャンペーン校
(3)Jingen Liu、JD AI Research;
(4)デイビッド・フォーサイス、イリノイ大学アーバナ・シャンペーン校
仮想試着法では、製品画像とモデル画像を取得し、モデルが製品を着用した画像を生成します。ほとんどの方法は、基本的に製品画像からモデル画像への歪みを計算し、画像生成方法を使用して組み合わせます。ただし、衣服の運動学は複雑であり、画像内のアウトライン、テクスチャ、およびシェーディングの手がかりが人間の視聴者にエラーを明らかにするため、リアルな画像を取得することは困難です。衣服には適切なドレープが必要です。テクスチャはドレープされた衣服の形状と一致するように歪んでいる必要があります。小さなディテール (ボタン、襟、ラペル、ポケットなど) は衣服に適切に配置する必要があります。評価は特に難しく、通常は定性的です。
この論文では、新しいデータセットで定量評価を行い、(a) どのようなワーピング方法でも、ターゲット モデルを自動的に選択して結果を改善できること、(b) 複数の調整された特殊ワーパーを学習することで結果がさらに改善されることを実証しています。ターゲット モデルは、モデルが着用している製品の表現を予測する学習済み埋め込み手順によって選択されます。この予測は、製品をモデルに一致させるために使用されます。特殊ワーパーは、最初のワーパーがうまく機能しない場所で 2 番目のワーパーがうまく機能するように促す方法でトレーニングされます。次に、U-Net を使用してワープが結合されます。定性的評価により、これらの改善がアウトライン、テクスチャ シェーディング、衣服の詳細全体にわたって効果的であることが確認されています。
キーワード:ファッション、バーチャル試着、画像生成、画像ワーピング
電子商取引では商品を試着することができず、ファッション消費者にとっては困難である [44]。現在ではモデルが商品を着用した写真撮影が定期的にサイトに掲載されているが、量と売上高を考えると、そうすることは非常に高価で時間がかかる [34]。ファッションモデルがさまざまな衣服を着用したリアルで正確な画像を生成する必要がある。姿勢の3Dモデルを使用することもできる [8,14]。代替案、つまり3D測定なしで商品モデルの画像を合成する [17,45,39,11,15] は、バーチャル試着として知られている。これらの方法は通常、2つのコンポーネントで構成される。1) 商品を歪ませる空間変換器
1) モデルのポーズを推定して画像を生成するネットワーク、2) 粗く位置合わせされた歪んだ製品とモデル画像を組み合わせて、製品を着用したモデルのリアルな画像を生成する画像生成ネットワーク。
文献で強調されているように、T シャツのようなシンプルな衣服では転写がはるかに簡単です。一般的な衣服は (T シャツとは異なり) 前が開いていたり、ドレープが凝っていたり、襟や袖口のような形状の構造があったり、ボタンがあったりします。これらの効果は既存の方法に深刻な問題をもたらします (補足資料の例)。製品画像を使用してその衣服に適したモデル画像を選択すると、反りが大幅に改善されます (図 1)。
少なくとも部分的には、これは画像生成ネットワークのトレーニング方法の結果です。私たちは、製品と製品を着用したモデルのペア画像を使用してトレーニングします [17,45,53]。つまり、生成ネットワークは常にターゲット画像が製品に適切であると想定します(したがって、たとえば、ドレスを着たモデルにセーターを着せるようにはトレーニングされません、図 1)。別の方法としては、敵対的トレーニング [11,12,38,13,37] を使用することですが、このフレームワークでは特定の製品の詳細(たとえば、特定のスタイルのボタン、T シャツのデカール)を保持することは困難です。この困難に対処するために、高品質の転送をもたらす製品とモデルのペアを選択するための埋め込み空間を学習します(図 2)。埋め込みは、モデル画像内の衣服が製品画像内にあった場合にどのような形状になるかを予測することを学習します。次に、製品は同様の形状の衣服を着用したモデルとマッチングされます。モデルは通常多くの衣服を着用するため、空間注意ビジュアルエンコーダーを使用して衣服の各カテゴリ(トップス、ボトムス、アウターウェア、全身など)を解析し、それぞれを個別に埋め込みます。
衣服が開いている場合 (たとえば、ボタンを外したコート)、別の問題が発生します。この場合、ワープのターゲットには複数の接続されたコンポーネントがある可能性があります。ワーパーは、1 つの領域を適切にフィットさせ、もう 1 つの領域を適切にフィットさせない傾向があり、その結果、詳細がずれてしまいます (図 1 のボタン)。このようなエラーはトレーニング損失にはほとんど影響しないかもしれませんが、非常に明白であり、実際のユーザーからは深刻な問題と見なされます。複数の調整された特殊なワープを使用すると、ワーピングの量的および質的な大幅な改善が得られることを示しています。ワーパーは、互いに調整するようにトレーニングされた複数のワープを生成します。インペインティング ネットワークは、ワープとマスクされたモデルを組み合わせて、合成画像を作成します。インペインティング ネットワークは基本的に、ワープ間の選択を学習しますが、ワーパーが共同でトレーニングされるため、ワーパーにガイダンスも提供します。定性的な評価により、改善の重要な部分は、ボタン、ポケット、ラベルなどの予測の改善によるものであることが確認されました。
バーチャル試着の大規模な定量的評価を示します。ファッションの電子商取引サイトをマイニングして、422,756組の製品画像とスタジオ写真の新しいデータセットを収集しました。データセットには複数の製品カテゴリが含まれています。確立されたVITONデータセット[17]に関する以前の研究と定量的および定性的に比較します。定量的な結果によると、形状埋め込みを使用して製品モデルのペアを選択すると、すべての画像生成パイプラインが大幅に改善されます (表4.3)。複数のワープを使用すると、定量的 (表4.3、図5) および定性的 (図7) 結果の両方で、単一のワープのベースラインよりも一貫してパフォーマンスが優れています。以前の研究と定性的に比較すると、システムは変更対象の衣服とターゲットモデルの両方の詳細を以前の研究よりも正確に保持することがわかります。eコマースで実際のモデルを合成モデルに置き換えるコストをシミュレートするユーザー調査を実施しました。結果は、合成モデルの40%が実際のモデルであると考えられることを示しています。
私たちの貢献を要約すると次のようになります。
– どのようなワーパーを使用しても、仮想試着の質的および量的改善を大幅に実現するマッチング手順を導入します。
– 複数の協調ワープを学習し、すべてのテスト セットで一貫してベースラインを上回るパフォーマンスを発揮するワーピング モデルを導入します。
– 私たちが生成した結果は、合成画像の一部が本物であると買い物客が思うほど、詳細を正確かつリアルに保存します。
この論文は、CC BY-NC-SA 4.0 DEED ライセンスの下でarxiv で公開されています。