著者:
(1)ケダン・リー、イリノイ大学アーバナ・シャンペーン校
(2)ミン・ジン・チョン、イリノイ大学アーバナ・シャンペーン校
(3)Jingen Liu、JD AI Research;
(4)デイビッド・フォーサイス、イリノイ大学アーバナ・シャンペーン校
VITONデータセット[17]には、商品画像(正面、平置き、白背景)とスタジオ画像のペア、2Dポーズマップとポーズキーポイントが含まれています。これは多くの研究で使用されています[45,11,15,53,24,22,2,37]。マルチポーズマッチングに関するいくつかの研究[47,15,13,51]では、DeepFashion[33]やMVC[32]、およびその他の自己収集データセット[12,21,47,55]が使用されています。これらのデータセットには、複数の人が着用した同じ商品が含まれていますが、商品画像がないため、私たちのタスクには適していません。
VITONデータセットにはトップスしかありません。これは、たとえば、ズボンのドレープはトップスのドレープとは異なり、一部の衣服(ローブ、ジャケットなど)はジッパーが開いており、ゆがみの問題が発生するため、パフォーマンスが高くなる傾向があります。スカートのドレープは非常に変わりやすく、プリーツや生地の方向などの詳細によって異なります。これらの現実の問題を強調するために、ファッションeコマースサイトのWebスクレイピングを通じて、422,756のファッション製品の新しいデータセットを収集しました。各製品には、製品画像(正面図、平置き、白背景)、モデル画像(1人の人物、ほとんどが正面図)、およびその他のメタデータが含まれています。靴とアクセサリーを除くすべてのカテゴリを使用し、4つのタイプ(トップス、ボトムス、アウターウェア、または全身)にグループ化します。タイプの詳細は補足資料に記載されています。
データをランダムに80%に分割し、トレーニング用に20%をテスト用に割り当てます。データセットにはセグメンテーションアノテーションが付属していないため、モデル画像のセグメンテーションマスクを取得するために、ModaNetデータセット[56]で事前トレーニングされたDeeplab v3 [6]を使用します。セグメンテーションマスクの大部分はノイズが多く、さらに難易度が高くなります(補足資料を参照)。
先行研究との比較を容易にするために、新たに収集したデータセットとVITONデータセット[17]でモデルをトレーニングします。VITONデータセットでこの方法をトレーニングする際、セグメンテーションマスクを取得するために、製品に対応する2Dポーズマップの部分のみを抽出し、残りは破棄します。トレーニング手順の詳細は補足資料に記載されています。
また、私たちのデータセットで先行研究のトレーニングも試みました。しかし、先行研究[45,17,11,15,53,24,22,13,47,51,7,37]ではポーズ推定の注釈が必要であり、私たちのデータセットでは利用できません。そのため、VITONデータセットでの先行研究とのみ比較します。
最先端技術との定量的な比較は困難です。他の論文でFIDを報告しても意味がありません。なぜなら、その値には偏りがあり、その偏りは使用するネットワークのパラメータに依存するからです[9,37]。私たちは偏りのないFID∞スコアを使用します。他のほとんどの手法では結果が発表されていないためFID∞を計算することはできません。実際、最近の手法(例[15,53,24,24,42,22,2])では実装が発表されていません。CP-VTON[45]では発表されており、これを比較対象として使用しています。
評価のほとんどは定性的であり、他の研究者 [24,37] も、わずか 2,032 の合成ペアで構成される VITON の元のテスト セットで FID スコアを計算しました。データセットが小さいため、この FID スコアは意味がありません。計算から生じる分散は大きくなり、FID スコアに大きなバイアスが生じ、スコアが不正確になります。正確な比較を確実にするために、元の研究 [17] の手順に従って、ランダム マッチングによって合成された 50,000 ペアのより大きなテスト セットを作成しました。元のテスト セットのすべての項目について、形状埋め込み空間で上位 25 の最近傍を選択することで、形状マッチング モデルを使用して新しいテスト セットを作成しました。カラー画像とグレースケール画像を使用して、それぞれ 50,000 ペアの 2 つのデータセットを作成し、形状埋め込みを計算しました。グレースケールのアブレーションにより、形状埋め込みがカラーの特徴を参照するかどうかがわかります。
ワープの数は、データセットのテスト セットで異なる k を持つワーパーを使用して L1 エラーと知覚エラー (ImageNet で事前トレーニングされた VGG19 を使用) を計算することによって選択されます。ここで、ワーパーは、製品をその製品を着用したモデルにマッピングすることによって評価されます。図 5 に示すように、k = 2 は一貫して k = 1 よりも優れています。ただし、2 つ以上のワープがあると、現在のトレーニング構成を使用してパフォーマンスが低下する可能性があります。これは、過剰適合が原因である可能性があります。
データセットの 10% を使用して、異なる β 値を持つ単一のワープ モデルをトレーニングし、テストで評価することで β を選択します。表 1 は、β が大きすぎたり小さすぎたりするとパフォーマンスが低下することを示しています。β = 3 が最適であるため、これを採用します。質的な比較は補足資料で入手できます。
このデータを使用して、CP-VTON、単一のワープ (k = 1)、2 つのワープ (k = 2)、および 2 つのワープのブレンドを使用する方法を比較できます。ブレンド モデルは、連結ではなく 2 つのワープの平均を取り入れます。結果は表 4.3 に示されています。次のことがわかります。
– すべての方法で、モデルを選択するとより良い結果が得られます。
– カラーとグレースケールのマッチングを選択する余地はほとんどないため、マッチングは主に衣服の形状に重点が置かれます。
– 整経機が 1 台あるよりも 2 台あるほうがよい。
– u-net と組み合わせる方がブレンドするよりもはるかに優れています。
定量的な測定は比較的粗いため、定量的な結果ではより多くの整経機を使用することによる改善が過小評価されていると私たちは考えています。定性的な証拠がこれを裏付けています (図 7)。
我々は[15,24,53,37]で一致する例を注意深く探し、定性的な比較を行った。MG-VTON [12]との比較は、この研究には固定ポーズの定性的な例が含まれていなかったため、適用できない。我々のモデルは2Dポーズマップ内の衣服に対応する領域のみを使用してトレーニングおよびテストを行うのに対し、先行研究では完全な2Dポーズマップとキーポイントポーズ注釈を使用しているため、比較は先行研究に有利である点に注意する必要がある。
一般的に、衣服の転写は難しいですが、現代の方法では主に細部の転写に失敗します。つまり、転写を評価するには細部に注意を払う必要があります。図 6 にいくつかの比較を示します。特に、境界、テクスチャ、衣服の細部の周りの画像の詳細に注意を払うと、タスクの難しさが明らかになります。図 6 の左側に示すように、私たちの方法は複雑なテクスチャを堅牢に処理し (列 a、c)、ロゴの細部を正確に保存できます (列 b、e、f、g、i)。また、例では、私たちのインペインティングベースの方法と以前の研究との明確な違いも示されています。私たちの方法は、元の布が残っている領域のみを変更します。
提示された。この特性により、手足 (列 a、d、f、g、h、j) とその他の衣服アイテム (列 a、b) の詳細を、ほとんどの先行研究よりも良好に保持できます。結果の一部 (列 c、g) では、ポーズ マップのエッジがわずかにずれているため (不完全なセグメンテーション マスク)、境界に元の布の色のアーティファクトが見られます。これは、私たちの方法が高品質の結果を生成するために細粒度のセグメンテーション マスクに依存していることを示しています。一部のペアは、形状がわずかに不一致です (列 d、h)。テスト セットが形状埋め込みを使用して構築されている場合、これは私たちの方法ではほとんど発生しません。したがって、私たちの方法ではこれに対処しようとしません。
2 本の縦糸は 1 本よりも明らかに優れています (図 7)。これは、2 本目の縦糸が、1 本の縦糸モデルでは対応できない位置合わせや詳細を修正できるためと考えられます。特に、ボタンやジッパーを外したアウターウェアや、タグ付きの製品画像では改善が見られます。ピクセル値の差が小さいため、これらの改善は定量評価では簡単には捉えられない可能性があります。
我々は、先行研究[17,45,11]で頻繁に採用されているように、幾何学的マッチングモジュール(TPS変換を使用)をトレーニングしてデータセットにワープを作成しようとしました。しかし、TPS変換はパーティションや大きな遮蔽に適応できませんでした(補足資料の例)。
ユーザー調査を使用して、ユーザーが合成画像を識別できる頻度を調べました。ユーザーには、製品を着用したモデルの画像 (表示) が本物か合成かが尋ねられます。ディスプレイは、図 8 に示すように、可能な限り最高の解像度 (512x512) を使用します。
マスクが良好な例を使用し、結果の上位20パーセントを公平に表しました。ユーザーは、調査前に本物と偽物の2組のマスクを準備します。その後、各参加者は、25組の本物と偽物のマスクを50組使用してテストされます。
25 個の偽物、重複製品なし。2 つのユーザー グループ (視覚研究者とランダムに選択された参加者) をテストします。
ほとんどの場合、ユーザーは私たちの画像に騙されます。偽陽性率(つまり、ユーザーが合成画像を本物とマークする率)が非常に高いのです(表 3)。図 8 は、一般人口の 70% が本物であると報告した合成画像の例を 2 つ示しています。これらは、領域分割と複雑なシェーディングが施されたハードアウターウェアの例です。それでも、私たちの方法は高品質の合成画像を生成することに成功しました。ユーザー調査のすべての質問と完全な結果については、補足資料を参照してください。
この論文は、CC BY-NC-SA 4.0 DEED ライセンスの下でarxiv で公開されています。