paint-brush
形状マッチングによる正確でリアルなバーチャル試着に向けて:実験@polyframe
165 測定値

形状マッチングによる正確でリアルなバーチャル試着に向けて:実験

長すぎる; 読むには

研究者たちは、新しいデータセットを使用してターゲットモデルを選択し、専門のワーパーを訓練することで仮想試着方法を改善し、リアリティと精度を高めています。
featured image - 形状マッチングによる正確でリアルなバーチャル試着に向けて:実験
Polyframe Peer Reviewed Publication HackerNoon profile picture
0-item

著者:

(1)ケダン・リー、イリノイ大学アーバナ・シャンペーン校

(2)ミン・ジン・チョン、イリノイ大学アーバナ・シャンペーン校

(3)Jingen Liu、JD AI Research;

(4)デイビッド・フォーサイス、イリノイ大学アーバナ・シャンペーン校

リンク一覧

4. 実験

4.1 データセット

VITONデータセット[17]には、商品画像(正面、平置き、白背景)とスタジオ画像のペア、2Dポーズマップとポーズキーポイントが含まれています。これは多くの研究で使用されています[45,11,15,53,24,22,2,37]。マルチポーズマッチングに関するいくつかの研究[47,15,13,51]では、DeepFashion[33]やMVC[32]、およびその他の自己収集データセット[12,21,47,55]が使用されています。これらのデータセットには、複数の人が着用した同じ商品が含まれていますが、商品画像がないため、私たちのタスクには適していません。


VITONデータセットにはトップスしかありません。これは、たとえば、ズボンのドレープはトップスのドレープとは異なり、一部の衣服(ローブ、ジャケットなど)はジッパーが開いており、ゆがみの問題が発生するため、パフォーマンスが高くなる傾向があります。スカートのドレープは非常に変わりやすく、プリーツや生地の方向などの詳細によって異なります。これらの現実の問題を強調するために、ファッションeコマースサイトのWebスクレイピングを通じて、422,756のファッション製品の新しいデータセットを収集しました。各製品には、製品画像(正面図、平置き、白背景)、モデル画像(1人の人物、ほとんどが正面図)、およびその他のメタデータが含まれています。靴とアクセサリーを除くすべてのカテゴリを使用し、4つのタイプ(トップス、ボトムス、アウターウェア、または全身)にグループ化します。タイプの詳細は補足資料に記載されています。


データをランダムに80%に分割し、トレーニング用に20%をテスト用に割り当てます。データセットにはセグメンテーションアノテーションが付属していないため、モデル画像のセグメンテーションマスクを取得するために、ModaNetデータセット[56]で事前トレーニングされたDeeplab v3 [6]を使用します。セグメンテーションマスクの大部分はノイズが多く、さらに難易度が高くなります(補足資料を参照)。

4.2 トレーニングプロセス

先行研究との比較を容易にするために、新たに収集したデータセットとVITONデータセット[17]でモデルをトレーニングします。VITONデータセットでこの方法をトレーニングする際、セグメンテーションマスクを取得するために、製品に対応する2Dポーズマップの部分のみを抽出し、残りは破棄します。トレーニング手順の詳細は補足資料に記載されています。


また、私たちのデータセットで先行研究のトレーニングも試みました。しかし、先行研究[45,17,11,15,53,24,22,13,47,51,7,37]ではポーズ推定の注釈が必要であり、私たちのデータセットでは利用できません。そのため、VITONデータセットでの先行研究とのみ比較します。

4.3 定量評価

最先端技術との定量的な比較は困難です。他の論文でFIDを報告しても意味がありません。なぜなら、その値には偏りがあり、その偏りは使用するネットワークのパラメータに依存するからです[9,37]。私たちは偏りのないFID∞スコアを使用します。他のほとんどの手法では結果が発表されていないためFID∞を計算することはできません。実際、最近の手法(例[15,53,24,24,42,22,2])では実装が発表されていません。CP-VTON[45]では発表されており、これを比較対象として使用しています。


図 5. この図は、5 エポックごとに記録された 200 のトレーニング エポックにわたるテスト セットの L1 損失と知覚損失 (事前トレーニング済み VGG19) を比較したものです。k=2 は全体的に最も低いエラーを示します。大きな k を使用すると、初期段階ではトレーニングが高速化されますが、後半ではオーバーフィットが発生します。


評価のほとんどは定性的であり、他の研究者 [24,37] も、わずか 2,032 の合成ペアで構成される VITON の元のテスト セットで FID スコアを計算しました。データセットが小さいため、この FID スコアは意味がありません。計算から生じる分散は大きくなり、FID スコアに大きなバイアスが生じ、スコアが不正確になります。正確な比較を確実にするために、元の研究 [17] の手順に従って、ランダム マッチングによって合成された 50,000 ペアのより大きなテスト セットを作成しました。元のテスト セットのすべての項目について、形状埋め込み空間で上位 25 の最近傍を選択することで、形状マッチング モデルを使用して新しいテスト セットを作成しました。カラー画像とグレースケール画像を使用して、それぞれ 50,000 ペアの 2 つのデータセットを作成し、形状埋め込みを計算しました。グレースケールのアブレーションにより、形状埋め込みがカラーの特徴を参照するかどうかがわかります。


ワープの数は、データセットのテスト セットで異なる k を持つワーパーを使用して L1 エラーと知覚エラー (ImageNet で事前トレーニングされた VGG19 を使用) を計算することによって選択されます。ここで、ワーパーは、製品をその製品を着用したモデルにマッピングすることによって評価されます。図 5 に示すように、k = 2 は一貫して k = 1 よりも優れています。ただし、2 つ以上のワープがあると、現在のトレーニング構成を使用してパフォーマンスが低下する可能性があります。これは、過剰適合が原因である可能性があります。


データセットの 10% を使用して、異なる β 値を持つ単一のワープ モデルをトレーニングし、テストで評価することで β を選択します。表 1 は、β が大きすぎたり小さすぎたりするとパフォーマンスが低下することを示しています。β = 3 が最適であるため、これを採用します。質的な比較は補足資料で入手できます。



このデータを使用して、CP-VTON、単一のワープ (k = 1)、2 つのワープ (k = 2)、および 2 つのワープのブレンドを使用する方法を比較できます。ブレンド モデルは、連結ではなく 2 つのワープの平均を取り入れます。結果は表 4.3 に示されています。次のことがわかります。


– すべての方法で、モデルを選択するとより良い結果が得られます。


– カラーとグレースケールのマッチングを選択する余地はほとんどないため、マッチングは主に衣服の形状に重点が置かれます。


– 整経機が 1 台あるよりも 2 台あるほうがよい。


– u-net と組み合わせる方がブレンドするよりもはるかに優れています。


定量的な測定は比較的粗いため、定量的な結果ではより多くの整経機を使用することによる改善が過小評価されていると私たちは考えています。定性的な証拠がこれを裏付けています (図 7)。

4.4 定性的な結果

我々は[15,24,53,37]で一致する例を注意深く探し、定性的な比較を行った。MG-VTON [12]との比較は、この研究には固定ポーズの定性的な例が含まれていなかったため、適用できない。我々のモデルは2Dポーズマップ内の衣服に対応する領域のみを使用してトレーニングおよびテストを行うのに対し、先行研究では完全な2Dポーズマップとキーポイントポーズ注釈を使用しているため、比較は先行研究に有利である点に注意する必要がある。


一般的に、衣服の転写は難しいですが、現代の方法では主に細部の転写に失敗します。つまり、転写を評価するには細部に注意を払う必要があります。図 6 にいくつかの比較を示します。特に、境界、テクスチャ、衣服の細部の周りの画像の詳細に注意を払うと、タスクの難しさが明らかになります。図 6 の左側に示すように、私たちの方法は複雑なテクスチャを堅牢に処理し (列 a、c)、ロゴの細部を正確に保存できます (列 b、e、f、g、i)。また、例では、私たちのインペインティングベースの方法と以前の研究との明確な違いも示されています。私たちの方法は、元の布が残っている領域のみを変更します。


表 2。この表は、ランダム ペアとマッチング ペアについて、形状埋め込みネットワークを使用したさまざまな画像合成方法の FID∞ スコア (小さいほど良い) を比較したものです。列 1 のすべての値は、列 2 と 3 の値よりも大幅に大きく、互換性のあるペアを選択すると、当社の方法と CP-VTON のパフォーマンスが大幅に向上することを示しています。この改善は他の方法にも当てはまると考えていますが、他の方法はコードを公開していません。方法全体で、2 つのワーパーを使用する当社の方法は、すべてのテスト セットで以前の研究を大幅に上回っています。カラー マッチャーとグレースケール マッチャーのどちらを選ぶかはあまりなく、マッチング プロセスは衣服の形状に重点を置いていることが示唆されています (トレーニングされているとおり)。2 本のワープ (k = 2) を使用すると、1 本のワープ (k = 1) を使用する場合よりもわずかに改善されますが、これは、定量的な指標では改善を捉えるのが難しいためです。違いは定性的な例でより顕著です (図 7)。u-net を使用してワープを組み合わせることが重要です。単にブレンドすると、結果が悪くなります (最後の行)。


図 6. VITON データセットでの CP VTON、ClothFlow、VTNFP、SieveNet との比較。これらの手法用に公開された画像を使用しています。各ブロックは異なるデータセットを示しています。結果は 2 行目、比較手法の結果は 3 行目にあります。CP-VTON と私たちの手法の比較に注意してください。ネックラインが不明瞭 (b)、ストライプがエイリアシング (c)、転送が再スケーリング (b)、テクスチャがにじみ境界がぼやけ (a)、転送がぼやけ (b)。GarmentGAN と私たちの手法の比較に注意してください。手足の境界が壊れている (d)、腰の花のコントラストが失われている (d)、転送でエイリアシングがひどく発生している (e)。ClothFlow と私たちの手法の比較に注意してください。ストライプがエイリアシングされていない (f)、手がぼやけている (f、g)、解剖学的構造がぼやけている (鎖骨と首の腱、g)、転送が再スケーリングされている (g)。 VTNFP を私たちの方法と比較すると、テクスチャの詳細がずれていることがわかります (ネックラインや肩の花、h)。転送が壊れていることがわかります (i)。SieveNet を私たちの方法と比較すると、アウトラインがぼやけていることがわかります (j、k)。袖口がずれていることがわかります (k)。シェーディングが壊れていることがわかります (k の腕)。高解像度のカラーで表示すると最適です。


提示された。この特性により、手足 (列 a、d、f、g、h、j) とその他の衣服アイテム (列 a、b) の詳細を、ほとんどの先行研究よりも良好に保持できます。結果の一部 (列 c、g) では、ポーズ マップのエッジがわずかにずれているため (不完全なセグメンテーション マスク)、境界に元の布の色のアーティファクトが見られます。これは、私たちの方法が高品質の結果を生成するために細粒度のセグメンテーション マスクに依存していることを示しています。一部のペアは、形状がわずかに不一致です (列 d、h)。テスト セットが形状埋め込みを使用して構築されている場合、これは私たちの方法ではほとんど発生しません。したがって、私たちの方法ではこれに対処しようとしません。


2 本の縦糸は 1 本よりも明らかに優れています (図 7)。これは、2 本目の縦糸が、1 本の縦糸モデルでは対応できない位置合わせや詳細を修正できるためと考えられます。特に、ボタンやジッパーを外したアウターウェアや、タグ付きの製品画像では改善が見られます。ピクセル値の差が小さいため、これらの改善は定量評価では簡単には捉えられない可能性があります。


図 7. 図は、k = 2 と k = 1 の定性的な比較を示しています。注: 左側の単一の縦糸のボタンの位置が間違っているが、k = 2 では修正済み。中央左の単一の縦糸のポケットのサイズが間違っており、袖の境界に問題がある場合、k = 2 では修正済み。中央のボタンの位置がひどくずれており、ボタンの周囲がゆがんでいるが、k = 2 では修正済み。中央右の衣服ラベルの位置がずれている場合、k = 2 では修正済み。右側の衣服ラベルの位置がずれている場合も、k = 2 では修正済み。


我々は、先行研究[17,45,11]で頻繁に採用されているように、幾何学的マッチングモジュール(TPS変換を使用)をトレーニングしてデータセットにワープを作成しようとしました。しかし、TPS変換はパーティションや大きな遮蔽に適応できませんでした(補足資料の例)。

4.5 ユーザー調査

ユーザー調査を使用して、ユーザーが合成画像を識別できる頻度を調べました。ユーザーには、製品を着用したモデルの画像 (表示) が本物か合成かが尋ねられます。ディスプレイは、図 8 に示すように、可能な限り最高の解像度 (512x512) を使用します。


マスクが良好な例を使用し、結果の上位20パーセントを公平に表しました。ユーザーは、調査前に本物と偽物の2組のマスクを準備します。その後、各参加者は、25組の本物と偽物のマスクを50組使用してテストされます。


図 8. ユーザー調査の参加者の 70% が本物だと思った 2 つの合成画像。陰影、しわ、ジッパー、襟などに注目してください。


表 3. ユーザー調査の結果、参加者は本物の画像と合成画像を区別するのが非常に難しいことがわかりました。偽の画像の 51.6% と 61.5% は、それぞれ群衆と研究者によって本物であると考えられています。時折、本物の画像の一部も偽物であると考えられており、参加者が注意を払っていることを示しています。


25 個の偽物、重複製品なし。2 つのユーザー グループ (視覚研究者とランダムに選択された参加者) をテストします。


ほとんどの場合、ユーザーは私たちの画像に騙されます。偽陽性率(つまり、ユーザーが合成画像を本物とマークする率)が非常に高いのです(表 3)。図 8 は、一般人口の 70% が本物であると報告した合成画像の例を 2 つ示しています。これらは、領域分割と複雑なシェーディングが施されたハードアウターウェアの例です。それでも、私たちの方法は高品質の合成画像を生成することに成功しました。ユーザー調査のすべての質問と完全な結果については、補足資料を参照してください。


この論文は、CC BY-NC-SA 4.0 DEED ライセンスの下でarxiv で公開されています