183 रीडिंग

आकार मिलान के माध्यम से सटीक, यथार्थवादी आभासी ट्राई-ऑन की ओर: प्रयोग

द्वारा Polyframe Peer Reviewed Publication8m2024/06/08

बहुत लंबा; पढ़ने के लिए

शोधकर्ताओं ने लक्ष्य मॉडल चुनने और विशेषीकृत वॉरपर्स को प्रशिक्षित करने के लिए नए डेटासेट का उपयोग करके वर्चुअल ट्राई-ऑन विधियों में सुधार किया है, जिससे यथार्थवाद और सटीकता में वृद्धि हुई है।

featured image - आकार मिलान के माध्यम से सटीक, यथार्थवादी आभासी ट्राई-ऑन की ओर: प्रयोग

लेखक:

(1) केदान ली, इलिनोइस विश्वविद्यालय, अर्बाना-शैंपेन;

(2) मिन जिन चोंग, इलिनोइस विश्वविद्यालय, अर्बाना-शैंपेन;

(3) जिंगेन लियू, जेडी एआई रिसर्च;

(4) डेविड फोर्सिथ, इलिनोइस विश्वविद्यालय, अर्बाना-शैंपेन।

लिंक की तालिका

4. प्रयोग

4.1 डेटासेट

VITON डेटासेट [17] में उत्पाद छवि (फ्रंट-व्यू, फ्लैट रखना, सफेद पृष्ठभूमि) और स्टूडियो छवियों, 2D पोज़ मैप्स और पोज़ की-पॉइंट्स के जोड़े शामिल हैं। इसका उपयोग कई कार्यों [45,11,15,53,24,22,2,37] द्वारा किया गया है। मल्टी-पोज़ मैचिंग पर कुछ कार्यों [47,15,13,51] में डीपफ़ैशन [33] या एमवीसी [32] और अन्य स्व-संग्रहित डेटासेट [12,21,47,55] का उपयोग किया गया। इन डेटासेट में कई लोगों द्वारा पहना जाने वाला एक ही उत्पाद है, लेकिन इसमें उत्पाद की छवि नहीं है, इसलिए यह हमारे कार्य के लिए उपयुक्त नहीं है।

VITON डेटासेट में केवल टॉप्स हैं। यह संभवतः प्रदर्शन को पक्षपाती बनाता है, क्योंकि (उदाहरण के लिए): ट्राउजर का ड्रेप टॉप के ड्रेप से अलग होता है; कुछ वस्त्र (रोब, जैकेट, आदि) अक्सर अनज़िप और खुले होते हैं, जिससे वे मुड़ने की समस्या पैदा करते हैं; स्कर्ट का ड्रेप अत्यधिक परिवर्तनशील होता है, और यह प्लीटिंग, कपड़े के दाने के अभिविन्यास आदि जैसे विवरणों पर निर्भर करता है। इन वास्तविक दुनिया की समस्याओं पर जोर देने के लिए, हमने वेब-स्क्रैपिंग फैशन ई-कॉमर्स साइटों के माध्यम से 422,756 फैशन उत्पादों का एक नया डेटासेट एकत्र किया। प्रत्येक उत्पाद में एक उत्पाद छवि (सामने का दृश्य, सपाट रखना, सफेद पृष्ठभूमि), एक मॉडल छवि (एकल व्यक्ति, ज्यादातर सामने का दृश्य), और अन्य मेटाडेटा होता है। हम जूते और सहायक उपकरण को छोड़कर सभी श्रेणियों का उपयोग करते हैं, और उन्हें चार प्रकारों (टॉप, बॉटम्स, आउटरवियर, या ऑल-बॉडी) में समूहित करते हैं। प्रकार का विवरण पूरक सामग्रियों में दिखाई देता है।

हमने डेटा को प्रशिक्षण के लिए 80% और परीक्षण के लिए 20% में बेतरतीब ढंग से विभाजित किया। चूँकि डेटासेट सेगमेंटेशन एनोटेशन के साथ नहीं आता है, इसलिए हम मॉडल इमेज के लिए सेगमेंटेशन मास्क प्राप्त करने के लिए मोडानेट डेटासेट [56] पर प्री-ट्रेन्ड डीपलैब v3 [6] का उपयोग करते हैं। सेगमेंटेशन मास्क का एक बड़ा हिस्सा शोरगुल वाला होता है, जो कठिनाई को और बढ़ा देता है (पूरक सामग्री देखें)।

4.2 प्रशिक्षण प्रक्रिया

हम अपने मॉडल को अपने नए संग्रहित डेटासेट और VITON डेटासेट [17] पर प्रशिक्षित करते हैं ताकि पिछले काम के साथ तुलना करना आसान हो सके। VITON डेटासेट पर अपने तरीके को प्रशिक्षित करते समय, हम 2D पोज़ मैप के केवल उस हिस्से को निकालते हैं जो सेगमेंटेशन मास्क प्राप्त करने के लिए उत्पाद से मेल खाता है, और बाकी को छोड़ देते हैं। प्रशिक्षण प्रक्रिया का विवरण पूरक सामग्री में है।

हमने अपने डेटासेट पर पिछले कामों को प्रशिक्षित करने का भी प्रयास किया। हालाँकि, पिछले काम [45,17,11,15,53,24,22,13,47,51,7,37] के लिए पोज़ अनुमान एनोटेशन की आवश्यकता होती है जो हमारे डेटासेट में उपलब्ध नहीं है। इसलिए, हम केवल VITON डेटासेट पर पिछले काम के साथ तुलना करते हैं।

4.3 मात्रात्मक मूल्यांकन

अत्याधुनिक तकनीक के साथ मात्रात्मक तुलना करना मुश्किल है। अन्य शोधपत्रों में FID की रिपोर्ट करना अर्थहीन है, क्योंकि मूल्य पक्षपाती है और पूर्वाग्रह इस्तेमाल किए गए नेटवर्क के मापदंडों पर निर्भर करता है [9,37]। हम FID∞ स्कोर का उपयोग करते हैं, जो निष्पक्ष है। हम अधिकांश अन्य विधियों के लिए FID∞ की गणना नहीं कर सकते, क्योंकि परिणाम जारी नहीं किए गए हैं; वास्तव में, हाल की विधियों (जैसे [15,53,24,24,42,22,2]) ने कार्यान्वयन जारी नहीं किया है। CP-VTON [45] ने किया है, और हम इसे तुलना के बिंदु के रूप में उपयोग करते हैं।

अधिकांश मूल्यांकन गुणात्मक हैं, और अन्य [24,37] ने VITON के मूल परीक्षण सेट पर FID स्कोर की गणना भी की, जिसमें केवल 2,032 संश्लेषित जोड़े शामिल हैं। छोटे डेटासेट के कारण, यह FID स्कोर सार्थक नहीं है। गणना से उत्पन्न होने वाला विचरण अधिक होगा जो FID स्कोर में एक बड़े पूर्वाग्रह की ओर ले जाता है, जिससे यह गलत हो जाता है। सटीक तुलना सुनिश्चित करने के लिए, हमने मूल कार्य [17] की प्रक्रिया का पालन करते हुए, यादृच्छिक मिलान के माध्यम से संश्लेषित 50,000 जोड़ों का एक बड़ा परीक्षण सेट बनाया। हमने मूल परीक्षण सेट में प्रत्येक आइटम के लिए आकार एम्बेडिंग स्थान में शीर्ष 25 निकटतम पड़ोसियों का चयन करके हमारे आकार मिलान मॉडल का उपयोग करके नए परीक्षण सेट बनाए।

हमारे डेटासेट के परीक्षण सेट पर अलग-अलग k वाले वॉरपर का उपयोग करके L1 त्रुटि और अवधारणात्मक त्रुटि (इमेजनेट पर पूर्व-प्रशिक्षित VGG19 का उपयोग करके) की गणना करके वॉरपर की संख्या चुनी जाती है। यहाँ वॉरपर का मूल्यांकन उस उत्पाद को पहनने वाले मॉडल पर उत्पाद को मैप करके किया जाता है। जैसा कि चित्र 5 में दिखाया गया है, k = 2 लगातार k = 1 से बेहतर प्रदर्शन करता है। हालाँकि, दो से अधिक वॉरप होने से वर्तमान प्रशिक्षण कॉन्फ़िगरेशन का उपयोग करते हुए प्रदर्शन भी कम हो जाता है, संभवतः ओवरफ़िटिंग के कारण।

हम 10% डेटासेट का उपयोग करके अलग-अलग β मानों के साथ एक एकल वार्प मॉडल को प्रशिक्षित करके β चुनते हैं, फिर परीक्षण पर मूल्यांकन करते हैं। तालिका 1 से पता चलता है कि β जो बहुत बड़ा है या दो छोटे हैं, प्रदर्शन में गिरावट का कारण बनते हैं। β = 3 सबसे अच्छा होता है, और इसलिए इसे अपनाया जाता है। गुणात्मक तुलना पूरक सामग्रियों में उपलब्ध है।

इस डेटा के साथ, हम CP-VTON की तुलना कर सकते हैं, हमारी विधि एक सिंगल वॉर्प (k = 1), और दो वॉर्प (k = 2), और दो वॉर्प मिश्रित का उपयोग करती है। मिश्रित मॉडल संयोजन के बजाय दो वॉर्प का औसत लेता है। परिणाम तालिका 4.3 में दिखाई देते हैं। हम पाते हैं:

- सभी विधियों के लिए, मॉडल चुनने से बेहतर परिणाम मिलते हैं;

- रंग और ग्रेस्केल मिलान के बीच चुनने के लिए बहुत कम है, इसलिए मिलान मुख्य रूप से परिधान के आकार पर निर्भर करता है;

- एक से दो वॉर्पर होना बेहतर है;

- यू-नेट के साथ संयोजन करना, सम्मिश्रण से कहीं बेहतर है।

हमारा मानना है कि मात्रात्मक परिणाम अधिक वॉरपर्स के उपयोग से होने वाले सुधार को कम करके आंकते हैं, क्योंकि मात्रात्मक माप अपेक्षाकृत अपरिष्कृत है। गुणात्मक साक्ष्य इसका समर्थन करते हैं (चित्र 7)।

4.4 गुणात्मक परिणाम

हमने गुणात्मक तुलना करने के लिए [15,24,53,37] में मिलान के उदाहरणों को ध्यान से देखा है। MG-VTON [12] के विरुद्ध तुलना लागू नहीं है, क्योंकि कार्य में कोई निश्चित-मुद्रा गुणात्मक उदाहरण शामिल नहीं था। ध्यान दें कि तुलना पिछले कार्य का पक्ष लेती है क्योंकि हमारा मॉडल केवल 2D पोज़ मैप में परिधान के अनुरूप क्षेत्र का उपयोग करके प्रशिक्षण और परीक्षण करता है जबकि पिछला कार्य पूर्ण 2D पोज़ मैप और की-पॉइंट पोज़ एनोटेशन का उपयोग करता है।

आम तौर पर, परिधान स्थानांतरण कठिन होता है, लेकिन आधुनिक विधियाँ अब मुख्य रूप से विवरणों पर विफल हो जाती हैं। इसका मतलब है कि स्थानांतरण का मूल्यांकन करने के लिए विवरणों पर सावधानीपूर्वक ध्यान देने की आवश्यकता होती है। चित्र 6 कुछ तुलनाएँ दिखाता है। विशेष रूप से, सीमाओं, बनावट और परिधान विवरणों के आसपास छवि विवरण पर ध्यान देने से कार्य में कुछ कठिनाइयाँ सामने आती हैं। जैसा कि चित्र 6 में बाईं ओर दिखाया गया है, हमारी विधि जटिल बनावट को मज़बूती से संभाल सकती है (कॉलम ए, सी) और लोगो के विवरणों को सटीक रूप से संरक्षित कर सकती है (कॉलम बी, ई, एफ, जी, आई)। उदाहरण हमारे इनपेंटिंग-आधारित विधि और पिछले काम के बीच स्पष्ट अंतर भी दिखाते हैं - हमारी विधि केवल उस क्षेत्र को संशोधित करती है जहाँ मूल कपड़ा है

प्रस्तुत किया गया। यह गुण हमें अंग (कॉलम ए, डी, एफ, जी, एच, जे) और अन्य कपड़ों की वस्तुओं (कॉलम ए, बी) के विवरण को अधिकांश पिछले कामों से बेहतर तरीके से संरक्षित करने की अनुमति देता है। हमारे कुछ परिणाम (कॉलम सी, जी) सीमा पर मूल कपड़े से रंग कलाकृतियाँ दिखाते हैं, क्योंकि पोज़ मैप का किनारा थोड़ा गलत तरीके से संरेखित है (अपूर्ण विभाजन मास्क)। यह पुष्टि करता है कि हमारी विधि उच्च गुणवत्ता वाले परिणाम का उत्पादन करने के लिए बारीक-अनाज विभाजन मास्क पर निर्भर करती है। कुछ जोड़े आकार में थोड़े बेमेल हैं (कॉलम डी, एच)। यदि परीक्षण सेट का निर्माण आकार एम्बेडिंग का उपयोग करके किया जाता है, तो यह हमारी विधि के साथ शायद ही कभी होगा। इसलिए, हमारी विधि इसे संबोधित करने का प्रयास नहीं करती है।

दो ताने एक से बहुत स्पष्ट रूप से बेहतर हैं (चित्र 7), संभवतः इसलिए क्योंकि दूसरा ताना संरेखण और विवरण को ठीक कर सकता है जिसे एकल ताना मॉडल संबोधित करने में विफल रहता है। विशेष सुधार अनबटन/अनज़िप्ड आउटरवियर और टैग वाले उत्पाद छवियों के लिए होते हैं। इन सुधारों को मात्रात्मक मूल्यांकन द्वारा आसानी से कैप्चर नहीं किया जा सकता है क्योंकि पिक्सेल मानों में अंतर छोटा है।

हमने अपने डेटासेट पर वॉर्प बनाने के लिए ज्यामितीय मिलान मॉड्यूल (टीपीएस ट्रांसफ़ॉर्म का उपयोग करके) को प्रशिक्षित करने का प्रयास किया, क्योंकि इसे अक्सर पिछले काम [17,45,11] द्वारा अपनाया गया था। हालाँकि, टीपीएस ट्रांसफ़ॉर्म विभाजन और महत्वपूर्ण अवरोधों (पूरक सामग्रियों में उदाहरण) के अनुकूल होने में विफल रहा।

4.5 उपयोगकर्ता अध्ययन

हमने यह जांचने के लिए एक उपयोगकर्ता अध्ययन का उपयोग किया कि उपयोगकर्ता कितनी बार संश्लेषित छवियों की पहचान कर सकते हैं। उपयोगकर्ता से पूछा जाता है कि क्या उत्पाद पहने हुए मॉडल की छवि (जो दिखाई गई है) वास्तविक है या संश्लेषित है। डिस्प्ले उच्चतम संभव रिज़ॉल्यूशन (512x512) का उपयोग करता है, जैसा कि चित्र 8 में दिखाया गया है।

हमने ऐसे उदाहरणों का इस्तेमाल किया जहां मास्क अच्छा है, जो हमारे परिणामों के शीर्ष 20 प्रतिशत का उचित प्रतिनिधित्व देता है। अध्ययन से पहले उपयोगकर्ताओं को दो असली बनाम नकली जोड़ों के साथ तैयार किया जाता है। फिर प्रत्येक प्रतिभागी को 25 असली और नकली के 50 जोड़ों के साथ परीक्षण किया जाता है।

25 नकली, बिना दोहराए उत्पाद। हम उपयोगकर्ताओं की दो आबादी (दृष्टि शोधकर्ताओं, और यादृच्छिक रूप से चयनित प्रतिभागियों) का परीक्षण करते हैं।

ज़्यादातर, उपयोगकर्ता हमारी छवियों से मूर्ख बन जाते हैं; बहुत ज़्यादा झूठी-सकारात्मक (यानी संश्लेषित छवि को उपयोगकर्ता द्वारा वास्तविक के रूप में चिह्नित किया जाना) दर है (तालिका 3)। चित्र 8 में संश्लेषित छवियों के दो उदाहरण दिखाए गए हैं जिन्हें 70% सामान्य आबादी ने वास्तविक बताया है। वे क्षेत्र विभाजन और जटिल छायांकन के साथ कठोर बाहरी वस्त्र उदाहरण हैं। फिर भी, हमारी विधि उच्च गुणवत्ता वाले संश्लेषण उत्पन्न करने में कामयाब रही। सभी प्रश्नों और उपयोगकर्ता अध्ययन के पूर्ण परिणामों के लिए पूरक सामग्री देखें।