paint-brush
आकार मिलान के माध्यम से सटीक, यथार्थवादी आभासी ट्राई-ऑन की ओर: प्रयोगद्वारा@polyframe
168 रीडिंग

आकार मिलान के माध्यम से सटीक, यथार्थवादी आभासी ट्राई-ऑन की ओर: प्रयोग

द्वारा Polyframe Peer Reviewed Publication8m2024/06/08
Read on Terminal Reader

बहुत लंबा; पढ़ने के लिए

शोधकर्ताओं ने लक्ष्य मॉडल चुनने और विशेषीकृत वॉरपर्स को प्रशिक्षित करने के लिए नए डेटासेट का उपयोग करके वर्चुअल ट्राई-ऑन विधियों में सुधार किया है, जिससे यथार्थवाद और सटीकता में वृद्धि हुई है।
featured image - आकार मिलान के माध्यम से सटीक, यथार्थवादी आभासी ट्राई-ऑन की ओर: प्रयोग
Polyframe Peer Reviewed Publication HackerNoon profile picture
0-item

लेखक:

(1) केदान ली, इलिनोइस विश्वविद्यालय, अर्बाना-शैंपेन;

(2) मिन जिन चोंग, इलिनोइस विश्वविद्यालय, अर्बाना-शैंपेन;

(3) जिंगेन लियू, जेडी एआई रिसर्च;

(4) डेविड फोर्सिथ, इलिनोइस विश्वविद्यालय, अर्बाना-शैंपेन।

लिंक की तालिका

4. प्रयोग

4.1 डेटासेट

VITON डेटासेट [17] में उत्पाद छवि (फ्रंट-व्यू, फ्लैट रखना, सफेद पृष्ठभूमि) और स्टूडियो छवियों, 2D पोज़ मैप्स और पोज़ की-पॉइंट्स के जोड़े शामिल हैं। इसका उपयोग कई कार्यों [45,11,15,53,24,22,2,37] द्वारा किया गया है। मल्टी-पोज़ मैचिंग पर कुछ कार्यों [47,15,13,51] में डीपफ़ैशन [33] या एमवीसी [32] और अन्य स्व-संग्रहित डेटासेट [12,21,47,55] का उपयोग किया गया। इन डेटासेट में कई लोगों द्वारा पहना जाने वाला एक ही उत्पाद है, लेकिन इसमें उत्पाद की छवि नहीं है, इसलिए यह हमारे कार्य के लिए उपयुक्त नहीं है।


VITON डेटासेट में केवल टॉप्स हैं। यह संभवतः प्रदर्शन को पक्षपाती बनाता है, क्योंकि (उदाहरण के लिए): ट्राउजर का ड्रेप टॉप के ड्रेप से अलग होता है; कुछ वस्त्र (रोब, जैकेट, आदि) अक्सर अनज़िप और खुले होते हैं, जिससे वे मुड़ने की समस्या पैदा करते हैं; स्कर्ट का ड्रेप अत्यधिक परिवर्तनशील होता है, और यह प्लीटिंग, कपड़े के दाने के अभिविन्यास आदि जैसे विवरणों पर निर्भर करता है। इन वास्तविक दुनिया की समस्याओं पर जोर देने के लिए, हमने वेब-स्क्रैपिंग फैशन ई-कॉमर्स साइटों के माध्यम से 422,756 फैशन उत्पादों का एक नया डेटासेट एकत्र किया। प्रत्येक उत्पाद में एक उत्पाद छवि (सामने का दृश्य, सपाट रखना, सफेद पृष्ठभूमि), एक मॉडल छवि (एकल व्यक्ति, ज्यादातर सामने का दृश्य), और अन्य मेटाडेटा होता है। हम जूते और सहायक उपकरण को छोड़कर सभी श्रेणियों का उपयोग करते हैं, और उन्हें चार प्रकारों (टॉप, बॉटम्स, आउटरवियर, या ऑल-बॉडी) में समूहित करते हैं। प्रकार का विवरण पूरक सामग्रियों में दिखाई देता है।


हमने डेटा को प्रशिक्षण के लिए 80% और परीक्षण के लिए 20% में बेतरतीब ढंग से विभाजित किया। चूँकि डेटासेट सेगमेंटेशन एनोटेशन के साथ नहीं आता है, इसलिए हम मॉडल इमेज के लिए सेगमेंटेशन मास्क प्राप्त करने के लिए मोडानेट डेटासेट [56] पर प्री-ट्रेन्ड डीपलैब v3 [6] का उपयोग करते हैं। सेगमेंटेशन मास्क का एक बड़ा हिस्सा शोरगुल वाला होता है, जो कठिनाई को और बढ़ा देता है (पूरक सामग्री देखें)।

4.2 प्रशिक्षण प्रक्रिया

हम अपने मॉडल को अपने नए संग्रहित डेटासेट और VITON डेटासेट [17] पर प्रशिक्षित करते हैं ताकि पिछले काम के साथ तुलना करना आसान हो सके। VITON डेटासेट पर अपने तरीके को प्रशिक्षित करते समय, हम 2D पोज़ मैप के केवल उस हिस्से को निकालते हैं जो सेगमेंटेशन मास्क प्राप्त करने के लिए उत्पाद से मेल खाता है, और बाकी को छोड़ देते हैं। प्रशिक्षण प्रक्रिया का विवरण पूरक सामग्री में है।


हमने अपने डेटासेट पर पिछले कामों को प्रशिक्षित करने का भी प्रयास किया। हालाँकि, पिछले काम [45,17,11,15,53,24,22,13,47,51,7,37] के लिए पोज़ अनुमान एनोटेशन की आवश्यकता होती है जो हमारे डेटासेट में उपलब्ध नहीं है। इसलिए, हम केवल VITON डेटासेट पर पिछले काम के साथ तुलना करते हैं।

4.3 मात्रात्मक मूल्यांकन

अत्याधुनिक तकनीक के साथ मात्रात्मक तुलना करना मुश्किल है। अन्य शोधपत्रों में FID की रिपोर्ट करना अर्थहीन है, क्योंकि मूल्य पक्षपाती है और पूर्वाग्रह इस्तेमाल किए गए नेटवर्क के मापदंडों पर निर्भर करता है [9,37]। हम FID∞ स्कोर का उपयोग करते हैं, जो निष्पक्ष है। हम अधिकांश अन्य विधियों के लिए FID∞ की गणना नहीं कर सकते, क्योंकि परिणाम जारी नहीं किए गए हैं; वास्तव में, हाल की विधियों (जैसे [15,53,24,24,42,22,2]) ने कार्यान्वयन जारी नहीं किया है। CP-VTON [45] ने किया है, और हम इसे तुलना के बिंदु के रूप में उपयोग करते हैं।


चित्र 5. यह चित्र 200 प्रशिक्षण युगों में परीक्षण सेट पर L1 हानि और अवधारणात्मक हानि (पूर्व-प्रशिक्षित VGG19) की तुलना करता है, जिसे हर 5 युग में दर्ज किया जाता है। k=2 में कुल मिलाकर सबसे कम त्रुटि है। बड़े k का उपयोग करने से शुरुआती चरण में प्रशिक्षण में तेज़ी आती है लेकिन बाद में ओवरफ़िट हो जाता है।


अधिकांश मूल्यांकन गुणात्मक हैं, और अन्य [24,37] ने VITON के मूल परीक्षण सेट पर FID स्कोर की गणना भी की, जिसमें केवल 2,032 संश्लेषित जोड़े शामिल हैं। छोटे डेटासेट के कारण, यह FID स्कोर सार्थक नहीं है। गणना से उत्पन्न होने वाला विचरण अधिक होगा जो FID स्कोर में एक बड़े पूर्वाग्रह की ओर ले जाता है, जिससे यह गलत हो जाता है। सटीक तुलना सुनिश्चित करने के लिए, हमने मूल कार्य [17] की प्रक्रिया का पालन करते हुए, यादृच्छिक मिलान के माध्यम से संश्लेषित 50,000 जोड़ों का एक बड़ा परीक्षण सेट बनाया। हमने मूल परीक्षण सेट में प्रत्येक आइटम के लिए आकार एम्बेडिंग स्थान में शीर्ष 25 निकटतम पड़ोसियों का चयन करके हमारे आकार मिलान मॉडल का उपयोग करके नए परीक्षण सेट बनाए।


हमारे डेटासेट के परीक्षण सेट पर अलग-अलग k वाले वॉरपर का उपयोग करके L1 त्रुटि और अवधारणात्मक त्रुटि (इमेजनेट पर पूर्व-प्रशिक्षित VGG19 का उपयोग करके) की गणना करके वॉरपर की संख्या चुनी जाती है। यहाँ वॉरपर का मूल्यांकन उस उत्पाद को पहनने वाले मॉडल पर उत्पाद को मैप करके किया जाता है। जैसा कि चित्र 5 में दिखाया गया है, k = 2 लगातार k = 1 से बेहतर प्रदर्शन करता है। हालाँकि, दो से अधिक वॉरप होने से वर्तमान प्रशिक्षण कॉन्फ़िगरेशन का उपयोग करते हुए प्रदर्शन भी कम हो जाता है, संभवतः ओवरफ़िटिंग के कारण।


हम 10% डेटासेट का उपयोग करके अलग-अलग β मानों के साथ एक एकल वार्प मॉडल को प्रशिक्षित करके β चुनते हैं, फिर परीक्षण पर मूल्यांकन करते हैं। तालिका 1 से पता चलता है कि β जो बहुत बड़ा है या दो छोटे हैं, प्रदर्शन में गिरावट का कारण बनते हैं। β = 3 सबसे अच्छा होता है, और इसलिए इसे अपनाया जाता है। गुणात्मक तुलना पूरक सामग्रियों में उपलब्ध है।



इस डेटा के साथ, हम CP-VTON की तुलना कर सकते हैं, हमारी विधि एक सिंगल वॉर्प (k = 1), और दो वॉर्प (k = 2), और दो वॉर्प मिश्रित का उपयोग करती है। मिश्रित मॉडल संयोजन के बजाय दो वॉर्प का औसत लेता है। परिणाम तालिका 4.3 में दिखाई देते हैं। हम पाते हैं:


- सभी विधियों के लिए, मॉडल चुनने से बेहतर परिणाम मिलते हैं;


- रंग और ग्रेस्केल मिलान के बीच चुनने के लिए बहुत कम है, इसलिए मिलान मुख्य रूप से परिधान के आकार पर निर्भर करता है;


- एक से दो वॉर्पर होना बेहतर है;


- यू-नेट के साथ संयोजन करना, सम्मिश्रण से कहीं बेहतर है।


हमारा मानना है कि मात्रात्मक परिणाम अधिक वॉरपर्स के उपयोग से होने वाले सुधार को कम करके आंकते हैं, क्योंकि मात्रात्मक माप अपेक्षाकृत अपरिष्कृत है। गुणात्मक साक्ष्य इसका समर्थन करते हैं (चित्र 7)।

4.4 गुणात्मक परिणाम

हमने गुणात्मक तुलना करने के लिए [15,24,53,37] में मिलान के उदाहरणों को ध्यान से देखा है। MG-VTON [12] के विरुद्ध तुलना लागू नहीं है, क्योंकि कार्य में कोई निश्चित-मुद्रा गुणात्मक उदाहरण शामिल नहीं था। ध्यान दें कि तुलना पिछले कार्य का पक्ष लेती है क्योंकि हमारा मॉडल केवल 2D पोज़ मैप में परिधान के अनुरूप क्षेत्र का उपयोग करके प्रशिक्षण और परीक्षण करता है जबकि पिछला कार्य पूर्ण 2D पोज़ मैप और की-पॉइंट पोज़ एनोटेशन का उपयोग करता है।


आम तौर पर, परिधान स्थानांतरण कठिन होता है, लेकिन आधुनिक विधियाँ अब मुख्य रूप से विवरणों पर विफल हो जाती हैं। इसका मतलब है कि स्थानांतरण का मूल्यांकन करने के लिए विवरणों पर सावधानीपूर्वक ध्यान देने की आवश्यकता होती है। चित्र 6 कुछ तुलनाएँ दिखाता है। विशेष रूप से, सीमाओं, बनावट और परिधान विवरणों के आसपास छवि विवरण पर ध्यान देने से कार्य में कुछ कठिनाइयाँ सामने आती हैं। जैसा कि चित्र 6 में बाईं ओर दिखाया गया है, हमारी विधि जटिल बनावट को मज़बूती से संभाल सकती है (कॉलम ए, सी) और लोगो के विवरणों को सटीक रूप से संरक्षित कर सकती है (कॉलम बी, ई, एफ, जी, आई)। उदाहरण हमारे इनपेंटिंग-आधारित विधि और पिछले काम के बीच स्पष्ट अंतर भी दिखाते हैं - हमारी विधि केवल उस क्षेत्र को संशोधित करती है जहाँ मूल कपड़ा है


तालिका 2. यह तालिका हमारे आकार एम्बेडिंग नेटवर्क का उपयोग करके यादृच्छिक जोड़ों बनाम मिलान जोड़ों पर विभिन्न छवि संश्लेषण विधियों के बीच FID∞ स्कोर (छोटा बेहतर) की तुलना करती है। कॉलम 1 में सभी मान कॉलम 2 और 3 की तुलना में काफी अधिक हैं, जो दर्शाता है कि एक संगत जोड़ी चुनने से हमारे तरीकों और CP-VTON के प्रदर्शन में काफी सुधार होता है। हमारा मानना है कि यह सुधार अन्य तरीकों पर भी लागू होता है, लेकिन अन्य ने कोड प्रकाशित नहीं किया है। सभी तरीकों में, दो वॉरपर्स वाली हमारी विधि सभी परीक्षण सेटों पर पिछले काम से काफी बेहतर प्रदर्शन करती है। रंग और ग्रेस्केल मैचर के बीच चुनने के लिए बहुत कुछ नहीं है, यह दर्शाता है कि मिलान प्रक्रिया परिधान के आकार पर ध्यान केंद्रित करती है (जैसा कि इसे करने के लिए प्रशिक्षित किया जाता है)। दो वॉरप्स (k = 2) का उपयोग करना एक वॉरप (k = 1) का उपयोग करने से थोड़ा सुधार दिखाता है, क्योंकि किसी भी मात्रात्मक मीट्रिक के लिए सुधारों को पकड़ना मुश्किल होता है। गुणात्मक उदाहरणों में अंतर अधिक दिखाई देता है (चित्र 7)। वॉरप्स को संयोजित करने के लिए यू-नेट का उपयोग करना महत्वपूर्ण है; केवल मिश्रण करने से खराब परिणाम मिलते हैं (अंतिम पंक्ति)।


चित्र 6. VITON डेटासेट पर CP VTON, ClothFlow, VTNFP और SieveNet की तुलना, उन विधियों के लिए प्रकाशित छवियों का उपयोग करके। प्रत्येक ब्लॉक एक अलग डेटासेट दिखाता है। हमारे परिणाम पंक्ति 2 में हैं, और तुलना विधि के परिणाम पंक्ति 3 में हैं। CP-VTON पर ध्यान दें, हमारी विधि की तुलना में: नेकलाइन्स को अस्पष्ट करना (b); धारियों को अलियास करना (c); स्थानांतरणों को फिर से स्केल करना (b); बनावट को धुंधला करना और सीमाओं को धुंधला करना (a); और स्थानांतरणों को धुंधला करना (b)। GarmentGAN पर ध्यान दें, हमारी विधि की तुलना में: अंग सीमा को खराब करना (d); कमर पर फूलों पर कंट्रास्ट खोना (d); और स्थानांतरण पर गंभीर रूप से अलियास करना (e)। ClothFlow पर ध्यान दें, हमारी विधि की तुलना में: धारियों को अलियास नहीं करना (f); हाथों को धुंधला करना (f, g); मैन्गलिंग ट्रांसफ़र (i)। हमारी विधि की तुलना में सीवनेट पर ध्यान दें: आउटलाइन को धुंधला करना (j, k); कफ़ को गलत जगह पर रखना (k); मैन्गलिंग शेडिंग (k पर हाथ)। उच्च रिज़ॉल्यूशन पर रंग में देखना सबसे अच्छा है।


प्रस्तुत किया गया। यह गुण हमें अंग (कॉलम ए, डी, एफ, जी, एच, जे) और अन्य कपड़ों की वस्तुओं (कॉलम ए, बी) के विवरण को अधिकांश पिछले कामों से बेहतर तरीके से संरक्षित करने की अनुमति देता है। हमारे कुछ परिणाम (कॉलम सी, जी) सीमा पर मूल कपड़े से रंग कलाकृतियाँ दिखाते हैं, क्योंकि पोज़ मैप का किनारा थोड़ा गलत तरीके से संरेखित है (अपूर्ण विभाजन मास्क)। यह पुष्टि करता है कि हमारी विधि उच्च गुणवत्ता वाले परिणाम का उत्पादन करने के लिए बारीक-अनाज विभाजन मास्क पर निर्भर करती है। कुछ जोड़े आकार में थोड़े बेमेल हैं (कॉलम डी, एच)। यदि परीक्षण सेट का निर्माण आकार एम्बेडिंग का उपयोग करके किया जाता है, तो यह हमारी विधि के साथ शायद ही कभी होगा। इसलिए, हमारी विधि इसे संबोधित करने का प्रयास नहीं करती है।


दो ताने एक से बहुत स्पष्ट रूप से बेहतर हैं (चित्र 7), संभवतः इसलिए क्योंकि दूसरा ताना संरेखण और विवरण को ठीक कर सकता है जिसे एकल ताना मॉडल संबोधित करने में विफल रहता है। विशेष सुधार अनबटन/अनज़िप्ड आउटरवियर और टैग वाले उत्पाद छवियों के लिए होते हैं। इन सुधारों को मात्रात्मक मूल्यांकन द्वारा आसानी से कैप्चर नहीं किया जा सकता है क्योंकि पिक्सेल मानों में अंतर छोटा है।


चित्र 7. आंकड़े k = 2 और k = 1 के बीच गुणात्मक तुलना दर्शाते हैं। नोट: बाईं ओर एकल ताने के लिए गलत स्थान पर बटन, k = 2 के लिए निर्धारित; केंद्र में बाईं ओर एकल ताने के लिए गलत आकार की जेब और आस्तीन की सीमाओं के साथ समस्याएं, k = 2 के लिए निर्धारित; केंद्र में एक गंभीर रूप से गलत स्थान पर बटन और आसपास की बकलिंग, k = 2 के लिए निर्धारित; केंद्र में दाईं ओर एक गलत स्थान पर परिधान लेबल, k = 2 के लिए निर्धारित; दाईं ओर एक और गलत स्थान पर परिधान लेबल, k = 2 के लिए निर्धारित।


हमने अपने डेटासेट पर वॉर्प बनाने के लिए ज्यामितीय मिलान मॉड्यूल (टीपीएस ट्रांसफ़ॉर्म का उपयोग करके) को प्रशिक्षित करने का प्रयास किया, क्योंकि इसे अक्सर पिछले काम [17,45,11] द्वारा अपनाया गया था। हालाँकि, टीपीएस ट्रांसफ़ॉर्म विभाजन और महत्वपूर्ण अवरोधों (पूरक सामग्रियों में उदाहरण) के अनुकूल होने में विफल रहा।

4.5 उपयोगकर्ता अध्ययन

हमने यह जांचने के लिए एक उपयोगकर्ता अध्ययन का उपयोग किया कि उपयोगकर्ता कितनी बार संश्लेषित छवियों की पहचान कर सकते हैं। उपयोगकर्ता से पूछा जाता है कि क्या उत्पाद पहने हुए मॉडल की छवि (जो दिखाई गई है) वास्तविक है या संश्लेषित है। डिस्प्ले उच्चतम संभव रिज़ॉल्यूशन (512x512) का उपयोग करता है, जैसा कि चित्र 8 में दिखाया गया है।


हमने ऐसे उदाहरणों का इस्तेमाल किया जहां मास्क अच्छा है, जो हमारे परिणामों के शीर्ष 20 प्रतिशत का उचित प्रतिनिधित्व देता है। अध्ययन से पहले उपयोगकर्ताओं को दो असली बनाम नकली जोड़ों के साथ तैयार किया जाता है। फिर प्रत्येक प्रतिभागी को 25 असली और नकली के 50 जोड़ों के साथ परीक्षण किया जाता है।


चित्र 8. दो संश्लेषित छवियाँ जिन्हें उपयोगकर्ता अध्ययन में भाग लेने वाले 70% प्रतिभागियों ने वास्तविक माना। उदाहरण के लिए, छायांकन, झुर्रियाँ, यहाँ तक कि ज़िप और कॉलर पर भी ध्यान दें।


तालिका 3. उपयोगकर्ता अध्ययन के परिणाम बताते हैं कि प्रतिभागियों को वास्तविक और संश्लेषित छवियों के बीच अंतर करने में बहुत कठिनाई होती है। 51.6% और 61.5% नकली छवि को क्रमशः भीड़ और शोधकर्ताओं द्वारा वास्तविक माना जाता है। कभी-कभी, कुछ वास्तविक छवि को भी नकली माना जाता है, जो यह दर्शाता है कि प्रतिभागियों ने ध्यान दिया था।


25 नकली, बिना दोहराए उत्पाद। हम उपयोगकर्ताओं की दो आबादी (दृष्टि शोधकर्ताओं, और यादृच्छिक रूप से चयनित प्रतिभागियों) का परीक्षण करते हैं।


ज़्यादातर, उपयोगकर्ता हमारी छवियों से मूर्ख बन जाते हैं; बहुत ज़्यादा झूठी-सकारात्मक (यानी संश्लेषित छवि को उपयोगकर्ता द्वारा वास्तविक के रूप में चिह्नित किया जाना) दर है (तालिका 3)। चित्र 8 में संश्लेषित छवियों के दो उदाहरण दिखाए गए हैं जिन्हें 70% सामान्य आबादी ने वास्तविक बताया है। वे क्षेत्र विभाजन और जटिल छायांकन के साथ कठोर बाहरी वस्त्र उदाहरण हैं। फिर भी, हमारी विधि उच्च गुणवत्ता वाले संश्लेषण उत्पन्न करने में कामयाब रही। सभी प्रश्नों और उपयोगकर्ता अध्ययन के पूर्ण परिणामों के लिए पूरक सामग्री देखें।


यह पेपर CC BY-NC-SA 4.0 DEED लाइसेंस के अंतर्गत arxiv पर उपलब्ध है।