paint-brush
आकार मिलान के माध्यम से सटीक, यथार्थवादी आभासी ट्राई-ऑन की ओर: संबंधित कार्यद्वारा@polyframe
252 रीडिंग

आकार मिलान के माध्यम से सटीक, यथार्थवादी आभासी ट्राई-ऑन की ओर: संबंधित कार्य

द्वारा Polyframe Peer Reviewed Publication4m2024/06/08
Read on Terminal Reader

बहुत लंबा; पढ़ने के लिए

शोधकर्ताओं ने लक्ष्य मॉडल चुनने और विशेषीकृत वॉरपर्स को प्रशिक्षित करने के लिए नए डेटासेट का उपयोग करके वर्चुअल ट्राई-ऑन विधियों में सुधार किया है, जिससे यथार्थवाद और सटीकता में वृद्धि हुई है।
featured image - आकार मिलान के माध्यम से सटीक, यथार्थवादी आभासी ट्राई-ऑन की ओर: संबंधित कार्य
Polyframe Peer Reviewed Publication HackerNoon profile picture
0-item

लेखक:

(1) केदान ली, इलिनोइस विश्वविद्यालय, अर्बाना-शैंपेन;

(2) मिन जिन चोंग, इलिनोइस विश्वविद्यालय, अर्बाना-शैंपेन;

(3) जिंगेन लियू, जेडी एआई रिसर्च;

(4) डेविड फोर्सिथ, इलिनोइस विश्वविद्यालय, अर्बाना-शैंपेन।

लिंक की तालिका

2। संबंधित कार्य

छवि संश्लेषण : स्थानिक ट्रांसफ़ॉर्मर नेटवर्क न्यूरल नेटवर्क [23] का उपयोग करके ज्यामितीय परिवर्तनों का अनुमान लगाते हैं। बाद के काम [28,39] से पता चलता है कि एक वस्तु को दूसरे में कैसे बदला जाए। कठोर वस्तुओं [26,30] और गैर-कठोर वस्तुओं (जैसे, कपड़े) [17,12,45] की छवियों का उत्पादन करने के लिए वॉरपिंग का उपयोग किया जा सकता है। पिछले काम के विपरीत, हम कई स्थानिक वॉरपर्स का उपयोग करते हैं।


हमारे ताने-बाने को एक ही छवि में संयोजित किया जाना चाहिए, और इस छवि को बनाने के लिए हमारा यू-नेट इनपेंटिंग में रुझानों का अनुसरण करता है (ऐसी विधियाँ जो छवि के गायब हिस्सों को भरती हैं, देखें [48,31,50,49])। हान एट अल. [16,52] दिखाते हैं कि इनपेंटिंग विधियाँ लोगों के गायब कपड़ों को पूरा कर सकती हैं।


हमारे काम में, हम अपनी विधि का मात्रात्मक मूल्यांकन करने के लिए FID∞ का उपयोग करते हैं। यह फ़्रेचेट इंसेप्शन डिस्टेंस (FID) [18] पर आधारित है, जो जनरेटिव इमेज मॉडलिंग [5,54,29] में एक सामान्य मीट्रिक है। चोंग एट अल. [9] ने हाल ही में दिखाया कि FID पक्षपाती है; एक्सट्रपलेशन पक्षपात को हटाकर एक निष्पक्ष स्कोर (FID∞) बनाता है।


कपड़े पहने हुए लोगों को उत्पन्न करना: झू एट अल. [57] ने पोज कंकाल और परिधान के पाठ विवरण के आधार पर छवियां उत्पन्न करने के लिए एक सशर्त GAN का उपयोग किया। स्वैपनेट [38] कपड़ों और पोज सुविधाओं को अलग करके व्यक्ति A से व्यक्ति B तक कपड़ों को स्थानांतरित करना सीखता है। ह्सियाओ एट अल. [20] ने विशिष्ट वस्तुओं में सुविधाजनक न्यूनतम संपादन को सक्षम करने के लिए प्रति-परिधान एन्कोडिंग का उपयोग करके एक फैशन मॉडल संश्लेषण नेटवर्क सीखा। इसके विपरीत, हम उत्पादों को वास्तविक मॉडल छवियों पर ताना देते हैं।


आकार मिलान, उत्पाद को मॉडल से मिलाने की हमारी विधि का आधार है। त्सियाओ एट अल. [19] ने मानव शरीर और अच्छी तरह से फिट होने वाले कपड़ों के बीच मिलान को सक्षम करने के लिए एक आकार एम्बेडिंग का निर्माण किया। पिछले काम ने 2D छवियों के माध्यम से मानव शरीर [4,27], कपड़ों की वस्तुओं [10,25] और दोनों [35,40] के आकार का अनुमान लगाया। डेंसपोज़ [1] डिस्क्रिप्टर कपड़े के विरूपण और छायांकन को मॉडलिंग करने में मदद करता है और इसलिए, इसे हाल के काम [36,13,47,51,7,52] द्वारा अपनाया गया है।


वर्चुअल ट्राई-ऑन (VTO) किसी उत्पाद को मॉडल इमेज पर मैप करता है। VITON [17] यू-नेट का उपयोग करके मॉडल पर एक मोटे संश्लेषण और एक मास्क उत्पन्न करता है जहां उत्पाद प्रस्तुत किया जाता है। उत्पाद मास्क से ऑन-मॉडल मास्क तक की मैपिंग को थिन प्लेट स्पलाइन (TPS) परिवर्तन [3] के माध्यम से सीखा जाता है। सीखी गई मैपिंग को उत्पाद की छवि पर एक ताना बनाने के लिए लागू किया जाता है। अपने काम के बाद, वांग एट अल। [45] ने उत्पाद छवि और लक्ष्य व्यक्ति के जोड़े से सीधे टीपीएस परिवर्तन मापदंडों का अनुमान लगाने के लिए एक ज्यामितीय मिलान मॉड्यूल [39] का उपयोग करके वास्तुकला में सुधार किया। वे ताना और लक्ष्य छवि को संयोजित करने के लिए एक अलग शोधन नेटवर्क को प्रशिक्षित करते हैं। VTNFP [53] बॉडी सेगमेंट भविष्यवाणी को शामिल करके काम को आगे बढ़ाता है इसके बजाय, हम एफ़िन ट्रांसफ़ॉर्मेशन को अपनाते हैं, जिसे हमने टीपीएस ट्रांसफ़ॉर्मेशन के बजाय खामियों के लिए अधिक मज़बूत पाया है। निम्नलिखित कार्यों के एक समूह ने कार्य को मल्टी-पोज़ तक बढ़ाया। वॉरपिंग-जीएएन [11] ने जीएमएम के साथ प्रतिकूल प्रशिक्षण को जोड़ा, और दो चरण नेटवर्क का उपयोग करके अलग-अलग पोस्ट और बनावट उत्पन्न की। एमजी-वीटीओएन [12] ने तीन-चरण पीढ़ी नेटवर्क का उपयोग करके पीढ़ी के तरीके को और परिष्कृत किया। अन्य कार्य [21,55,51,7,46] ने इसी तरह की प्रक्रिया का पालन किया। हान एट अल। [15] ने तर्क दिया कि टीपीएस परिवर्तन में स्वतंत्रता की कम डिग्री है और वॉर्प बनाने के लिए एक प्रवाह-आधारित विधि का प्रस्ताव दिया।


बहुत से मौजूदा वर्चुअल ट्राई-ऑन कार्य [17,12,21,47,55,53,24,37] का मूल्यांकन केवल टॉप (टी-शर्ट, शर्ट, आदि) वाले डेटासेट पर किया जाता है। केवल टॉप होने से आकार के बेमेल होने की संभावना काफी हद तक कम हो जाती है क्योंकि टॉप के आकार सरल और समान होते हैं। हमारे काम में, हम सभी श्रेणियों (टीशर्ट, शर्ट, पैंट, शॉर्ट्स, ड्रेस, स्कर्ट, रोब, जैकेट, कोट, आदि) के कपड़ों के आइटम को शामिल करने के लिए समस्या का विस्तार करते हैं, और स्रोत उत्पाद और लक्ष्य मॉडल के बीच आकार के मिलान के लिए एक विधि प्रस्तावित करते हैं। मूल्यांकन से पता चलता है कि आकार में मेल खाने वाले जोड़ों का उपयोग करने से हमारे और पिछले काम दोनों के लिए उत्पादन गुणवत्ता में काफी वृद्धि होती है (तालिका 4.3)।


इसके अलावा, वास्तविक स्टूडियो आउटफिट अक्सर अनज़िप/अनबटन आउटरवियर द्वारा कवर किए जाते हैं, जिसे पिछले काम में भी प्रस्तुत नहीं किया गया है [17,12,21,47,55,53,37]। यह परिधान में विभाजन या गंभीर अवरोध पैदा कर सकता है, और चित्र 6 में दिखाए गए पिछले काम द्वारा संबोधित नहीं किया गया है। हम दिखाते हैं कि हमारा मल्टी-वॉर्प जनरेशन मॉड्यूल इन कठिनाइयों को कम करता है।


चित्र 2. टी-शर्ट पहने हुए मॉडल पर लंबी आस्तीन वाली शर्ट को स्थानांतरित करना कठिन है। हमारी प्रक्रिया दो चरणों में संगत जोड़े प्राप्त करती है। सबसे पहले, हम उत्पाद-मॉडल जोड़े और स्थानिक ध्यान का उपयोग करके प्रशिक्षित परिधान दृश्य एनकोडर का उपयोग करके परिधान उपस्थिति एम्बेडिंग की गणना करते हैं। फिर, एक आकार एनकोडर परिधान उपस्थिति एम्बेडिंग से आकार एम्बेडिंग की गणना करता है। आकार एम्बेडिंग को मीट्रिक के रूप में उत्पाद समोच्च का उपयोग करके सीखा जाता है, जो केवल आकार की जानकारी को संरक्षित करता है। जब हम स्थानांतरित करते हैं, तो हम आकार एम्बेडिंग स्थान में खोज करके संगत परिधान पहने हुए मॉडल को चुनते हैं।


यह पेपर CC BY-NC-SA 4.0 DEED लाइसेंस के अंतर्गत arxiv पर उपलब्ध है।