265 रीडिंग

आकार मिलान के माध्यम से सटीक, यथार्थवादी आभासी ट्राई-ऑन की ओर: संबंधित कार्य

द्वारा Polyframe Peer Reviewed Publication4m2024/06/08

बहुत लंबा; पढ़ने के लिए

शोधकर्ताओं ने लक्ष्य मॉडल चुनने और विशेषीकृत वॉरपर्स को प्रशिक्षित करने के लिए नए डेटासेट का उपयोग करके वर्चुअल ट्राई-ऑन विधियों में सुधार किया है, जिससे यथार्थवाद और सटीकता में वृद्धि हुई है।

featured image - आकार मिलान के माध्यम से सटीक, यथार्थवादी आभासी ट्राई-ऑन की ओर: संबंधित कार्य

लेखक:

(1) केदान ली, इलिनोइस विश्वविद्यालय, अर्बाना-शैंपेन;

(2) मिन जिन चोंग, इलिनोइस विश्वविद्यालय, अर्बाना-शैंपेन;

(3) जिंगेन लियू, जेडी एआई रिसर्च;

(4) डेविड फोर्सिथ, इलिनोइस विश्वविद्यालय, अर्बाना-शैंपेन।

लिंक की तालिका

2। संबंधित कार्य

छवि संश्लेषण : स्थानिक ट्रांसफ़ॉर्मर नेटवर्क न्यूरल नेटवर्क [23] का उपयोग करके ज्यामितीय परिवर्तनों का अनुमान लगाते हैं। बाद के काम [28,39] से पता चलता है कि एक वस्तु को दूसरे में कैसे बदला जाए। कठोर वस्तुओं [26,30] और गैर-कठोर वस्तुओं (जैसे, कपड़े) [17,12,45] की छवियों का उत्पादन करने के लिए वॉरपिंग का उपयोग किया जा सकता है। पिछले काम के विपरीत, हम कई स्थानिक वॉरपर्स का उपयोग करते हैं।

हमारे ताने-बाने को एक ही छवि में संयोजित किया जाना चाहिए, और इस छवि को बनाने के लिए हमारा यू-नेट इनपेंटिंग में रुझानों का अनुसरण करता है (ऐसी विधियाँ जो छवि के गायब हिस्सों को भरती हैं, देखें [48,31,50,49])। हान एट अल. [16,52] दिखाते हैं कि इनपेंटिंग विधियाँ लोगों के गायब कपड़ों को पूरा कर सकती हैं।

हमारे काम में, हम अपनी विधि का मात्रात्मक मूल्यांकन करने के लिए FID∞ का उपयोग करते हैं। यह फ़्रेचेट इंसेप्शन डिस्टेंस (FID) [18] पर आधारित है, जो जनरेटिव इमेज मॉडलिंग [5,54,29] में एक सामान्य मीट्रिक है। चोंग एट अल. [9] ने हाल ही में दिखाया कि FID पक्षपाती है; एक्सट्रपलेशन पक्षपात को हटाकर एक निष्पक्ष स्कोर (FID∞) बनाता है।

कपड़े पहने हुए लोगों को उत्पन्न करना: झू एट अल. [57] ने पोज कंकाल और परिधान के पाठ विवरण के आधार पर छवियां उत्पन्न करने के लिए एक सशर्त GAN का उपयोग किया। स्वैपनेट [38] कपड़ों और पोज सुविधाओं को अलग करके व्यक्ति A से व्यक्ति B तक कपड़ों को स्थानांतरित करना सीखता है। ह्सियाओ एट अल. [20] ने विशिष्ट वस्तुओं में सुविधाजनक न्यूनतम संपादन को सक्षम करने के लिए प्रति-परिधान एन्कोडिंग का उपयोग करके एक फैशन मॉडल संश्लेषण नेटवर्क सीखा। इसके विपरीत, हम उत्पादों को वास्तविक मॉडल छवियों पर ताना देते हैं।

आकार मिलान, उत्पाद को मॉडल से मिलाने की हमारी विधि का आधार है। त्सियाओ एट अल. [19] ने मानव शरीर और अच्छी तरह से फिट होने वाले कपड़ों के बीच मिलान को सक्षम करने के लिए एक आकार एम्बेडिंग का निर्माण किया। पिछले काम ने 2D छवियों के माध्यम से मानव शरीर [4,27], कपड़ों की वस्तुओं [10,25] और दोनों [35,40] के आकार का अनुमान लगाया। डेंसपोज़ [1] डिस्क्रिप्टर कपड़े के विरूपण और छायांकन को मॉडलिंग करने में मदद करता है और इसलिए, इसे हाल के काम [36,13,47,51,7,52] द्वारा अपनाया गया है।

वर्चुअल ट्राई-ऑन (VTO) किसी उत्पाद को मॉडल इमेज पर मैप करता है। VITON [17] यू-नेट का उपयोग करके मॉडल पर एक मोटे संश्लेषण और एक मास्क उत्पन्न करता है जहां उत्पाद प्रस्तुत किया जाता है। उत्पाद मास्क से ऑन-मॉडल मास्क तक की मैपिंग को थिन प्लेट स्पलाइन (TPS) परिवर्तन [3] के माध्यम से सीखा जाता है। सीखी गई मैपिंग को उत्पाद की छवि पर एक ताना बनाने के लिए लागू किया जाता है। अपने काम के बाद, वांग एट अल। [45] ने उत्पाद छवि और लक्ष्य व्यक्ति के जोड़े से सीधे टीपीएस परिवर्तन मापदंडों का अनुमान लगाने के लिए एक ज्यामितीय मिलान मॉड्यूल [39] का उपयोग करके वास्तुकला में सुधार किया। वे ताना और लक्ष्य छवि को संयोजित करने के लिए एक अलग शोधन नेटवर्क को प्रशिक्षित करते हैं। VTNFP [53] बॉडी सेगमेंट भविष्यवाणी को शामिल करके काम को आगे बढ़ाता है इसके बजाय, हम एफ़िन ट्रांसफ़ॉर्मेशन को अपनाते हैं, जिसे हमने टीपीएस ट्रांसफ़ॉर्मेशन के बजाय खामियों के लिए अधिक मज़बूत पाया है। निम्नलिखित कार्यों के एक समूह ने कार्य को मल्टी-पोज़ तक बढ़ाया। वॉरपिंग-जीएएन [11] ने जीएमएम के साथ प्रतिकूल प्रशिक्षण को जोड़ा, और दो चरण नेटवर्क का उपयोग करके अलग-अलग पोस्ट और बनावट उत्पन्न की। एमजी-वीटीओएन [12] ने तीन-चरण पीढ़ी नेटवर्क का उपयोग करके पीढ़ी के तरीके को और परिष्कृत किया। अन्य कार्य [21,55,51,7,46] ने इसी तरह की प्रक्रिया का पालन किया। हान एट अल। [15] ने तर्क दिया कि टीपीएस परिवर्तन में स्वतंत्रता की कम डिग्री है और वॉर्प बनाने के लिए एक प्रवाह-आधारित विधि का प्रस्ताव दिया।

बहुत से मौजूदा वर्चुअल ट्राई-ऑन कार्य [17,12,21,47,55,53,24,37] का मूल्यांकन केवल टॉप (टी-शर्ट, शर्ट, आदि) वाले डेटासेट पर किया जाता है। केवल टॉप होने से आकार के बेमेल होने की संभावना काफी हद तक कम हो जाती है क्योंकि टॉप के आकार सरल और समान होते हैं। हमारे काम में, हम सभी श्रेणियों (टीशर्ट, शर्ट, पैंट, शॉर्ट्स, ड्रेस, स्कर्ट, रोब, जैकेट, कोट, आदि) के कपड़ों के आइटम को शामिल करने के लिए समस्या का विस्तार करते हैं, और स्रोत उत्पाद और लक्ष्य मॉडल के बीच आकार के मिलान के लिए एक विधि प्रस्तावित करते हैं। मूल्यांकन से पता चलता है कि आकार में मेल खाने वाले जोड़ों का उपयोग करने से हमारे और पिछले काम दोनों के लिए उत्पादन गुणवत्ता में काफी वृद्धि होती है (तालिका 4.3)।

इसके अलावा, वास्तविक स्टूडियो आउटफिट अक्सर अनज़िप/अनबटन आउटरवियर द्वारा कवर किए जाते हैं, जिसे पिछले काम में भी प्रस्तुत नहीं किया गया है [17,12,21,47,55,53,37]। यह परिधान में विभाजन या गंभीर अवरोध पैदा कर सकता है, और चित्र 6 में दिखाए गए पिछले काम द्वारा संबोधित नहीं किया गया है। हम दिखाते हैं कि हमारा मल्टी-वॉर्प जनरेशन मॉड्यूल इन कठिनाइयों को कम करता है।