लेखक:
(1) केदान ली, इलिनोइस विश्वविद्यालय, अर्बाना-शैंपेन;
(2) मिन जिन चोंग, इलिनोइस विश्वविद्यालय, अर्बाना-शैंपेन;
(3) जिंगेन लियू, जेडी एआई रिसर्च;
(4) डेविड फोर्सिथ, इलिनोइस विश्वविद्यालय, अर्बाना-शैंपेन।
छवि संश्लेषण : स्थानिक ट्रांसफ़ॉर्मर नेटवर्क न्यूरल नेटवर्क [23] का उपयोग करके ज्यामितीय परिवर्तनों का अनुमान लगाते हैं। बाद के काम [28,39] से पता चलता है कि एक वस्तु को दूसरे में कैसे बदला जाए। कठोर वस्तुओं [26,30] और गैर-कठोर वस्तुओं (जैसे, कपड़े) [17,12,45] की छवियों का उत्पादन करने के लिए वॉरपिंग का उपयोग किया जा सकता है। पिछले काम के विपरीत, हम कई स्थानिक वॉरपर्स का उपयोग करते हैं।
हमारे ताने-बाने को एक ही छवि में संयोजित किया जाना चाहिए, और इस छवि को बनाने के लिए हमारा यू-नेट इनपेंटिंग में रुझानों का अनुसरण करता है (ऐसी विधियाँ जो छवि के गायब हिस्सों को भरती हैं, देखें [48,31,50,49])। हान एट अल. [16,52] दिखाते हैं कि इनपेंटिंग विधियाँ लोगों के गायब कपड़ों को पूरा कर सकती हैं।
हमारे काम में, हम अपनी विधि का मात्रात्मक मूल्यांकन करने के लिए FID∞ का उपयोग करते हैं। यह फ़्रेचेट इंसेप्शन डिस्टेंस (FID) [18] पर आधारित है, जो जनरेटिव इमेज मॉडलिंग [5,54,29] में एक सामान्य मीट्रिक है। चोंग एट अल. [9] ने हाल ही में दिखाया कि FID पक्षपाती है; एक्सट्रपलेशन पक्षपात को हटाकर एक निष्पक्ष स्कोर (FID∞) बनाता है।
कपड़े पहने हुए लोगों को उत्पन्न करना: झू एट अल. [57] ने पोज कंकाल और परिधान के पाठ विवरण के आधार पर छवियां उत्पन्न करने के लिए एक सशर्त GAN का उपयोग किया। स्वैपनेट [38] कपड़ों और पोज सुविधाओं को अलग करके व्यक्ति A से व्यक्ति B तक कपड़ों को स्थानांतरित करना सीखता है। ह्सियाओ एट अल. [20] ने विशिष्ट वस्तुओं में सुविधाजनक न्यूनतम संपादन को सक्षम करने के लिए प्रति-परिधान एन्कोडिंग का उपयोग करके एक फैशन मॉडल संश्लेषण नेटवर्क सीखा। इसके विपरीत, हम उत्पादों को वास्तविक मॉडल छवियों पर ताना देते हैं।
आकार मिलान, उत्पाद को मॉडल से मिलाने की हमारी विधि का आधार है। त्सियाओ एट अल. [19] ने मानव शरीर और अच्छी तरह से फिट होने वाले कपड़ों के बीच मिलान को सक्षम करने के लिए एक आकार एम्बेडिंग का निर्माण किया। पिछले काम ने 2D छवियों के माध्यम से मानव शरीर [4,27], कपड़ों की वस्तुओं [10,25] और दोनों [35,40] के आकार का अनुमान लगाया। डेंसपोज़ [1] डिस्क्रिप्टर कपड़े के विरूपण और छायांकन को मॉडलिंग करने में मदद करता है और इसलिए, इसे हाल के काम [36,13,47,51,7,52] द्वारा अपनाया गया है।
वर्चुअल ट्राई-ऑन (VTO) किसी उत्पाद को मॉडल इमेज पर मैप करता है। VITON [17] यू-नेट का उपयोग करके मॉडल पर एक मोटे संश्लेषण और एक मास्क उत्पन्न करता है जहां उत्पाद प्रस्तुत किया जाता है। उत्पाद मास्क से ऑन-मॉडल मास्क तक की मैपिंग को थिन प्लेट स्पलाइन (TPS) परिवर्तन [3] के माध्यम से सीखा जाता है। सीखी गई मैपिंग को उत्पाद की छवि पर एक ताना बनाने के लिए लागू किया जाता है। अपने काम के बाद, वांग एट अल। [45] ने उत्पाद छवि और लक्ष्य व्यक्ति के जोड़े से सीधे टीपीएस परिवर्तन मापदंडों का अनुमान लगाने के लिए एक ज्यामितीय मिलान मॉड्यूल [39] का उपयोग करके वास्तुकला में सुधार किया। वे ताना और लक्ष्य छवि को संयोजित करने के लिए एक अलग शोधन नेटवर्क को प्रशिक्षित करते हैं। VTNFP [53] बॉडी सेगमेंट भविष्यवाणी को शामिल करके काम को आगे बढ़ाता है इसके बजाय, हम एफ़िन ट्रांसफ़ॉर्मेशन को अपनाते हैं, जिसे हमने टीपीएस ट्रांसफ़ॉर्मेशन के बजाय खामियों के लिए अधिक मज़बूत पाया है। निम्नलिखित कार्यों के एक समूह ने कार्य को मल्टी-पोज़ तक बढ़ाया। वॉरपिंग-जीएएन [11] ने जीएमएम के साथ प्रतिकूल प्रशिक्षण को जोड़ा, और दो चरण नेटवर्क का उपयोग करके अलग-अलग पोस्ट और बनावट उत्पन्न की। एमजी-वीटीओएन [12] ने तीन-चरण पीढ़ी नेटवर्क का उपयोग करके पीढ़ी के तरीके को और परिष्कृत किया। अन्य कार्य [21,55,51,7,46] ने इसी तरह की प्रक्रिया का पालन किया। हान एट अल। [15] ने तर्क दिया कि टीपीएस परिवर्तन में स्वतंत्रता की कम डिग्री है और वॉर्प बनाने के लिए एक प्रवाह-आधारित विधि का प्रस्ताव दिया।
बहुत से मौजूदा वर्चुअल ट्राई-ऑन कार्य [17,12,21,47,55,53,24,37] का मूल्यांकन केवल टॉप (टी-शर्ट, शर्ट, आदि) वाले डेटासेट पर किया जाता है। केवल टॉप होने से आकार के बेमेल होने की संभावना काफी हद तक कम हो जाती है क्योंकि टॉप के आकार सरल और समान होते हैं। हमारे काम में, हम सभी श्रेणियों (टीशर्ट, शर्ट, पैंट, शॉर्ट्स, ड्रेस, स्कर्ट, रोब, जैकेट, कोट, आदि) के कपड़ों के आइटम को शामिल करने के लिए समस्या का विस्तार करते हैं, और स्रोत उत्पाद और लक्ष्य मॉडल के बीच आकार के मिलान के लिए एक विधि प्रस्तावित करते हैं। मूल्यांकन से पता चलता है कि आकार में मेल खाने वाले जोड़ों का उपयोग करने से हमारे और पिछले काम दोनों के लिए उत्पादन गुणवत्ता में काफी वृद्धि होती है (तालिका 4.3)।
इसके अलावा, वास्तविक स्टूडियो आउटफिट अक्सर अनज़िप/अनबटन आउटरवियर द्वारा कवर किए जाते हैं, जिसे पिछले काम में भी प्रस्तुत नहीं किया गया है [17,12,21,47,55,53,37]। यह परिधान में विभाजन या गंभीर अवरोध पैदा कर सकता है, और चित्र 6 में दिखाए गए पिछले काम द्वारा संबोधित नहीं किया गया है। हम दिखाते हैं कि हमारा मल्टी-वॉर्प जनरेशन मॉड्यूल इन कठिनाइयों को कम करता है।
यह पेपर CC BY-NC-SA 4.0 DEED लाइसेंस के अंतर्गत arxiv पर उपलब्ध है।