लेखक:
(1) केदान ली, इलिनोइस विश्वविद्यालय, अर्बाना-शैंपेन;
(2) मिन जिन चोंग, इलिनोइस विश्वविद्यालय, अर्बाना-शैंपेन;
(3) जिंगेन लियू, जेडी एआई रिसर्च;
(4) डेविड फोर्सिथ, इलिनोइस विश्वविद्यालय, अर्बाना-शैंपेन।
वर्चुअल ट्राई-ऑन विधि उत्पाद की छवि और मॉडल की छवि लेती है और उत्पाद पहने हुए मॉडल की छवि बनाती है। अधिकांश विधियाँ अनिवार्य रूप से उत्पाद छवि से मॉडल छवि तक के ताने-बाने की गणना करती हैं और छवि निर्माण विधियों का उपयोग करके संयोजित करती हैं। हालाँकि, यथार्थवादी छवि प्राप्त करना चुनौतीपूर्ण है क्योंकि परिधानों की गतिकी जटिल है और क्योंकि छवि में रूपरेखा, बनावट और छायांकन संकेत मानव दर्शकों को त्रुटियाँ दिखाते हैं। परिधान में उपयुक्त ड्रेप्स होने चाहिए; ड्रेप किए गए परिधान के आकार के अनुरूप बनावट को ताना-बाना होना चाहिए; छोटे विवरण (बटन, कॉलर, लैपल, जेब, आदि) परिधान पर उचित रूप से रखे जाने चाहिए, इत्यादि। मूल्यांकन विशेष रूप से कठिन है और आमतौर पर गुणात्मक होता है।
यह शोधपत्र चुनौतीपूर्ण, नए डेटासेट पर मात्रात्मक मूल्यांकन का उपयोग करके यह प्रदर्शित करता है कि (ए) किसी भी वॉर्पिंग विधि के लिए, कोई व्यक्ति परिणामों को बेहतर बनाने के लिए स्वचालित रूप से लक्ष्य मॉडल चुन सकता है, और (बी) कई समन्वित विशेष वॉर्पर सीखने से परिणामों में और सुधार होता है। लक्ष्य मॉडल सीखी गई एम्बेडिंग प्रक्रिया द्वारा चुने जाते हैं जो मॉडल द्वारा पहने जाने वाले उत्पादों के प्रतिनिधित्व की भविष्यवाणी करता है। इस भविष्यवाणी का उपयोग उत्पादों को मॉडल से मिलाने के लिए किया जाता है। विशेष वॉर्पर को एक ऐसी विधि द्वारा प्रशिक्षित किया जाता है जो दूसरे वॉर्पर को उन स्थानों पर अच्छा प्रदर्शन करने के लिए प्रोत्साहित करती है जहाँ पहला खराब काम करता है। फिर वॉर्प को यू-नेट का उपयोग करके संयोजित किया जाता है। गुणात्मक मूल्यांकन पुष्टि करता है कि ये सुधार रूपरेखा, बनावट छायांकन और परिधान विवरण पर पूरी तरह से हैं।
कीवर्ड: फैशन, वर्चुअल ट्राई-ऑन, छवि निर्माण, छवि विरूपण
ई-कॉमर्स का मतलब है किसी उत्पाद को ट्राई न कर पाना, जो फैशन उपभोक्ताओं के लिए मुश्किल है [44]। साइट्स अब नियमित रूप से उत्पादों को पहने हुए मॉडल के फोटोशूट डालती हैं, लेकिन वॉल्यूम और टर्नओवर का मतलब है कि ऐसा करना बहुत महंगा और समय लेने वाला है [34]। कपड़ों के अलग-अलग सेट पहने हुए फैशन मॉडल की यथार्थवादी और सटीक छवियां बनाने की आवश्यकता है। कोई व्यक्ति मुद्रा के 3D मॉडल का उपयोग कर सकता है [8,14]। विकल्प - 3D माप के बिना उत्पाद-मॉडल छवियों को संश्लेषित करना [17,45,39,11,15] - वर्चुअल ट्राई-ऑन के रूप में जाना जाता है। इन विधियों में आमतौर पर दो घटक होते हैं: 1) उत्पाद को विकृत करने के लिए एक स्थानिक ट्रांसफार्मर
2) एक छवि निर्माण नेटवर्क जो मोटे तौर पर संरेखित, विकृत उत्पाद को मॉडल छवि के साथ संयोजित करता है ताकि उत्पाद पहने हुए मॉडल की यथार्थवादी छवि तैयार की जा सके।
टी-शर्ट जैसे सरल कपड़ों के साथ इसे स्थानांतरित करना बहुत आसान है, जिस पर साहित्य में जोर दिया गया है। सामान्य वस्त्र (टी-शर्ट के विपरीत) सामने से खुल सकते हैं; परिष्कृत ड्रेप्स हो सकते हैं; कॉलर और कफ जैसी आकार की संरचनाएं हो सकती हैं; बटन हो सकते हैं; और इसी तरह। ये प्रभाव मौजूदा तरीकों को गंभीर रूप से चुनौती देते हैं (पूरक सामग्रियों में उदाहरण)। यदि कोई उत्पाद छवि का उपयोग उस परिधान के लिए उपयुक्त मॉडल छवि चुनने के लिए करता है तो ताना-बाना काफी हद तक बेहतर हो जाता है (चित्र 1)।
कम से कम आंशिक रूप से, यह इस बात का परिणाम है कि छवि निर्माण नेटवर्क कैसे प्रशिक्षित होते हैं। हम युग्मित छवियों का उपयोग करके प्रशिक्षण देते हैं - एक उत्पाद और एक उत्पाद पहने हुए मॉडल [17,45,53]। इसका मतलब यह है कि निर्माण नेटवर्क हमेशा लक्ष्य छवि को उत्पाद के लिए उपयुक्त होने की उम्मीद करता है (इसलिए इसे प्रशिक्षित नहीं किया जाता है, उदाहरण के लिए, एक पोशाक पहने हुए मॉडल पर स्वेटर डालना, चित्र 1)। एक विकल्प प्रतिकूल प्रशिक्षण [11,12,38,13,37] का उपयोग करना है; लेकिन इस ढांचे में विशिष्ट उत्पाद विवरण (उदाहरण के लिए, बटन की एक विशेष शैली; टी-शर्ट पर एक डिकल) को संरक्षित करना कठिन है। इस कठिनाई से निपटने के लिए, हम उत्पाद-मॉडल जोड़े चुनने के लिए एक एम्बेडिंग स्पेस सीखते हैं जिसके परिणामस्वरूप उच्च गुणवत्ता वाले स्थानान्तरण होंगे (चित्र 2)। एम्बेडिंग यह अनुमान लगाना सीखती है कि मॉडल छवि में एक परिधान क्या आकार लेगा चूंकि मॉडल्स आमतौर पर कई परिधान पहनते हैं, इसलिए हम परिधान की प्रत्येक श्रेणी (टॉप, बॉटम, आउटरवियर, पूरे शरीर का परिधान, आदि) को पार्स करने के लिए एक स्थानिक ध्यान दृश्य एनकोडर का उपयोग करते हैं और प्रत्येक को अलग से एम्बेड करते हैं।
एक और समस्या तब उत्पन्न होती है जब कोई परिधान खुला होता है (उदाहरण के लिए, एक बिना बटन वाला कोट)। इस मामले में, ताने के लक्ष्य में एक से अधिक जुड़े हुए घटक हो सकते हैं। ताने के निशाने पर एक क्षेत्र को अच्छी तरह से और दूसरे को खराब तरीके से फिट करके प्रतिक्रिया करते हैं, जिसके परिणामस्वरूप गलत विवरण (चित्र 1 के बटन) होते हैं। ऐसी त्रुटियाँ प्रशिक्षण हानि में बहुत कम योगदान दे सकती हैं, लेकिन बहुत स्पष्ट हैं और वास्तविक उपयोगकर्ताओं द्वारा गंभीर समस्याएँ मानी जाती हैं। हम दिखाते हैं कि कई समन्वित विशेषीकृत ताने का उपयोग करने से ताने में पर्याप्त मात्रात्मक और गुणात्मक सुधार होता है। हमारा ताना कई ताने बनाता है, जिन्हें एक दूसरे के साथ समन्वय करने के लिए प्रशिक्षित किया जाता है। इनपेंटिंग नेटवर्क ताने और मास्क किए गए मॉडल को जोड़ता है, और एक संश्लेषित छवि बनाता है। इनपेंटिंग नेटवर्क अनिवार्य रूप से ताने के बीच चयन करना सीखता है, जबकि ताने को मार्गदर्शन भी प्रदान करता है, क्योंकि उन्हें संयुक्त रूप से प्रशिक्षित किया जाता है। गुणात्मक मूल्यांकन पुष्टि करता है कि सुधार का एक महत्वपूर्ण हिस्सा बटन, जेब, लेबल और इसी तरह की बेहतर भविष्यवाणियों से होता है।
हम वर्चुअल ट्राई-ऑन के बड़े पैमाने पर मात्रात्मक मूल्यांकन दिखाते हैं। हमने फैशन ई-कॉमर्स साइटों से माइनिंग करके उत्पाद छवियों और स्टूडियो फ़ोटो के 422,756 जोड़े का एक नया डेटासेट एकत्र किया। डेटासेट में कई उत्पाद श्रेणियाँ हैं। हम स्थापित VITON डेटासेट [17] पर पिछले काम के साथ मात्रात्मक और गुणात्मक दोनों तरह से तुलना करते हैं। मात्रात्मक परिणाम दिखाता है कि हमारे आकार एम्बेडिंग का उपयोग करके उत्पाद मॉडल जोड़े चुनने से सभी छवि निर्माण पाइपलाइनों (तालिका 4.3) के लिए महत्वपूर्ण सुधार मिलते हैं। कई वॉर्प का उपयोग करने से भी लगातार एकल वॉर्प बेसलाइन से बेहतर प्रदर्शन होता है, जो मात्रात्मक (तालिका 4.3, चित्र 5) और गुणात्मक (चित्र 7) दोनों परिणामों के माध्यम से प्रदर्शित होता है। पिछले काम के साथ गुणात्मक तुलना से पता चलता है कि हमारा सिस्टम पिछले काम की तुलना में अधिक सटीकता से टूचेंज गारमेंट और लक्ष्य मॉडल दोनों के विवरण को संरक्षित करता है। हमने ई-कॉमर्स के लिए वास्तविक मॉडल को संश्लेषित मॉडल से बदलने की लागत का अनुकरण करते हुए एक उपयोगकर्ता अध्ययन किया। परिणाम दिखाता है कि हमारे संश्लेषित मॉडल का 40% वास्तविक मॉडल माना जाता है।
हमारे योगदान का सारांश:
- हम एक मिलान प्रक्रिया शुरू करते हैं जिसके परिणामस्वरूप वर्चुअल ट्राई-ऑन में महत्वपूर्ण गुणात्मक और मात्रात्मक सुधार होता है, चाहे जो भी वॉर्पर उपयोग किया जाए।
- हम एक वॉर्पिंग मॉडल प्रस्तुत करते हैं जो कई समन्वित-वॉर्प्स सीखता है और सभी परीक्षण सेटों पर लगातार बेसलाइन से बेहतर प्रदर्शन करता है।
- हमारे द्वारा उत्पन्न परिणाम विवरणों को सटीक और यथार्थवादी ढंग से संरक्षित करते हैं, जिससे खरीदारों को लगता है कि कुछ संश्लेषित छवियां वास्तविक हैं।
यह पेपर CC BY-NC-SA 4.0 DEED लाइसेंस के अंतर्गत arxiv पर उपलब्ध है।