paint-brush
आकार मिलान के माध्यम से सटीक, यथार्थवादी आभासी प्रयास की ओर: प्रस्तावित विधिद्वारा@polyframe
222 रीडिंग

आकार मिलान के माध्यम से सटीक, यथार्थवादी आभासी प्रयास की ओर: प्रस्तावित विधि

द्वारा Polyframe Peer Reviewed Publication2m2024/06/08
Read on Terminal Reader

बहुत लंबा; पढ़ने के लिए

शोधकर्ताओं ने लक्ष्य मॉडल चुनने और विशेषीकृत वॉरपर्स को प्रशिक्षित करने के लिए नए डेटासेट का उपयोग करके वर्चुअल ट्राई-ऑन विधियों में सुधार किया है, जिससे यथार्थवाद और सटीकता में वृद्धि हुई है।
featured image - आकार मिलान के माध्यम से सटीक, यथार्थवादी आभासी प्रयास की ओर: प्रस्तावित विधि
Polyframe Peer Reviewed Publication HackerNoon profile picture
0-item

लेखक:

(1) केदान ली, इलिनोइस विश्वविद्यालय, अर्बाना-शैंपेन;

(2) मिन जिन चोंग, इलिनोइस विश्वविद्यालय, अर्बाना-शैंपेन;

(3) जिंगेन लियू, जेडी एआई रिसर्च;

(4) डेविड फोर्सिथ, इलिनोइस विश्वविद्यालय, अर्बाना-शैंपेन।

लिंक की तालिका

3. प्रस्तावित विधि

हमारी विधि के दो घटक हैं। एक आकार मिलान नेट (SMN; चित्र 2 और 3) स्थानांतरण करने के लिए आकार-वार संगत परिधान-मॉडल जोड़े चुनने के लिए एक एम्बेडिंग सीखता है। उत्पाद और मॉडल छवियों का मिलान उत्पाद (क्रमशः मॉडल) छवियों को खोजकर किया जाता है जो एम्बेडिंग स्पेस में पास में हैं। एक मल्टी-वॉर्प ट्राई-ऑन नेट (MTN; चित्र 4) एक परिधान छवि, एक मॉडल छवि और मॉडल पर बदलने वाले परिधान को कवर करने वाले मास्क को लेता है और प्रदान किए गए परिधान को पहने हुए मॉडल की यथार्थवादी संश्लेषण छवि उत्पन्न करता है। नेटवर्क में एक वॉरपर और एक इनपेंटिंग नेटवर्क शामिल है, जिन्हें संयुक्त रूप से प्रशिक्षित किया गया है। वॉरपर उत्पाद छवि के k वॉरप्स बनाता है, जिनमें से प्रत्येक कुछ विशेषताओं पर विशेषीकृत होता है। इनपेंटिंग नेटवर्क प्रत्येक वॉरप से कौन सी विशेषताएँ ढूँढ़नी हैं, यह चुनकर वॉरप्स को संयोजित करना सीखता है। SMN और MTN को अलग-अलग प्रशिक्षित किया जाता है।


3.1 आकार मिलान जाल



एम्बेडिंग लॉस का उपयोग दो डोमेन के फीचर पत्राचार को पकड़ने और नेटवर्क आर्किटेक्चर में ध्यान तंत्र एम्बेड को लागू करने में मदद करने के लिए किया जाता है। स्थानिक ध्यान वास्तुकला के बारे में विवरण पूरक सामग्री में हैं।


3.2 मल्टी-वार्प ट्राई-ऑन नेट


पिछले काम [17,45] की तरह, हमारे सिस्टम में भी दो मॉड्यूल शामिल हैं: (ए) उत्पाद छवि को मास्क के साथ संरेखित करके कई विशेषीकृत वॉर्प बनाने के लिए एक वॉर्पर; (बी) मास्क किए गए मॉडल के साथ वॉर्प को संयोजित करने और संश्लेषण छवि बनाने के लिए एक इनपेंटिंग मॉड्यूल। पिछले काम [17,45] के विपरीत, दोनों मॉड्यूल को अलग-अलग के बजाय संयुक्त रूप से प्रशिक्षित किया जाता है, इसलिए इनपेंटर वॉर्पर का मार्गदर्शन करता है।





कैस्केड हानि: कई वॉर्प के साथ, प्रत्येक वॉर्प wi को पिछले वॉर्प wj द्वारा की गई गलतियों को संबोधित करने के लिए प्रशिक्षित किया जाता है जहाँ j < i है। k वें वॉर्प के लिए, हम प्रत्येक पिक्सेल पर सभी पिछले वॉर्प के बीच न्यूनतम हानि की गणना करते हैं, जिसे इस प्रकार लिखा जाता है



कैस्केड हानि सभी वॉर्प के लिए औसत हानि की गणना करती है। परिवर्तन मापदंडों पर एक अतिरिक्त नियमितीकरण शर्तें लागू की जाती हैं, इसलिए सभी बाद के वॉर्प पहले वॉर्प के करीब रहते हैं।



कैस्केड लॉस सभी वॉर्प के बीच एक पदानुक्रम लागू करता है, जिससे पहले के वॉर्प के लिए गलती करना बाद के वॉर्प की तुलना में अधिक महंगा हो जाता है। यह प्रशिक्षण के दौरान संभावित दोलन को रोकता है (कई वॉर्प इष्टतम के लिए प्रतिस्पर्धा करते हैं)। यह विचार बूस्टिंग के साथ तुलनीय है, लेकिन फिर भी अलग है क्योंकि सभी वॉर्प ग्रेडिएंट साझा करते हैं, जिससे पहले के वॉर्प के लिए बाद के वॉर्प के अनुसार समायोजित करना संभव हो जाता है।



यह पेपर CC BY-NC-SA 4.0 DEED लाइसेंस के अंतर्गत arxiv पर उपलब्ध है।