লেখক:
(1) কেদান লি, আরবানা-চ্যাম্পেইনের ইলিনয় বিশ্ববিদ্যালয়;
(২) মিন জিন চং, ইউনিভার্সিটি অফ ইলিনয় অ্যাট আরবানা-চ্যাম্পেইন;
(3) জিনজেন লিউ, জেডি এআই গবেষণা;
(4) ডেভিড ফোরসিথ, আরবানা-চ্যাম্পেইনের ইলিনয় বিশ্ববিদ্যালয়।
চিত্র সংশ্লেষণ : স্থানিক ট্রান্সফরমার নেটওয়ার্কগুলি নিউরাল নেটওয়ার্ক ব্যবহার করে জ্যামিতিক রূপান্তর অনুমান করে [২৩]। পরবর্তী কাজ [২৮,৩৯] দেখায় কিভাবে একটি বস্তুকে অন্য বস্তুর সাথে বিদ্ধ করা যায়। ওয়ার্পিং অনমনীয় বস্তু [26,30] এবং নন-রিজিড বস্তুর (যেমন, পোশাক) [17,12,45] ছবি তৈরি করতে ব্যবহার করা যেতে পারে। পূর্বের কাজের বিপরীতে, আমরা একাধিক স্থানিক ওয়ারপার ব্যবহার করি।
আমাদের ওয়ার্পগুলি অবশ্যই একটি একক চিত্রের সাথে মিলিত হতে হবে এবং এই চিত্রটি তৈরি করার জন্য আমাদের ইউ-নেট ইনপেইন্টিংয়ের প্রবণতা অনুসরণ করে (যে পদ্ধতিগুলি একটি চিত্রের অনুপস্থিত অংশগুলি পূরণ করে, দেখুন [48,31,50,49])। হান এট আল। [16,52] শো ইনপেইন্টিং পদ্ধতি মানুষের গায়ে পোশাক আইটেম অনুপস্থিত সম্পূর্ণ করতে পারে.
আমাদের কাজে, আমরা আমাদের পদ্ধতিকে পরিমাণগতভাবে মূল্যায়ন করতে FID∞ ব্যবহার করি। এটি ফ্রচেট ইনসেপশন ডিসট্যান্স (এফআইডি) [18] এর উপর ভিত্তি করে তৈরি করা হয়েছে, জেনারেটিভ ইমেজ মডেলিংয়ের একটি সাধারণ মেট্রিক [5,54,29]। চং এট আল। [৯] সম্প্রতি দেখা গেছে যে FID পক্ষপাতদুষ্ট; এক্সট্রাপোলেশন পক্ষপাত দূর করে, একটি নিরপেক্ষ স্কোরে (FID∞)।
পোশাক পরা মানুষ তৈরি করা: ঝু এট আল। [57] পোজ কঙ্কাল এবং পোশাকের পাঠ্য বিবরণের উপর ভিত্তি করে চিত্র তৈরি করতে একটি শর্তাধীন GAN ব্যবহার করেছে। SwapNet [৩৮] পোশাক এবং ভঙ্গি বৈশিষ্ট্যগুলিকে বিচ্ছিন্ন করে ব্যক্তি A থেকে ব্যক্তি B তে কাপড় স্থানান্তর করতে শেখে। Hsiao et al. [২০] নির্দিষ্ট আইটেমগুলিতে সুবিধাজনক ন্যূনতম সম্পাদনা সক্ষম করার জন্য প্রতি-গার্মেন্ট এনকোডিং ব্যবহার করে একটি ফ্যাশন মডেল সংশ্লেষণ নেটওয়ার্ক শিখেছে। বিপরীতে, আমরা পণ্যগুলিকে বাস্তব মডেলের চিত্রগুলিতে বিদ্ধ করি।
মডেলের সাথে পণ্যের মিল করার জন্য আকৃতির মিল আমাদের পদ্ধতির অন্তর্গত। Tsiao et al. [১৯] মানবদেহের সাথে মানানসই পোশাকের আইটেমগুলির মধ্যে মিলের জন্য একটি আকৃতি এমবেডিং তৈরি করা হয়েছে। পূর্বের কাজ 2D চিত্রের মাধ্যমে মানবদেহের আকার [4,27], পোশাকের আইটেম [10,25] এবং উভয়ই [35,40] অনুমান করেছিল। ডেনসপোজ [১] বর্ণনাকারী কাপড়ের বিকৃতি এবং ছায়ার মডেলিং করতে সাহায্য করে এবং তাই সাম্প্রতিক কাজ [36,13,47,51,7,52] দ্বারা গৃহীত হয়েছে।
ভার্চুয়াল ট্রাই-অন (VTO) একটি পণ্যকে একটি মডেল ইমেজে ম্যাপ করে। VITON [17] একটি মোটা সংশ্লেষণ তৈরি করতে একটি U-নেট ব্যবহার করে এবং মডেলটিতে একটি মুখোশ তৈরি করে যেখানে পণ্যটি উপস্থাপন করা হয়। পণ্যের মাস্ক থেকে অন-মডেল মাস্কে একটি ম্যাপিং থিন প্লেট স্প্লাইন (টিপিএস) রূপান্তরের মাধ্যমে শেখা হয় [৩]। একটি ওয়ার্প তৈরি করতে পণ্যের চিত্রে শেখা ম্যাপিং প্রয়োগ করা হয়। তাদের কাজ অনুসরণ করে, ওয়াং এট আল। [৪৫] একটি জ্যামিতিক ম্যাচিং মডিউল ব্যবহার করে আর্কিটেকচার উন্নত করেছে [৩৯] পণ্যের ছবি এবং টার্গেট ব্যক্তির জোড়া থেকে সরাসরি TPS রূপান্তর পরামিতি অনুমান করতে। তারা ওয়ার্প এবং টার্গেট ইমেজকে একত্রিত করার জন্য একটি পৃথক পরিমার্জন নেটওয়ার্ক প্রশিক্ষণ দেয়। VTNFP [53] শরীরের অংশগুলির পূর্বাভাসকে অন্তর্ভুক্ত করে কাজকে প্রসারিত করে এবং পরবর্তী কাজগুলি অনুরূপ পদ্ধতি অনুসরণ করে [37,24,42,22,2]। যাইহোক, আমাদের ডেটাসেটে জেনারেট করা মুখোশের আওয়াজ হওয়ার কারণে, টিপিএস রূপান্তর যুক্তিসঙ্গত ওয়ার্প তৈরি করতে ব্যর্থ হয়, যেমনটি চিত্র 6-এ দেখানো হয়েছে। পরিবর্তে, আমরা affine ট্রান্সফরমেশন গ্রহণ করি যা আমরা TPS ট্রান্সফর্মেশনের পরিবর্তে অসম্পূর্ণতার জন্য আরও শক্তিশালী বলে মনে করেছি। নিম্নলিখিত কাজের একটি গোষ্ঠী কাজটিকে বহু-পোজ পর্যন্ত প্রসারিত করেছে। Warping-GAN [11] জিএমএম-এর সাথে একত্রিত প্রতিকূল প্রশিক্ষণ, এবং দুটি পর্যায় নেটওয়ার্ক ব্যবহার করে আলাদাভাবে পোস্ট এবং টেক্সচার তৈরি করে। MG-VTON [12] একটি তিন-পর্যায়ের প্রজন্মের নেটওয়ার্ক ব্যবহার করে প্রজন্মের পদ্ধতিটিকে আরও পরিমার্জন করে। অন্যান্য কাজ [21,55,51,7,46] অনুরূপ পদ্ধতি অনুসরণ করে। হান এট আল। [১৫] যুক্তি দিয়েছিলেন যে টিপিএস রূপান্তরের স্বাধীনতার কম ডিগ্রি রয়েছে এবং ওয়ার্প তৈরির জন্য একটি প্রবাহ-ভিত্তিক পদ্ধতি প্রস্তাব করেছে।
অনেক বিদ্যমান ভার্চুয়াল ট্রাই-অন ওয়ার্ক [17,12,21,47,55,53,24,37] ডেটাসেটগুলিতে মূল্যায়ন করা হয় যেগুলিতে শুধুমাত্র টপস (টি-শার্ট, শার্ট, ইত্যাদি) রয়েছে। শুধুমাত্র টপস থাকলে তা আকৃতির অমিল হওয়ার সম্ভাবনাকে অনেকাংশে কমিয়ে দেয় কারণ টপসের আকার সহজ এবং একই রকম। আমাদের কাজে, আমরা সমস্ত বিভাগের (টিশার্ট, শার্ট, প্যান্ট, শর্টস, পোষাক, স্কার্ট, আলখাল্লা, জ্যাকেট, কোট ইত্যাদি) পোশাকের আইটেমগুলিকে অন্তর্ভুক্ত করার জন্য সমস্যাটি প্রসারিত করি এবং উত্স পণ্যের মধ্যে আকৃতি মেলানোর জন্য একটি পদ্ধতি প্রস্তাব করি। এবং লক্ষ্য মডেল। মূল্যায়ন দেখায় যে আকৃতির সাথে মেলে এমন জোড়া ব্যবহার করা আমাদের এবং পূর্বের উভয় কাজের জন্য প্রজন্মের গুণমানকে উল্লেখযোগ্যভাবে বৃদ্ধি করে (সারণী 4.3)।
এছাড়াও, বাস্তব স্টুডিওর পোশাকগুলি প্রায়শই একটি আনজিপড/আনবোটনযুক্ত বাইরের পোশাক দ্বারা আবৃত থাকে, যা পূর্ববর্তী কাজেও উপস্থাপন করা হয় না [17,12,21,47,55,53,37]। এটি পোশাকে পার্টিশন বা গুরুতর বাধা সৃষ্টি করতে পারে, এবং চিত্র 6-এ দেখানো পূর্ববর্তী কাজের দ্বারা সমাধান করা হয় না। আমরা দেখাই যে আমাদের মাল্টি-ওয়ার্প জেনারেশন মডিউল এই অসুবিধাগুলিকে কমিয়ে দেয়।
এই কাগজটি CC BY-NC-SA 4.0 DEED লাইসেন্সের অধীনে arxiv-এ উপলব্ধ ।