paint-brush
শেপ ম্যাচিং এর মাধ্যমে সঠিক, বাস্তবসম্মত ভার্চুয়াল ট্রাই-অন: সম্পর্কিত কাজদ্বারা@polyframe
252 পড়া

শেপ ম্যাচিং এর মাধ্যমে সঠিক, বাস্তবসম্মত ভার্চুয়াল ট্রাই-অন: সম্পর্কিত কাজ

দ্বারা Polyframe Peer Reviewed Publication4m2024/06/08
Read on Terminal Reader

অতিদীর্ঘ; পড়তে

গবেষকরা একটি নতুন ডেটাসেট ব্যবহার করে টার্গেট মডেল বেছে নেওয়ার মাধ্যমে ভার্চুয়াল ট্রাই-অন পদ্ধতি উন্নত করে এবং বিশেষ ওয়ারপারদের প্রশিক্ষণ দেয়, বাস্তববাদ এবং নির্ভুলতা বৃদ্ধি করে।
featured image - শেপ ম্যাচিং এর মাধ্যমে সঠিক, বাস্তবসম্মত ভার্চুয়াল ট্রাই-অন: সম্পর্কিত কাজ
Polyframe Peer Reviewed Publication HackerNoon profile picture
0-item

লেখক:

(1) কেদান লি, আরবানা-চ্যাম্পেইনের ইলিনয় বিশ্ববিদ্যালয়;

(২) মিন জিন চং, ইউনিভার্সিটি অফ ইলিনয় অ্যাট আরবানা-চ্যাম্পেইন;

(3) জিনজেন লিউ, জেডি এআই গবেষণা;

(4) ডেভিড ফোরসিথ, আরবানা-চ্যাম্পেইনের ইলিনয় বিশ্ববিদ্যালয়।

লিঙ্কের টেবিল

2. সম্পর্কিত কাজ

চিত্র সংশ্লেষণ : স্থানিক ট্রান্সফরমার নেটওয়ার্কগুলি নিউরাল নেটওয়ার্ক ব্যবহার করে জ্যামিতিক রূপান্তর অনুমান করে [২৩]। পরবর্তী কাজ [২৮,৩৯] দেখায় কিভাবে একটি বস্তুকে অন্য বস্তুর সাথে বিদ্ধ করা যায়। ওয়ার্পিং অনমনীয় বস্তু [26,30] এবং নন-রিজিড বস্তুর (যেমন, পোশাক) [17,12,45] ছবি তৈরি করতে ব্যবহার করা যেতে পারে। পূর্বের কাজের বিপরীতে, আমরা একাধিক স্থানিক ওয়ারপার ব্যবহার করি।


আমাদের ওয়ার্পগুলি অবশ্যই একটি একক চিত্রের সাথে মিলিত হতে হবে এবং এই চিত্রটি তৈরি করার জন্য আমাদের ইউ-নেট ইনপেইন্টিংয়ের প্রবণতা অনুসরণ করে (যে পদ্ধতিগুলি একটি চিত্রের অনুপস্থিত অংশগুলি পূরণ করে, দেখুন [48,31,50,49])। হান এট আল। [16,52] শো ইনপেইন্টিং পদ্ধতি মানুষের গায়ে পোশাক আইটেম অনুপস্থিত সম্পূর্ণ করতে পারে.


আমাদের কাজে, আমরা আমাদের পদ্ধতিকে পরিমাণগতভাবে মূল্যায়ন করতে FID∞ ব্যবহার করি। এটি ফ্রচেট ইনসেপশন ডিসট্যান্স (এফআইডি) [18] এর উপর ভিত্তি করে তৈরি করা হয়েছে, জেনারেটিভ ইমেজ মডেলিংয়ের একটি সাধারণ মেট্রিক [5,54,29]। চং এট আল। [৯] সম্প্রতি দেখা গেছে যে FID পক্ষপাতদুষ্ট; এক্সট্রাপোলেশন পক্ষপাত দূর করে, একটি নিরপেক্ষ স্কোরে (FID∞)।


পোশাক পরা মানুষ তৈরি করা: ঝু এট আল। [57] পোজ কঙ্কাল এবং পোশাকের পাঠ্য বিবরণের উপর ভিত্তি করে চিত্র তৈরি করতে একটি শর্তাধীন GAN ব্যবহার করেছে। SwapNet [৩৮] পোশাক এবং ভঙ্গি বৈশিষ্ট্যগুলিকে বিচ্ছিন্ন করে ব্যক্তি A থেকে ব্যক্তি B তে কাপড় স্থানান্তর করতে শেখে। Hsiao et al. [২০] নির্দিষ্ট আইটেমগুলিতে সুবিধাজনক ন্যূনতম সম্পাদনা সক্ষম করার জন্য প্রতি-গার্মেন্ট এনকোডিং ব্যবহার করে একটি ফ্যাশন মডেল সংশ্লেষণ নেটওয়ার্ক শিখেছে। বিপরীতে, আমরা পণ্যগুলিকে বাস্তব মডেলের চিত্রগুলিতে বিদ্ধ করি।


মডেলের সাথে পণ্যের মিল করার জন্য আকৃতির মিল আমাদের পদ্ধতির অন্তর্গত। Tsiao et al. [১৯] মানবদেহের সাথে মানানসই পোশাকের আইটেমগুলির মধ্যে মিলের জন্য একটি আকৃতি এমবেডিং তৈরি করা হয়েছে। পূর্বের কাজ 2D চিত্রের মাধ্যমে মানবদেহের আকার [4,27], পোশাকের আইটেম [10,25] এবং উভয়ই [35,40] অনুমান করেছিল। ডেনসপোজ [১] বর্ণনাকারী কাপড়ের বিকৃতি এবং ছায়ার মডেলিং করতে সাহায্য করে এবং তাই সাম্প্রতিক কাজ [36,13,47,51,7,52] দ্বারা গৃহীত হয়েছে।


ভার্চুয়াল ট্রাই-অন (VTO) একটি পণ্যকে একটি মডেল ইমেজে ম্যাপ করে। VITON [17] একটি মোটা সংশ্লেষণ তৈরি করতে একটি U-নেট ব্যবহার করে এবং মডেলটিতে একটি মুখোশ তৈরি করে যেখানে পণ্যটি উপস্থাপন করা হয়। পণ্যের মাস্ক থেকে অন-মডেল মাস্কে একটি ম্যাপিং থিন প্লেট স্প্লাইন (টিপিএস) রূপান্তরের মাধ্যমে শেখা হয় [৩]। একটি ওয়ার্প তৈরি করতে পণ্যের চিত্রে শেখা ম্যাপিং প্রয়োগ করা হয়। তাদের কাজ অনুসরণ করে, ওয়াং এট আল। [৪৫] একটি জ্যামিতিক ম্যাচিং মডিউল ব্যবহার করে আর্কিটেকচার উন্নত করেছে [৩৯] পণ্যের ছবি এবং টার্গেট ব্যক্তির জোড়া থেকে সরাসরি TPS রূপান্তর পরামিতি অনুমান করতে। তারা ওয়ার্প এবং টার্গেট ইমেজকে একত্রিত করার জন্য একটি পৃথক পরিমার্জন নেটওয়ার্ক প্রশিক্ষণ দেয়। VTNFP [53] শরীরের অংশগুলির পূর্বাভাসকে অন্তর্ভুক্ত করে কাজকে প্রসারিত করে এবং পরবর্তী কাজগুলি অনুরূপ পদ্ধতি অনুসরণ করে [37,24,42,22,2]। যাইহোক, আমাদের ডেটাসেটে জেনারেট করা মুখোশের আওয়াজ হওয়ার কারণে, টিপিএস রূপান্তর যুক্তিসঙ্গত ওয়ার্প তৈরি করতে ব্যর্থ হয়, যেমনটি চিত্র 6-এ দেখানো হয়েছে। পরিবর্তে, আমরা affine ট্রান্সফরমেশন গ্রহণ করি যা আমরা TPS ট্রান্সফর্মেশনের পরিবর্তে অসম্পূর্ণতার জন্য আরও শক্তিশালী বলে মনে করেছি। নিম্নলিখিত কাজের একটি গোষ্ঠী কাজটিকে বহু-পোজ পর্যন্ত প্রসারিত করেছে। Warping-GAN [11] জিএমএম-এর সাথে একত্রিত প্রতিকূল প্রশিক্ষণ, এবং দুটি পর্যায় নেটওয়ার্ক ব্যবহার করে আলাদাভাবে পোস্ট এবং টেক্সচার তৈরি করে। MG-VTON [12] একটি তিন-পর্যায়ের প্রজন্মের নেটওয়ার্ক ব্যবহার করে প্রজন্মের পদ্ধতিটিকে আরও পরিমার্জন করে। অন্যান্য কাজ [21,55,51,7,46] অনুরূপ পদ্ধতি অনুসরণ করে। হান এট আল। [১৫] যুক্তি দিয়েছিলেন যে টিপিএস রূপান্তরের স্বাধীনতার কম ডিগ্রি রয়েছে এবং ওয়ার্প তৈরির জন্য একটি প্রবাহ-ভিত্তিক পদ্ধতি প্রস্তাব করেছে।


অনেক বিদ্যমান ভার্চুয়াল ট্রাই-অন ওয়ার্ক [17,12,21,47,55,53,24,37] ডেটাসেটগুলিতে মূল্যায়ন করা হয় যেগুলিতে শুধুমাত্র টপস (টি-শার্ট, শার্ট, ইত্যাদি) রয়েছে। শুধুমাত্র টপস থাকলে তা আকৃতির অমিল হওয়ার সম্ভাবনাকে অনেকাংশে কমিয়ে দেয় কারণ টপসের আকার সহজ এবং একই রকম। আমাদের কাজে, আমরা সমস্ত বিভাগের (টিশার্ট, শার্ট, প্যান্ট, শর্টস, পোষাক, স্কার্ট, আলখাল্লা, জ্যাকেট, কোট ইত্যাদি) পোশাকের আইটেমগুলিকে অন্তর্ভুক্ত করার জন্য সমস্যাটি প্রসারিত করি এবং উত্স পণ্যের মধ্যে আকৃতি মেলানোর জন্য একটি পদ্ধতি প্রস্তাব করি। এবং লক্ষ্য মডেল। মূল্যায়ন দেখায় যে আকৃতির সাথে মেলে এমন জোড়া ব্যবহার করা আমাদের এবং পূর্বের উভয় কাজের জন্য প্রজন্মের গুণমানকে উল্লেখযোগ্যভাবে বৃদ্ধি করে (সারণী 4.3)।


এছাড়াও, বাস্তব স্টুডিওর পোশাকগুলি প্রায়শই একটি আনজিপড/আনবোটনযুক্ত বাইরের পোশাক দ্বারা আবৃত থাকে, যা পূর্ববর্তী কাজেও উপস্থাপন করা হয় না [17,12,21,47,55,53,37]। এটি পোশাকে পার্টিশন বা গুরুতর বাধা সৃষ্টি করতে পারে, এবং চিত্র 6-এ দেখানো পূর্ববর্তী কাজের দ্বারা সমাধান করা হয় না। আমরা দেখাই যে আমাদের মাল্টি-ওয়ার্প জেনারেশন মডিউল এই অসুবিধাগুলিকে কমিয়ে দেয়।


চিত্র 2. টি-শার্ট পরা মডেলের উপর লম্বা হাতার শার্ট স্থানান্তর করা কঠিন। আমাদের প্রক্রিয়া দুটি পর্যায়ে সামঞ্জস্যপূর্ণ জোড়া পুনরুদ্ধার করে। প্রথমত, আমরা একটি গার্মেন্ট ভিজ্যুয়াল এনকোডার ব্যবহার করে একটি পোশাকের চেহারা এমবেডিং গণনা করি, পণ্য-মডেল জোড়া এবং স্থানিক মনোযোগ ব্যবহার করে প্রশিক্ষিত। তারপর, একটি আকৃতি এনকোডার গার্মেন্টের চেহারা এম্বেডিং থেকে আকৃতি এমবেডিং গণনা করে। আকৃতি এমবেডিং মেট্রিক হিসাবে পণ্য কনট্যুর ব্যবহার করে শেখা হয়, যা শুধুমাত্র আকৃতির তথ্য সংরক্ষণ করে। যখন আমরা স্থানান্তর করি, আমরা আকৃতি এমবেডিং স্থান অনুসন্ধান করে একটি সামঞ্জস্যপূর্ণ পোশাক পরা একটি মডেল নির্বাচন করি।


এই কাগজটি CC BY-NC-SA 4.0 DEED লাইসেন্সের অধীনে arxiv-এ উপলব্ধ