লেখক:
(1) কেদান লি, আরবানা-চ্যাম্পেইনের ইলিনয় বিশ্ববিদ্যালয়;
(২) মিন জিন চং, ইউনিভার্সিটি অফ ইলিনয় অ্যাট আরবানা-চ্যাম্পেইন;
(3) জিনজেন লিউ, জেডি এআই গবেষণা;
(4) ডেভিড ফোরসিথ, আরবানা-চ্যাম্পেইনের ইলিনয় বিশ্ববিদ্যালয়।
একটি ভার্চুয়াল ট্রাই-অন পদ্ধতি একটি পণ্যের চিত্র এবং একটি মডেলের একটি চিত্র নেয় এবং পণ্যটি পরা মডেলের একটি চিত্র তৈরি করে। বেশিরভাগ পদ্ধতিই মূলত পণ্যের ইমেজ থেকে মডেল ইমেজ পর্যন্ত ওয়ার্প গণনা করে এবং ইমেজ তৈরির পদ্ধতি ব্যবহার করে একত্রিত করে। যাইহোক, একটি বাস্তবসম্মত ইমেজ পাওয়া চ্যালেঞ্জিং কারণ পোশাকের গতিবিদ্যা জটিল এবং কারণ চিত্রের রূপরেখা, টেক্সচার এবং শেডিং সংকেত মানব দর্শকদের কাছে ত্রুটি প্রকাশ করে। পোশাকে অবশ্যই উপযুক্ত ড্রেপ থাকতে হবে; টেক্সচার একটি draped পোশাকের আকৃতির সাথে সামঞ্জস্যপূর্ণ হতে বিকৃত করা আবশ্যক; ছোট বিবরণ (বোতাম, কলার, ল্যাপেল, পকেট, ইত্যাদি) পোশাকের উপর যথাযথভাবে স্থাপন করতে হবে, ইত্যাদি। মূল্যায়ন বিশেষভাবে কঠিন এবং সাধারণত গুণগত।
এই কাগজটি একটি চ্যালেঞ্জিং, অভিনব ডেটাসেটের পরিমাণগত মূল্যায়ন ব্যবহার করে তা প্রদর্শন করে যে (ক) যেকোনও ওয়ারিং পদ্ধতির জন্য, কেউ ফলাফল উন্নত করতে স্বয়ংক্রিয়ভাবে টার্গেট মডেল বেছে নিতে পারে এবং (খ) একাধিক সমন্বিত বিশেষ ওয়ারপার শেখা ফলাফলে আরও উন্নতির প্রস্তাব দেয়। টার্গেট মডেলগুলি একটি শেখা এমবেডিং পদ্ধতি দ্বারা বেছে নেওয়া হয় যা মডেলটি পরা পণ্যগুলির একটি উপস্থাপনা পূর্বাভাস দেয়৷ এই ভবিষ্যদ্বাণীটি মডেলের সাথে পণ্যগুলিকে মেলাতে ব্যবহৃত হয়। বিশেষায়িত ওয়ারপারদের এমন একটি পদ্ধতির মাধ্যমে প্রশিক্ষিত করা হয় যা একটি দ্বিতীয় ওয়ারপারকে এমন স্থানে ভালো পারফর্ম করতে উৎসাহিত করে যেখানে প্রথমটি খারাপভাবে কাজ করে। তারপর একটি U-নেট ব্যবহার করে warps একত্রিত করা হয়. গুণগত মূল্যায়ন নিশ্চিত করে যে এই উন্নতিগুলি আউটলাইন, টেক্সচার শেডিং এবং পোশাকের বিশদ বিবরণে পাইকারি।
কীওয়ার্ড: ফ্যাশন, ভার্চুয়াল ট্রাই-অন, ইমেজ জেনারেশন, ইমেজ ওয়ার্পিং
ই-কমার্স মানে একটি পণ্য চেষ্টা করতে সক্ষম না হওয়া, যা ফ্যাশন ভোক্তাদের জন্য কঠিন [44]। সাইটগুলি এখন নিয়মিতভাবে পণ্য পরিহিত মডেলের ফটোশুট করে, কিন্তু ভলিউম এবং টার্নওভার মানে এটি করা খুবই ব্যয়বহুল এবং সময়সাপেক্ষ [৩৪]। পোশাকের বিভিন্ন সেট পরা ফ্যাশন মডেলদের বাস্তবসম্মত এবং সঠিক চিত্র তৈরি করা প্রয়োজন। কেউ ভঙ্গির 3D মডেল ব্যবহার করতে পারে [8,14]। বিকল্প - 3D পরিমাপ ছাড়াই পণ্য-মডেল চিত্রগুলি সংশ্লেষিত করুন [17,45,39,11,15] - ভার্চুয়াল ট্রাই-অন হিসাবে পরিচিত। এই পদ্ধতিগুলি সাধারণত দুটি উপাদান নিয়ে গঠিত: 1) পণ্যটি বিকৃত করার জন্য একটি স্থানিক ট্রান্সফরমার
মডেলের ভঙ্গির কিছু অনুমান ব্যবহার করে ইমেজ এবং 2) একটি ইমেজ জেনারেশন নেটওয়ার্ক যা মোটামুটিভাবে সারিবদ্ধ, বিকৃত পণ্যটিকে মডেল ইমেজের সাথে একত্রিত করে যাতে পণ্যটি পরা মডেলের একটি বাস্তবসম্মত চিত্র তৈরি করা হয়।
টি-শার্টের মতো সাধারণ পোশাকের সাথে স্থানান্তর করা অনেক সহজ, যা সাহিত্যে জোর দেওয়া হয়েছে। সাধারণ পোশাক (টি-শার্টের বিপরীতে) সামনে খুলতে পারে; অত্যাধুনিক drapes আছে; কলার এবং কাফের মত আকৃতির কাঠামো আছে; বোতাম আছে; এবং তাই এই প্রভাবগুলি বিদ্যমান পদ্ধতিগুলিকে গুরুতরভাবে চ্যালেঞ্জ করে (পরিপূরক উপাদানগুলির উদাহরণ)। ওয়ার্পিং উল্লেখযোগ্যভাবে উন্নত হয় যদি কেউ পণ্যের ছবি ব্যবহার করে সেই পোশাকের জন্য উপযুক্ত মডেলের ছবি বেছে নেয় (চিত্র 1)।
অন্তত আংশিকভাবে, এটি ইমেজ প্রজন্মের নেটওয়ার্কগুলিকে প্রশিক্ষিত করার ফলাফল। আমরা জোড়া ছবি ব্যবহার করে প্রশিক্ষণ দিই - একটি পণ্য এবং একটি পণ্য পরা একটি মডেল [17,45,53]। এর মানে হল যে প্রজন্মের নেটওয়ার্ক সবসময় আশা করে যে টার্গেট ইমেজটি পণ্যের জন্য উপযুক্ত হবে (তাই এটি প্রশিক্ষিত নয়, উদাহরণস্বরূপ, একটি পোশাক পরা একটি মডেলের উপর একটি সোয়েটার লাগাতে, চিত্র 1)। একটি বিকল্প হল প্রতিপক্ষ প্রশিক্ষণ ব্যবহার করা [11,12,38,13,37]; কিন্তু এই কাঠামোতে নির্দিষ্ট পণ্যের বিবরণ (উদাহরণস্বরূপ, বোতামের একটি নির্দিষ্ট শৈলী; টি-শার্টের একটি ডিকাল) সংরক্ষণ করা কঠিন। এই অসুবিধা মোকাবেলা করার জন্য, আমরা পণ্য-মডেল জোড়া বেছে নেওয়ার জন্য একটি এম্বেডিং স্থান শিখি যার ফলে উচ্চ-মানের স্থানান্তর হবে (চিত্র 2)। এমবেডিং ভবিষ্যদ্বাণী করতে শেখে যে একটি মডেল ইমেজে একটি পোশাক কী আকার নেবে যদি এটি একটি পণ্যের ছবিতে থাকে। পণ্যগুলি তারপর একই আকারের পোশাক পরা মডেলগুলির সাথে মিলিত হয়। যেহেতু মডেলগুলি সাধারণত অনেকগুলি পোশাক পরে, তাই আমরা পোশাকের প্রতিটি বিভাগ (শীর্ষ, নীচে, বাইরের পোশাক, সমস্ত শরীর, ইত্যাদি) পার্স করার জন্য একটি স্থানিক মনোযোগের ভিজ্যুয়াল এনকোডার ব্যবহার করি এবং প্রতিটি আলাদাভাবে এম্বেড করি।
আরেকটি সমস্যা দেখা দেয় যখন একটি পোশাক খোলা থাকে (উদাহরণস্বরূপ, একটি বোতামহীন কোট)। এই ক্ষেত্রে, ওয়ার্পের লক্ষ্যে একাধিক সংযুক্ত উপাদান থাকতে পারে। ওয়ারপাররা একটি অঞ্চলকে ভালভাবে এবং অন্যটি খারাপভাবে ফিট করে প্রতিক্রিয়া দেখায়, যার ফলে বিশদ বিবরণ (চিত্র 1-এর বোতাম) হয়। এই ধরনের ত্রুটিগুলি প্রশিক্ষণের ক্ষতিতে সামান্য অবদান রাখতে পারে, তবে এটি খুব স্পষ্ট এবং প্রকৃত ব্যবহারকারীদের দ্বারা গুরুতর সমস্যা হিসাবে বিবেচিত হয়। আমরা দেখাই যে একাধিক সমন্বিত বিশেষায়িত ওয়ারপ ব্যবহার করে ওয়ারপিংয়ে যথেষ্ট পরিমাণগত এবং গুণগত উন্নতি হয়। আমাদের ওয়ারপার একাধিক ওয়ার্প তৈরি করে, একে অপরের সাথে সমন্বয় করার জন্য প্রশিক্ষিত। একটি ইনপেইন্টিং নেটওয়ার্ক ওয়ার্পস এবং মুখোশযুক্ত মডেলকে একত্রিত করে এবং একটি সংশ্লেষিত চিত্র তৈরি করে। ইনপেইন্টিং নেটওয়ার্ক মূলত ওয়ার্পের মধ্যে বেছে নিতে শেখে, পাশাপাশি ওয়ারপারকে নির্দেশনা প্রদান করে, কারণ তারা যৌথভাবে প্রশিক্ষিত হয়। গুণগত মূল্যায়ন নিশ্চিত করে যে উন্নতির একটি গুরুত্বপূর্ণ অংশটি বোতাম, পকেট, লেবেল এবং এর মতো আরও ভাল ভবিষ্যদ্বাণী থেকে আসে।
আমরা ভার্চুয়াল ট্রাই-অনের বড় আকারের পরিমাণগত মূল্যায়ন দেখাই। আমরা ফ্যাশন ই-কমার্স সাইট খনন করে 422,756 জোড়া পণ্যের ছবি এবং স্টুডিও ফটোগুলির একটি নতুন ডেটাসেট সংগ্রহ করেছি। ডেটাসেটে একাধিক পণ্যের বিভাগ রয়েছে। আমরা প্রতিষ্ঠিত VITON ডেটাসেটের পূর্বের কাজের সাথে তুলনা করি [17] পরিমাণগত এবং গুণগতভাবে। পরিমাণগত ফলাফল দেখায় যে আমাদের আকৃতি এমবেডিং ব্যবহার করে পণ্য মডেল জোড়া নির্বাচন করা সমস্ত চিত্র প্রজন্মের পাইপলাইনের জন্য উল্লেখযোগ্য উন্নতি করে (সারণী 4.3)। একাধিক ওয়ার্প ব্যবহার করেও ধারাবাহিকভাবে একক ওয়ার্প বেসলাইনকে ছাড়িয়ে যায়, উভয় পরিমাণগত (সারণী 4.3, চিত্র 5) এবং গুণগত (চিত্র 7) ফলাফলের মাধ্যমে প্রদর্শিত হয়। পূর্বের কাজের সাথে গুণগত তুলনা দেখায় যে আমাদের সিস্টেম টোচেঞ্জ পোশাক এবং টার্গেট মডেল উভয়ের বিশদ পূর্ববর্তী কাজের চেয়ে আরও সঠিকভাবে সংরক্ষণ করে। আমরা সংশ্লেষিত মডেলের সাথে বাস্তব মডেল প্রতিস্থাপন করার জন্য ই-কমার্সের জন্য খরচ অনুকরণ করে একটি ব্যবহারকারী অধ্যয়ন পরিচালনা করেছি। ফলাফল দেখায় আমাদের সংশ্লেষিত মডেলের 40% বাস্তব মডেল হিসাবে বিবেচিত হয়।
আমাদের অবদানের সারসংক্ষেপ হিসাবে:
- আমরা একটি ম্যাচিং পদ্ধতি প্রবর্তন করি যার ফলে ভার্চুয়াল ট্রাই-অনে উল্লেখযোগ্য গুণগত এবং পরিমাণগত উন্নতি হয়, যাই হোক না কেন ওয়ারপার ব্যবহার করা হয়।
- আমরা একটি ওয়ারপিং মডেল প্রবর্তন করি যা একাধিক সমন্বিত-ওয়ার্প শিখে এবং ধারাবাহিকভাবে সমস্ত পরীক্ষা সেটে বেসলাইনকে ছাড়িয়ে যায়।
- আমাদের উৎপন্ন ফলাফলগুলি বিশদ বিবরণকে সঠিকভাবে এবং বাস্তবসম্মতভাবে সংরক্ষণ করে যাতে ক্রেতারা ভাবতে পারেন যে কিছু সংশ্লেষিত ছবি বাস্তব।
এই কাগজটি CC BY-NC-SA 4.0 DEED লাইসেন্সের অধীনে arxiv-এ উপলব্ধ ।