লেখক:
(1) কেদান লি, আরবানা-চ্যাম্পেইনের ইলিনয় বিশ্ববিদ্যালয়;
(2) মিন জিন চং, ইউনিভার্সিটি অফ ইলিনয় অ্যাট আরবানা-চ্যাম্পেইন;
(3) জিনজেন লিউ, জেডি এআই গবেষণা;
(4) ডেভিড ফোরসিথ, আরবানা-চ্যাম্পেইনের ইলিনয় বিশ্ববিদ্যালয়।
VITON ডেটাসেট [17] পণ্যের চিত্রের জোড়া রয়েছে (সামনের দৃশ্য, ফ্ল্যাট, সাদা ব্যাকগ্রাউন্ড) এবং স্টুডিও চিত্র, 2D পোজ মানচিত্র এবং পোজ কী-পয়েন্ট। এটি অনেক কাজে ব্যবহার করা হয়েছে [45,11,15,53,24,22,2,37]। ডিপফ্যাশন [৩৩] বা এমভিসি [৩২] এবং অন্যান্য স্ব-সংগৃহীত ডেটাসেট [১২,২১,৪৭,৫৫] ব্যবহার করা মাল্টি-পোজ ম্যাচিং-এর উপর কিছু কাজ [৪৭,১৫,১৩,৫১]। এই ডেটাসেটগুলিতে একাধিক লোকের দ্বারা পরিধান করা একই পণ্য রয়েছে, কিন্তু পণ্যের ছবি নেই, তাই আমাদের কাজের জন্য উপযুক্ত নয়।
VITON ডেটাসেটে শুধুমাত্র টপস আছে। এটি সম্ভবত কর্মক্ষমতাকে পক্ষপাতদুষ্ট করে, কারণ (উদাহরণস্বরূপ): ট্রাউজারের ড্রেপ টপসের ড্রেপ থেকে আলাদা; কিছু পোশাক (পোশাক, জ্যাকেট, ইত্যাদি) প্রায়ই আনজিপ করা হয় এবং খোলা থাকে, যা ওয়ারিং সমস্যা তৈরি করে; স্কার্টের ড্রেপ অত্যন্ত পরিবর্তনশীল, এবং তা নির্ভর করে বিশদ বিবরণের উপর যেমন pleating, ফ্যাব্রিক দানার অভিযোজন ইত্যাদি। এই বাস্তব-বিশ্বের সমস্যার উপর জোর দিতে, আমরা ওয়েব-স্ক্র্যাপিং ফ্যাশন ই-কমার্স সাইটগুলির মাধ্যমে 422,756 ফ্যাশন পণ্যের একটি নতুন ডেটাসেট সংগ্রহ করেছি। প্রতিটি পণ্যে একটি পণ্যের চিত্র (সামনে-ভিউ, পাড়া সমতল, সাদা ব্যাকগ্রাউন্ড), একটি মডেল চিত্র (একক ব্যক্তি, বেশিরভাগ সামনের-দর্শন) এবং অন্যান্য মেটাডেটা থাকে। আমরা জুতা এবং আনুষাঙ্গিক ব্যতীত সমস্ত বিভাগ ব্যবহার করি এবং সেগুলিকে চার ধরণের (শীর্ষ, বটম, বাইরের পোশাক, বা সমস্ত শরীর) ভাগ করি। প্রকারের বিবরণ সম্পূরক উপকরণগুলিতে উপস্থিত হয়।
আমরা এলোমেলোভাবে প্রশিক্ষণের জন্য 80% এবং পরীক্ষার জন্য 20% ডেটা বিভক্ত করি। যেহেতু ডেটাসেটটি সেগমেন্টেশন টীকা দিয়ে আসে না, আমরা মডেল ইমেজের জন্য সেগমেন্টেশন মাস্ক পেতে ModaNet ডেটাসেটে প্রাক-প্রশিক্ষিত Deeplab v3 [6] ব্যবহার করি। বিভাজনের মুখোশের একটি বড় অংশ কোলাহলপূর্ণ, যা আরও অসুবিধা বাড়ায় (পরিপূরক উপকরণ দেখুন)।
আমরা আমাদের নতুন সংগৃহীত ডেটাসেট এবং VITON ডেটাসেট [17] এর উপর আমাদের মডেলকে প্রশিক্ষণ দিই যাতে পূর্বের কাজের সাথে তুলনা করা যায়। VITON ডেটাসেটে আমাদের পদ্ধতিকে প্রশিক্ষণ দেওয়ার সময়, আমরা বিভাজন মাস্ক পেতে পণ্যের সাথে সামঞ্জস্যপূর্ণ 2D পোজ মানচিত্রের অংশটি বের করি এবং বাকিটি বাতিল করি। প্রশিক্ষণ পদ্ধতির বিশদ পরিপূরক সামগ্রীতে রয়েছে।
আমরা আমাদের ডেটাসেটে পূর্বের কাজগুলিকে প্রশিক্ষণ দেওয়ার চেষ্টা করেছি৷ যাইহোক, পূর্ববর্তী কাজের [45,17,11,15,53,24,22,13,47,51,7,37] পোজ অনুমান টীকা প্রয়োজন যা আমাদের ডেটাসেটে উপলব্ধ নেই। এইভাবে, আমরা শুধুমাত্র VITON ডেটাসেটের পূর্বের কাজের সাথে তুলনা করি।
শিল্পের সাথে পরিমাণগত তুলনা করা কঠিন। অন্যান্য কাগজপত্রে এফআইডি রিপোর্ট করা অর্থহীন, কারণ মানটি পক্ষপাতমূলক এবং পক্ষপাতটি ব্যবহৃত নেটওয়ার্কের পরামিতিগুলির উপর নির্ভর করে [9,37]। আমরা FID∞ স্কোর ব্যবহার করি, যা নিরপেক্ষ। আমরা বেশিরভাগ অন্যান্য পদ্ধতির জন্য FID∞ গণনা করতে পারি না, কারণ ফলাফল প্রকাশ করা হয়নি; প্রকৃতপক্ষে, সাম্প্রতিক পদ্ধতিগুলি (যেমন [15,53,24,24,42,22,2]) একটি বাস্তবায়ন প্রকাশ করেনি। CP-VTON [45] আছে, এবং আমরা এটিকে তুলনার একটি পয়েন্ট হিসাবে ব্যবহার করি।
বেশিরভাগ মূল্যায়ন গুণগত, এবং অন্যরা [২৪,৩৭] ভিটনের মূল পরীক্ষার সেটে এফআইডি স্কোরও গণনা করেছে, যা মাত্র ২,০৩২টি সংশ্লেষিত জোড়া নিয়ে গঠিত। ছোট ডেটাসেটের কারণে, এই FID স্কোর অর্থবহ নয়। গণনা থেকে উদ্ভূত ভিন্নতা বেশি হবে যা FID স্কোরে একটি বড় পক্ষপাতের দিকে নিয়ে যায়, এটিকে ভুল রেন্ডার করে। একটি সঠিক তুলনা নিশ্চিত করার জন্য, আমরা মূল কাজের পদ্ধতি অনুসরণ করে এলোমেলো মিলের মাধ্যমে সংশ্লেষিত 50,000 জোড়ার একটি বড় পরীক্ষা সেট তৈরি করেছি [17]। আমরা আসল টেস্ট সেটের প্রতিটি আইটেমের জন্য আকৃতি এমবেডিং স্পেসে শীর্ষ 25টি নিকটতম প্রতিবেশী নির্বাচন করে আমাদের আকৃতি মেলানো মডেল ব্যবহার করে নতুন পরীক্ষা সেট তৈরি করেছি। আমরা আকৃতি এমবেডিং গণনা করার জন্য রঙিন চিত্র এবং গ্রেস্কেল চিত্র ব্যবহার করে প্রতিটি 50,000 জোড়ার দুটি ডেটাসেট তৈরি করি। গ্রেস্কেল অ্যাবলেশন আমাদের বলে যে আকৃতি এমবেডিং রঙের বৈশিষ্ট্যগুলিকে দেখায় কিনা।
আমাদের ডেটাসেটের টেস্ট সেটে বিভিন্ন k সহ ওয়ারপার ব্যবহার করে L1 ত্রুটি এবং উপলব্ধিগত ত্রুটি (ইমেজনেটে প্রাক-প্রশিক্ষিত VGG19 ব্যবহার করে) গণনা করে ওয়ার্পের সংখ্যা বেছে নেওয়া হয়। এখানে ওয়ারপারকে সেই পণ্য পরিহিত একটি মডেলের সাথে একটি পণ্য ম্যাপ করে মূল্যায়ন করা হয়। চিত্র 5-এ দেখানো হিসাবে, k = 2 ধারাবাহিকভাবে k = 1-এর চেয়ে বেশি পারফর্ম করে। যাইহোক, দুটির বেশি ওয়ার্প থাকলে বর্তমান প্রশিক্ষণ কনফিগারেশন ব্যবহার করে কর্মক্ষমতা হ্রাস করে, সম্ভবত অতিরিক্ত ফিটিং এর কারণে।
আমরা ডেটাসেটের 10% ব্যবহার করে বিভিন্ন β মান সহ একটি একক ওয়ার্প মডেলকে প্রশিক্ষণ দিয়ে β চয়ন করি, তারপর পরীক্ষায় মূল্যায়ন করি। সারণী 1 দেখায় যে একটি β যেটি খুব বড় বা দুটি ছোট তার কার্যক্ষমতা হ্রাস পায়। β = 3 সেরা হতে পারে, এবং তাই গৃহীত হয়। গুণগত তুলনা সম্পূরক উপকরণ পাওয়া যায়.
এই ডেটার সাথে, আমরা CP-VTON তুলনা করতে পারি, আমাদের পদ্ধতি একটি একক ওয়ার্প (k = 1), এবং দুটি ওয়ার্প (k = 2), এবং দুটি ওয়ার্প মিশ্রিত। মিশ্রিত মডেলটি কনক্যাটেনেশনের পরিবর্তে গড়ে দুটি ওয়ার্প নেয়। ফলাফল সারণি 4.3 এ প্রদর্শিত হবে। আমরা খুঁজি:
- সমস্ত পদ্ধতির জন্য, মডেল নির্বাচন করা ভাল ফলাফল পায়;
- রঙ এবং গ্রেস্কেল ম্যাচিংয়ের মধ্যে বেছে নেওয়ার জন্য খুব কমই আছে, তাই ম্যাচটি মূলত পোশাকের আকারে উপস্থিত হয়;
- একটি থাকার চেয়ে দুটি ওয়ারপার থাকা ভাল;
- একটি ইউ-নেটের সাথে একত্রিত করা মিশ্রণের চেয়ে অনেক ভাল।
আমরা বিশ্বাস করি যে পরিমাণগত ফলাফলগুলি আরও ওয়ারপার ব্যবহার করার উন্নতিকে ছোট করে, কারণ পরিমাণগত পরিমাপ তুলনামূলকভাবে অপরিশোধিত। গুণগত প্রমাণ এটি সমর্থন করে (চিত্র 7)।
গুণগত তুলনা করার জন্য আমরা [15,24,53,37]-এ মিলিত উদাহরণগুলির জন্য সাবধানে দেখেছি। MG-VTON [12] এর সাথে তুলনা প্রযোজ্য নয়, কারণ কাজটিতে কোনো নির্দিষ্ট-পোজ গুণগত উদাহরণ অন্তর্ভুক্ত করা হয়নি। উল্লেখ্য যে তুলনা পূর্বের কাজের পক্ষে কারণ আমাদের মডেল শুধুমাত্র 2D পোজ ম্যাপে পোশাকের সাথে সংশ্লিষ্ট অঞ্চল ব্যবহার করে ট্রেনিং এবং পরীক্ষা করে যখন পূর্বের কাজ সম্পূর্ণ 2D পোজ ম্যাপ এবং কী-পয়েন্ট পোজ টীকা ব্যবহার করে।
সাধারণত, পোশাক স্থানান্তর করা কঠিন, কিন্তু আধুনিক পদ্ধতিগুলি এখন প্রধানত বিশদ বিবরণে ব্যর্থ হয়। এর অর্থ হস্তান্তর মূল্যায়নের জন্য বিশদে মনোযোগী হওয়া প্রয়োজন। চিত্র 6 কিছু তুলনা দেখায়। বিশেষ করে, সীমানা, টেক্সচার এবং পোশাকের বিবরণের চারপাশে চিত্রের বিশদ বিবরণে অংশ নেওয়া টাস্কের কিছু অসুবিধা প্রকাশ করে। বামে চিত্র 6-এ দেখানো হয়েছে, আমাদের পদ্ধতি জটিল টেক্সচারকে দৃঢ়ভাবে পরিচালনা করতে পারে (কল. a, c) এবং লোগোর বিবরণ সঠিকভাবে সংরক্ষণ করতে পারে (col. b, e, f, g, i)। উদাহরণগুলি আমাদের পেইন্টিং-ভিত্তিক পদ্ধতি এবং পূর্বের কাজের মধ্যে স্পষ্ট পার্থক্যও দেখায় - আমাদের পদ্ধতিটি কেবল সেই জায়গাটিকে পরিবর্তন করে যেখানে আসল কাপড়টি রয়েছে
উপস্থাপিত এই সম্পত্তিটি আমাদের অঙ্গ-প্রত্যঙ্গের বিশদ বিবরণ (কর্ণ। a, d, f, g, h, j) এবং অন্যান্য পোশাকের আইটেমগুলি (col. a, b) পূর্বের কাজের চেয়ে ভালভাবে সংরক্ষণ করতে দেয়। আমাদের কিছু ফলাফল (col. c, g) সীমানায় আসল কাপড় থেকে রঙের নিদর্শন দেখায়, কারণ পোজ মানচিত্রের প্রান্তটি সামান্য মিসলাইন করা হয়েছে (অসম্পূর্ণ সেগমেন্টেশন মাস্ক)। এটি নিশ্চিত করে যে আমাদের পদ্ধতি উচ্চ মানের ফলাফল তৈরি করতে সূক্ষ্ম-শস্য বিভাজন মাস্কের উপর নির্ভর করে। কিছু জোড়া আকৃতিতে কিছুটা ভুল মেলে (col. d, h)। এটি আমাদের পদ্ধতিতে খুব কমই ঘটবে যদি পরীক্ষার সেটটি আকৃতি এমবেডিং ব্যবহার করে তৈরি করা হয়। অতএব, আমাদের পদ্ধতি এটি মোকাবেলা করার চেষ্টা করে না।
দুটি ওয়ার্প একটির (চিত্র 7) থেকে খুব স্পষ্টভাবে ভাল, সম্ভবত কারণ দ্বিতীয় ওয়ার্পটি প্রান্তিককরণ এবং বিশদটি ঠিক করতে পারে যা একক ওয়ার্প মডেলটি সমাধান করতে ব্যর্থ হয়। বিশেষ উন্নতি ঘটতে থাকে বোতামহীন/আনজিপ করা বাইরের পোশাকের জন্য এবং ট্যাগ সহ পণ্যের চিত্রগুলির জন্য। এই উন্নতিগুলি পরিমাণগত মূল্যায়ন দ্বারা সহজে ক্যাপচার করা যাবে না কারণ পিক্সেল মানগুলির পার্থক্যগুলি ছোট।
আমরা আমাদের ডেটাসেটে ওয়ার্প তৈরি করতে জ্যামিতিক ম্যাচিং মডিউল (টিপিএস ট্রান্সফর্ম ব্যবহার করে) প্রশিক্ষণ দেওয়ার চেষ্টা করেছি, কারণ এটি প্রায়শই পূর্বের কাজ [17,45,11] দ্বারা গৃহীত হয়েছিল। যাইহোক, টিপিএস ট্রান্সফর্ম পার্টিশন এবং উল্লেখযোগ্য বাধাগুলির সাথে খাপ খাইয়ে নিতে ব্যর্থ হয়েছে (পরিপূরক সামগ্রীতে উদাহরণ)।
ব্যবহারকারীরা কত ঘন ঘন সংশ্লেষিত ছবি সনাক্ত করতে পারে তা পরীক্ষা করার জন্য আমরা একটি ব্যবহারকারী অধ্যয়ন ব্যবহার করেছি। একজন ব্যবহারকারীকে জিজ্ঞাসা করা হয় যে পণ্য পরিহিত একটি মডেলের ছবি (যা দেখানো হয়েছে) বাস্তব নাকি সংশ্লেষিত। প্রদর্শন সর্বোচ্চ সম্ভাব্য রেজোলিউশন ব্যবহার করে (512x512), চিত্র 8 এর মতো।
আমরা উদাহরণ ব্যবহার করেছি যেখানে মুখোশটি ভাল, আমাদের ফলাফলের শীর্ষ 20 শতাংশের একটি ন্যায্য উপস্থাপনা প্রদান করে। অধ্যয়নের আগে ব্যবহারকারীদের দুটি আসল বনাম নকল জোড়া দিয়ে প্রাইম করা হয়। প্রতিটি অংশগ্রহণকারীকে তারপর 50 জোড়া 25 রিয়েল এবং দিয়ে পরীক্ষা করা হয়
25 জাল, পণ্য পুনরাবৃত্তি ছাড়া. আমরা ব্যবহারকারীদের দুটি জনসংখ্যা পরীক্ষা করি (দৃষ্টি গবেষক এবং এলোমেলোভাবে নির্বাচিত অংশগ্রহণকারীদের)।
বেশিরভাগই, ব্যবহারকারীরা আমাদের ছবি দ্বারা প্রতারিত হয়; একটি খুব উচ্চ মিথ্যা-পজিটিভ (অর্থাৎ সংশ্লেষিত চিত্র একজন ব্যবহারকারী দ্বারা বাস্তব হিসাবে চিহ্নিত) হার (সারণী 3) আছে। চিত্র 8 সংশ্লেষিত চিত্রগুলির দুটি উদাহরণ দেখায় যা সাধারণ জনসংখ্যার 70% বাস্তব হিসাবে রিপোর্ট করেছে। তারা অঞ্চল বিভাজন এবং জটিল শেডিং সহ হার্ড বাইরের পোশাকের উদাহরণ। তবুও, আমাদের পদ্ধতিটি উচ্চ মানের সংশ্লেষণ তৈরি করতে সক্ষম হয়েছে। সমস্ত প্রশ্নের সম্পূরক উপাদান এবং ব্যবহারকারীর অধ্যয়নের সম্পূর্ণ ফলাফল দেখুন।
এই কাগজটি CC BY-NC-SA 4.0 DEED লাইসেন্সের অধীনে arxiv-এ উপলব্ধ ।