লেখক:
(1) Gonzalo J. Aniano Porcile, LinkedIn;
(2) জ্যাক গিন্ডি, লিঙ্কডইন;
(3) শিবংশ মুন্দ্রা, লিঙ্কডইন;
(4) জেমস আর. ভার্বাস, লিঙ্কডইন;
(5) হ্যানি ফরিদ, লিঙ্কডইন এবং ক্যালিফোর্নিয়া বিশ্ববিদ্যালয়, বার্কলে।
আমাদের প্রশিক্ষণ এবং মূল্যায়ন লিভারেজ 120,000টি বাস্তব লিঙ্কডইন প্রোফাইল ফটো এবং 105,900টি AI-জেনারেটেড ফেস নিয়ে গঠিত 18টি ডেটা সেট যা পাঁচটি ভিন্ন GAN এবং পাঁচটি ভিন্ন ডিফিউশন সংশ্লেষণ ইঞ্জিনে বিস্তৃত। এআই-উত্পাদিত চিত্র দুটি প্রধান বিভাগ নিয়ে গঠিত, যাদের মুখ আছে এবং যাদের মুখ নেই। বাস্তব এবং সংশ্লেষিত রঙ (RGB) চিত্রগুলিকে তাদের আসল রেজোলিউশন থেকে 512 × 512 পিক্সেলে আকার দেওয়া হয়। সারণী 1-এ দেখানো হয়েছে এই চিত্রগুলির একটি অ্যাকাউন্টিং, এবং চিত্র 2-এ দেখানো হল প্রতিটি AI-উত্পন্ন বিভাগগুলির প্রতিনিধি উদাহরণ যা পরবর্তী বর্ণনা করা হয়েছে।
120,000 বাস্তব ফটোগুলি লিঙ্কডইন ব্যবহারকারীদের কাছ থেকে নমুনা নেওয়া হয়েছিল যা 1 জানুয়ারী, 2019 এবং 1 ডিসেম্বর, 2022 এর মধ্যে আপলোড করা সর্বজনীনভাবে অ্যাক্সেসযোগ্য প্রোফাইল ফটোগুলির সাথে ছিল৷ এই অ্যাকাউন্টগুলি কমপক্ষে 30 দিনের মধ্যে প্ল্যাটফর্মে কার্যকলাপ দেখায় (যেমন, সাইন ইন করা, পোস্ট করা, মেসেজ করা, অনুসন্ধান করা) কোন জাল-অ্যাকাউন্ট ডিটেক্টর ট্রিগার ছাড়াই। অ্যাকাউন্টগুলিতে বয়স এবং কার্যকলাপের পরিপ্রেক্ষিতে, আমরা নিশ্চিত হতে পারি যে এই ফটোগুলি বাস্তব৷ এই ছবিগুলি ব্যাপকভাবে পরিবর্তিত রেজোলিউশন এবং মানের ছিল। যদিও এই ছবিগুলির বেশিরভাগই স্ট্যান্ডার্ড প্রোফাইল ফটো যা একজন একক ব্যক্তির সমন্বয়ে থাকে, কিছুতে মুখ থাকে না। বিপরীতে, এআই-উত্পন্ন সমস্ত চিত্র (পরে বর্ণিত) একটি মুখ নিয়ে গঠিত। আমরা ধারা 4-এ আসল এবং নকল ছবির মধ্যে এই পার্থক্যটি পুনর্বিবেচনা করব।
2, এবং 3, রঙিন চিত্রগুলি 1024×1024 পিক্সেলের রেজোলিউশনে এবং ψ = 0.5 সহ সংশ্লেষিত হয়েছিল। [১] EG3D (দক্ষ জ্যামিতি-সচেতন 3D জেনারেটিভ অ্যাডভারসারিয়াল নেটওয়ার্ক) এর জন্য, স্টাইলগানের তথাকথিত 3D সংস্করণ, আমরা 512×512 রেজোলিউশনে ψ = 0.5 এবং র্যান্ডম হেড পোজ সহ 10,000 ছবি সংশ্লেষিত করেছি।
generated.photos[2] থেকে 1024 × 1024 পিক্সেল রেজোলিউশনে মোট 10,000টি ছবি ডাউনলোড করা হয়েছে। এই GAN-সংশ্লেষিত চিত্রগুলি সাধারণত আরও পেশাদার লুকিং হেড শট তৈরি করে কারণ নেটওয়ার্কটি ফটোগ্রাফিক স্টুডিওতে রেকর্ড করা উচ্চ-মানের চিত্রগুলির ডেটাসেটে প্রশিক্ষণপ্রাপ্ত হয়।
মোট 5,000টি StyleGAN 1 ছবি ডাউনলোড করা হয়েছে [3] তিনটি নন-ফেস ক্যাটাগরির প্রতিটির জন্য: বেডরুম, গাড়ি এবং বিড়াল (অন্যান্য StyleGAN সংস্করণের জন্য রিপোজিটরিগুলি মুখ ব্যতীত অন্য বিভাগের জন্য ছবি প্রদান করে না)। এই চিত্রগুলির আকার 512 × 384 (গাড়ি) থেকে 256 × 256 (বেডরুম এবং বিড়াল)।
আমরা প্রতিটি স্টেবল ডিফিউশন [26] সংস্করণ (1, 2)[4] থেকে 9,000টি ছবি তৈরি করেছি। উপরে বর্ণিত GAN মুখের বিপরীতে, টেক্সট-টু-ইমেজ ডিফিউশন সংশ্লেষণ মুখের চেহারার উপর আরও নিয়ন্ত্রণ দেয়। বৈচিত্র্য নিশ্চিত করার জন্য, 30 জন জনসংখ্যার প্রতিটির জন্য 300টি মুখ প্রম্পট করে "একটি {তরুণ, মধ্যবয়সী, বয়স্ক} {কালো, পূর্ব-এশীয়, হিস্পানিক, দক্ষিণ-এশীয়, সাদা} {নারী, পুরুষ}"। এই চিত্রগুলি 512 × 512 এর রেজোলিউশনে সংশ্লেষিত হয়েছিল৷ এই ডেটাসেটটি সুস্পষ্ট সংশ্লেষণ ব্যর্থতাগুলি দূর করার জন্য তৈরি করা হয়েছিল যেখানে, উদাহরণস্বরূপ, মুখটি দৃশ্যমান ছিল না৷
স্ট্যাবল ডিফিউশন (এক্সএল) এর সাম্প্রতিকতম সংস্করণ থেকে একটি অতিরিক্ত 900টি চিত্র সংশ্লেষিত করা হয়েছিল। আগের মতো একই জনসংখ্যাগত বিভাগ ব্যবহার করে, 30টি বিভাগের প্রতিটির জন্য 30টি ছবি তৈরি করা হয়েছে, প্রতিটির রেজোলিউশন 768 × 768।
আমরা DALL-E 2 [5] থেকে 9,000টি ছবি তৈরি করেছি, যার মধ্যে 30টি জনতাত্ত্বিক গোষ্ঠীর প্রতিটির জন্য 300টি ছবি রয়েছে। এই চিত্রগুলি 512×512 পিক্সেলের রেজোলিউশনে সংশ্লেষিত হয়েছিল।
512 × 512 রেজোলিউশনে মোট 1,000টি মিডজার্নি[6] ছবি ডাউনলোড করা হয়েছে। এই ছবিগুলিকে ম্যানুয়ালি কিউরেট করা হয়েছে শুধুমাত্র একটি মুখ দিয়ে।
আমরা স্ট্যাবল ডিফিউশন (1, 2) এর দুটি সংস্করণের প্রতিটি থেকে 1,000টি নন-ফেস ইমেজ সংশ্লেষিত করেছি। এই ছবিগুলি র্যান্ডম ক্যাপশন (ChatGPT দ্বারা তৈরি) ব্যবহার করে তৈরি করা হয়েছিল এবং কোনও ব্যক্তি বা মুখ সম্বলিত ছবিগুলি সরাতে ম্যানুয়ালি পর্যালোচনা করা হয়েছিল। এই চিত্রগুলি 600 × 600 পিক্সেলের রেজোলিউশনে সংশ্লেষিত হয়েছিল। 1,000টি DALL-E 2 এবং 1,000টি মিডজার্নি চিত্রের অনুরূপ সেট 512 × 512 রেজোলিউশনে সংশ্লেষিত হয়েছিল।
উপরের গণনাকৃত চিত্রগুলির সেটগুলিকে প্রশিক্ষণ এবং মূল্যায়নে বিভক্ত করা হয়েছে। আমাদের মডেল (বিভাগ 3 এ বর্ণিত) 30,000 বাস্তব মুখ এবং 30,000 AI-উত্পাদিত মুখগুলির একটি এলোমেলো উপসেটে প্রশিক্ষিত। AI-উত্পন্ন মুখগুলি 5,250 StyleGAN 1, 5,250 StyleGAN 2, 4,500 StyleGAN 3, 3,750 Stable Diffusion 1, 3,750 Stable Diffusion 2 এবং 7,500 DALL-E এর একটি এলোমেলো উপসেট নিয়ে গঠিত।
আমরা নিম্নলিখিতগুলির বিরুদ্ধে আমাদের মডেল মূল্যায়ন করি:
• প্রশিক্ষণে ব্যবহৃত একই সংশ্লেষণ ইঞ্জিন থেকে 5,000টি মুখের চিত্রের একটি সেট (স্টাইলগান 1, স্টাইলগান 2, স্টাইলগান 3, স্থিতিশীল ডিফিউশন 1, স্টেবল ডিফিউশন 2 এবং ড্যাল-ই 2)।
• প্রশিক্ষণে ব্যবহার করা হয়নি এমন সংশ্লেষণ ইঞ্জিন থেকে 5,000টি মুখের চিত্রের একটি সেট (Generated.photos, EG3D, Stable Diffusion xl, এবং Midjourney)।
• পাঁচটি সংশ্লেষণ ইঞ্জিনের প্রতিটি থেকে 3,750টি নন-ফেস ইমেজের একটি সেট (স্টাইলগান 1, ডাল-ই 2, স্টেবল ডিফিউশন 1, স্টেবল ডিফিউশন 2 এবং মিডজার্নি)।
• 13,750টি বাস্তব মুখের একটি সেট।
এই কাগজটি CC 4.0 লাইসেন্সের অধীনে arxiv-এ উপলব্ধ ।
[১] StyleGAN প্যারামিটার ψ (সাধারণত পরিসরে [0, 1]) একটি চিত্র তৈরি করতে ব্যবহৃত সুপ্ত স্থান উপস্থাপনে বীজের মানের ছাঁটাই নিয়ন্ত্রণ করে। ψ এর ছোট মানগুলি ভাল চিত্রের গুণমান সরবরাহ করে তবে মুখের বৈচিত্র্য হ্রাস করে। ψ = 0.5 এর একটি মধ্য-পরিসরের মান তুলনামূলকভাবে আর্টিফ্যাক্ট-মুক্ত মুখ তৈরি করে, যখন সংশ্লেষিত মুখের লিঙ্গ, বয়স এবং জাতিগততার মধ্যে পার্থক্যের অনুমতি দেয়।
[2] https://generated.photos/faces
[৩] https://github.com/NVlabs/stylegan)
[৪] https: // github। com / স্থিতিশীলতা - AI / StableDiffusion
[৫] https://openai.com/dall-e-2
[৬] https://www.midjourney.com