paint-brush
বন্যের মধ্যে এআই-জেনারেটেড ফেস খোঁজা: ডেটা সেটদ্বারা@botbeat
186 পড়া

বন্যের মধ্যে এআই-জেনারেটেড ফেস খোঁজা: ডেটা সেট

অতিদীর্ঘ; পড়তে

AI অনলাইন স্ক্যামের জন্য বাস্তবসম্মত জাল মুখ তৈরি করতে পারে। এই কাজটি চিত্রগুলিতে এআই-উত্পন্ন মুখগুলি সনাক্ত করার একটি পদ্ধতি প্রস্তাব করে।
featured image - বন্যের মধ্যে এআই-জেনারেটেড ফেস খোঁজা: ডেটা সেট
BotBeat.Tech: Trusted Generative AI Research Firm HackerNoon profile picture
0-item

লেখক:

(1) Gonzalo J. Aniano Porcile, LinkedIn;

(2) জ্যাক গিন্ডি, লিঙ্কডইন;

(3) শিবংশ মুন্দ্রা, লিঙ্কডইন;

(4) জেমস আর. ভার্বাস, লিঙ্কডইন;

(5) হ্যানি ফরিদ, লিঙ্কডইন এবং ক্যালিফোর্নিয়া বিশ্ববিদ্যালয়, বার্কলে।

লিঙ্কের টেবিল

2. ডেটা সেট

আমাদের প্রশিক্ষণ এবং মূল্যায়ন লিভারেজ 120,000টি বাস্তব লিঙ্কডইন প্রোফাইল ফটো এবং 105,900টি AI-জেনারেটেড ফেস নিয়ে গঠিত 18টি ডেটা সেট যা পাঁচটি ভিন্ন GAN এবং পাঁচটি ভিন্ন ডিফিউশন সংশ্লেষণ ইঞ্জিনে বিস্তৃত। এআই-উত্পাদিত চিত্র দুটি প্রধান বিভাগ নিয়ে গঠিত, যাদের মুখ আছে এবং যাদের মুখ নেই। বাস্তব এবং সংশ্লেষিত রঙ (RGB) চিত্রগুলিকে তাদের আসল রেজোলিউশন থেকে 512 × 512 পিক্সেলে আকার দেওয়া হয়। সারণী 1-এ দেখানো হয়েছে এই চিত্রগুলির একটি অ্যাকাউন্টিং, এবং চিত্র 2-এ দেখানো হল প্রতিটি AI-উত্পন্ন বিভাগগুলির প্রতিনিধি উদাহরণ যা পরবর্তী বর্ণনা করা হয়েছে।

2.1। বাস্তব মুখ

120,000 বাস্তব ফটোগুলি লিঙ্কডইন ব্যবহারকারীদের কাছ থেকে নমুনা নেওয়া হয়েছিল যা 1 জানুয়ারী, 2019 এবং 1 ডিসেম্বর, 2022 এর মধ্যে আপলোড করা সর্বজনীনভাবে অ্যাক্সেসযোগ্য প্রোফাইল ফটোগুলির সাথে ছিল৷ এই অ্যাকাউন্টগুলি কমপক্ষে 30 দিনের মধ্যে প্ল্যাটফর্মে কার্যকলাপ দেখায় (যেমন, সাইন ইন করা, পোস্ট করা, মেসেজ করা, অনুসন্ধান করা) কোন জাল-অ্যাকাউন্ট ডিটেক্টর ট্রিগার ছাড়াই। অ্যাকাউন্টগুলিতে বয়স এবং কার্যকলাপের পরিপ্রেক্ষিতে, আমরা নিশ্চিত হতে পারি যে এই ফটোগুলি বাস্তব৷ এই ছবিগুলি ব্যাপকভাবে পরিবর্তিত রেজোলিউশন এবং মানের ছিল। যদিও এই ছবিগুলির বেশিরভাগই স্ট্যান্ডার্ড প্রোফাইল ফটো যা একজন একক ব্যক্তির সমন্বয়ে থাকে, কিছুতে মুখ থাকে না। বিপরীতে, এআই-উত্পন্ন সমস্ত চিত্র (পরে বর্ণিত) একটি মুখ নিয়ে গঠিত। আমরা ধারা 4-এ আসল এবং নকল ছবির মধ্যে এই পার্থক্যটি পুনর্বিবেচনা করব।

2.2। GAN মুখ


চিত্র 2. আমাদের প্রশিক্ষণ এবং মূল্যায়নে ব্যবহৃত AI-উত্পন্ন চিত্রগুলির প্রতিনিধিত্বমূলক উদাহরণ (এছাড়াও সারণী 1 দেখুন)। কিছু সংশ্লেষণ ইঞ্জিন শুধুমাত্র মুখ তৈরি করতে ব্যবহৃত হত এবং অন্যগুলি মুখ এবং অ-মুখ উভয়ের সংশ্লেষণ করতে ব্যবহৃত হত। ব্যবহারকারীর গোপনীয়তাকে সম্মান করার জন্য, আমরা বাস্তব ফটোর উদাহরণ দেখাই না।



2, এবং 3, রঙিন চিত্রগুলি 1024×1024 পিক্সেলের রেজোলিউশনে এবং ψ = 0.5 সহ সংশ্লেষিত হয়েছিল। [১] EG3D (দক্ষ জ্যামিতি-সচেতন 3D জেনারেটিভ অ্যাডভারসারিয়াল নেটওয়ার্ক) এর জন্য, স্টাইলগানের তথাকথিত 3D সংস্করণ, আমরা 512×512 রেজোলিউশনে ψ = 0.5 এবং র্যান্ডম হেড পোজ সহ 10,000 ছবি সংশ্লেষিত করেছি।


generated.photos[2] থেকে 1024 × 1024 পিক্সেল রেজোলিউশনে মোট 10,000টি ছবি ডাউনলোড করা হয়েছে। এই GAN-সংশ্লেষিত চিত্রগুলি সাধারণত আরও পেশাদার লুকিং হেড শট তৈরি করে কারণ নেটওয়ার্কটি ফটোগ্রাফিক স্টুডিওতে রেকর্ড করা উচ্চ-মানের চিত্রগুলির ডেটাসেটে প্রশিক্ষণপ্রাপ্ত হয়।

2.3। GAN অ-মুখ

মোট 5,000টি StyleGAN 1 ছবি ডাউনলোড করা হয়েছে [3] তিনটি নন-ফেস ক্যাটাগরির প্রতিটির জন্য: বেডরুম, গাড়ি এবং বিড়াল (অন্যান্য StyleGAN সংস্করণের জন্য রিপোজিটরিগুলি মুখ ব্যতীত অন্য বিভাগের জন্য ছবি প্রদান করে না)। এই চিত্রগুলির আকার 512 × 384 (গাড়ি) থেকে 256 × 256 (বেডরুম এবং বিড়াল)।

2.4। প্রসারিত মুখ

আমরা প্রতিটি স্টেবল ডিফিউশন [26] সংস্করণ (1, 2)[4] থেকে 9,000টি ছবি তৈরি করেছি। উপরে বর্ণিত GAN মুখের বিপরীতে, টেক্সট-টু-ইমেজ ডিফিউশন সংশ্লেষণ মুখের চেহারার উপর আরও নিয়ন্ত্রণ দেয়। বৈচিত্র্য নিশ্চিত করার জন্য, 30 জন জনসংখ্যার প্রতিটির জন্য 300টি মুখ প্রম্পট করে "একটি {তরুণ, মধ্যবয়সী, বয়স্ক} {কালো, পূর্ব-এশীয়, হিস্পানিক, দক্ষিণ-এশীয়, সাদা} {নারী, পুরুষ}"। এই চিত্রগুলি 512 × 512 এর রেজোলিউশনে সংশ্লেষিত হয়েছিল৷ এই ডেটাসেটটি সুস্পষ্ট সংশ্লেষণ ব্যর্থতাগুলি দূর করার জন্য তৈরি করা হয়েছিল যেখানে, উদাহরণস্বরূপ, মুখটি দৃশ্যমান ছিল না৷


স্ট্যাবল ডিফিউশন (এক্সএল) এর সাম্প্রতিকতম সংস্করণ থেকে একটি অতিরিক্ত 900টি চিত্র সংশ্লেষিত করা হয়েছিল। আগের মতো একই জনসংখ্যাগত বিভাগ ব্যবহার করে, 30টি বিভাগের প্রতিটির জন্য 30টি ছবি তৈরি করা হয়েছে, প্রতিটির রেজোলিউশন 768 × 768।


আমরা DALL-E 2 [5] থেকে 9,000টি ছবি তৈরি করেছি, যার মধ্যে 30টি জনতাত্ত্বিক গোষ্ঠীর প্রতিটির জন্য 300টি ছবি রয়েছে। এই চিত্রগুলি 512×512 পিক্সেলের রেজোলিউশনে সংশ্লেষিত হয়েছিল।


512 × 512 রেজোলিউশনে মোট 1,000টি মিডজার্নি[6] ছবি ডাউনলোড করা হয়েছে। এই ছবিগুলিকে ম্যানুয়ালি কিউরেট করা হয়েছে শুধুমাত্র একটি মুখ দিয়ে।

2.5। ডিফিউশন অ-মুখ

আমরা স্ট্যাবল ডিফিউশন (1, 2) এর দুটি সংস্করণের প্রতিটি থেকে 1,000টি নন-ফেস ইমেজ সংশ্লেষিত করেছি। এই ছবিগুলি র্যান্ডম ক্যাপশন (ChatGPT দ্বারা তৈরি) ব্যবহার করে তৈরি করা হয়েছিল এবং কোনও ব্যক্তি বা মুখ সম্বলিত ছবিগুলি সরাতে ম্যানুয়ালি পর্যালোচনা করা হয়েছিল। এই চিত্রগুলি 600 × 600 পিক্সেলের রেজোলিউশনে সংশ্লেষিত হয়েছিল। 1,000টি DALL-E 2 এবং 1,000টি মিডজার্নি চিত্রের অনুরূপ সেট 512 × 512 রেজোলিউশনে সংশ্লেষিত হয়েছিল।

2.6। প্রশিক্ষণ এবং মূল্যায়ন ডেটা

উপরের গণনাকৃত চিত্রগুলির সেটগুলিকে প্রশিক্ষণ এবং মূল্যায়নে বিভক্ত করা হয়েছে। আমাদের মডেল (বিভাগ 3 এ বর্ণিত) 30,000 বাস্তব মুখ এবং 30,000 AI-উত্পাদিত মুখগুলির একটি এলোমেলো উপসেটে প্রশিক্ষিত। AI-উত্পন্ন মুখগুলি 5,250 StyleGAN 1, 5,250 StyleGAN 2, 4,500 StyleGAN 3, 3,750 Stable Diffusion 1, 3,750 Stable Diffusion 2 এবং 7,500 DALL-E এর একটি এলোমেলো উপসেট নিয়ে গঠিত।


আমরা নিম্নলিখিতগুলির বিরুদ্ধে আমাদের মডেল মূল্যায়ন করি:


• প্রশিক্ষণে ব্যবহৃত একই সংশ্লেষণ ইঞ্জিন থেকে 5,000টি মুখের চিত্রের একটি সেট (স্টাইলগান 1, স্টাইলগান 2, স্টাইলগান 3, স্থিতিশীল ডিফিউশন 1, স্টেবল ডিফিউশন 2 এবং ড্যাল-ই 2)।


• প্রশিক্ষণে ব্যবহার করা হয়নি এমন সংশ্লেষণ ইঞ্জিন থেকে 5,000টি মুখের চিত্রের একটি সেট (Generated.photos, EG3D, Stable Diffusion xl, এবং Midjourney)।


• পাঁচটি সংশ্লেষণ ইঞ্জিনের প্রতিটি থেকে 3,750টি নন-ফেস ইমেজের একটি সেট (স্টাইলগান 1, ডাল-ই 2, স্টেবল ডিফিউশন 1, স্টেবল ডিফিউশন 2 এবং মিডজার্নি)।


• 13,750টি বাস্তব মুখের একটি সেট।


এই কাগজটি CC 4.0 লাইসেন্সের অধীনে arxiv-এ উপলব্ধ


[১] StyleGAN প্যারামিটার ψ (সাধারণত পরিসরে [0, 1]) একটি চিত্র তৈরি করতে ব্যবহৃত সুপ্ত স্থান উপস্থাপনে বীজের মানের ছাঁটাই নিয়ন্ত্রণ করে। ψ এর ছোট মানগুলি ভাল চিত্রের গুণমান সরবরাহ করে তবে মুখের বৈচিত্র্য হ্রাস করে। ψ = 0.5 এর একটি মধ্য-পরিসরের মান তুলনামূলকভাবে আর্টিফ্যাক্ট-মুক্ত মুখ তৈরি করে, যখন সংশ্লেষিত মুখের লিঙ্গ, বয়স এবং জাতিগততার মধ্যে পার্থক্যের অনুমতি দেয়।


[2] https://generated.photos/faces


[৩] https://github.com/NVlabs/stylegan)


[৪] https: // github। com / স্থিতিশীলতা - AI / StableDiffusion


[৫] https://openai.com/dall-e-2


[৬] https://www.midjourney.com