লেখক:  (1) Gonzalo J. Aniano Porcile, LinkedIn;  (2) জ্যাক গিন্ডি, লিঙ্কডইন;  (3) শিবংশ মুন্দ্রা, লিঙ্কডইন;  (4) জেমস আর. ভার্বাস, লিঙ্কডইন;  (5) হ্যানি ফরিদ, লিঙ্কডইন এবং ক্যালিফোর্নিয়া বিশ্ববিদ্যালয়, বার্কলে।  লিঙ্কের টেবিল   বিমূর্ত এবং ভূমিকা   ডেটা সেট   মডেল   ফলাফল   আলোচনা, স্বীকৃতি, এবং রেফারেন্স  2. ডেটা সেট  আমাদের প্রশিক্ষণ এবং মূল্যায়ন লিভারেজ 120,000টি বাস্তব লিঙ্কডইন প্রোফাইল ফটো এবং 105,900টি AI-জেনারেটেড ফেস নিয়ে গঠিত 18টি ডেটা সেট যা পাঁচটি ভিন্ন GAN এবং পাঁচটি ভিন্ন ডিফিউশন সংশ্লেষণ ইঞ্জিনে বিস্তৃত। এআই-উত্পাদিত চিত্র দুটি প্রধান বিভাগ নিয়ে গঠিত, যাদের মুখ আছে এবং যাদের মুখ নেই। বাস্তব এবং সংশ্লেষিত রঙ (RGB) চিত্রগুলিকে তাদের আসল রেজোলিউশন থেকে 512 × 512 পিক্সেলে আকার দেওয়া হয়। সারণী 1-এ দেখানো হয়েছে এই চিত্রগুলির একটি অ্যাকাউন্টিং, এবং চিত্র 2-এ দেখানো হল প্রতিটি AI-উত্পন্ন বিভাগগুলির প্রতিনিধি উদাহরণ যা পরবর্তী বর্ণনা করা হয়েছে।  2.1। বাস্তব মুখ  120,000 বাস্তব ফটোগুলি লিঙ্কডইন ব্যবহারকারীদের কাছ থেকে নমুনা নেওয়া হয়েছিল যা 1 জানুয়ারী, 2019 এবং 1 ডিসেম্বর, 2022 এর মধ্যে আপলোড করা সর্বজনীনভাবে অ্যাক্সেসযোগ্য প্রোফাইল ফটোগুলির সাথে ছিল৷ এই অ্যাকাউন্টগুলি কমপক্ষে 30 দিনের মধ্যে প্ল্যাটফর্মে কার্যকলাপ দেখায় (যেমন, সাইন ইন করা, পোস্ট করা, মেসেজ করা, অনুসন্ধান করা) কোন জাল-অ্যাকাউন্ট ডিটেক্টর ট্রিগার ছাড়াই। অ্যাকাউন্টগুলিতে বয়স এবং কার্যকলাপের পরিপ্রেক্ষিতে, আমরা নিশ্চিত হতে পারি যে এই ফটোগুলি বাস্তব৷ এই ছবিগুলি ব্যাপকভাবে পরিবর্তিত রেজোলিউশন এবং মানের ছিল। যদিও এই ছবিগুলির বেশিরভাগই স্ট্যান্ডার্ড প্রোফাইল ফটো যা একজন একক ব্যক্তির সমন্বয়ে থাকে, কিছুতে মুখ থাকে না। বিপরীতে, এআই-উত্পন্ন সমস্ত চিত্র (পরে বর্ণিত) একটি মুখ নিয়ে গঠিত। আমরা ধারা 4-এ আসল এবং নকল ছবির মধ্যে এই পার্থক্যটি পুনর্বিবেচনা করব।  2.2। GAN মুখ   2, এবং 3, রঙিন চিত্রগুলি 1024×1024 পিক্সেলের রেজোলিউশনে এবং ψ = 0.5 সহ সংশ্লেষিত হয়েছিল। [১] EG3D (দক্ষ জ্যামিতি-সচেতন 3D জেনারেটিভ অ্যাডভারসারিয়াল নেটওয়ার্ক) এর জন্য, স্টাইলগানের তথাকথিত 3D সংস্করণ, আমরা 512×512 রেজোলিউশনে ψ = 0.5 এবং র্যান্ডম হেড পোজ সহ 10,000 ছবি সংশ্লেষিত করেছি।  generated.photos[2] থেকে 1024 × 1024 পিক্সেল রেজোলিউশনে মোট 10,000টি ছবি ডাউনলোড করা হয়েছে। এই GAN-সংশ্লেষিত চিত্রগুলি সাধারণত আরও পেশাদার লুকিং হেড শট তৈরি করে কারণ নেটওয়ার্কটি ফটোগ্রাফিক স্টুডিওতে রেকর্ড করা উচ্চ-মানের চিত্রগুলির ডেটাসেটে প্রশিক্ষণপ্রাপ্ত হয়।  2.3। GAN অ-মুখ  মোট 5,000টি StyleGAN 1 ছবি ডাউনলোড করা হয়েছে [3] তিনটি নন-ফেস ক্যাটাগরির প্রতিটির জন্য: বেডরুম, গাড়ি এবং বিড়াল (অন্যান্য StyleGAN সংস্করণের জন্য রিপোজিটরিগুলি মুখ ব্যতীত অন্য বিভাগের জন্য ছবি প্রদান করে না)। এই চিত্রগুলির আকার 512 × 384 (গাড়ি) থেকে 256 × 256 (বেডরুম এবং বিড়াল)।  2.4। প্রসারিত মুখ  আমরা প্রতিটি স্টেবল ডিফিউশন [26] সংস্করণ (1, 2)[4] থেকে 9,000টি ছবি তৈরি করেছি। উপরে বর্ণিত GAN মুখের বিপরীতে, টেক্সট-টু-ইমেজ ডিফিউশন সংশ্লেষণ মুখের চেহারার উপর আরও নিয়ন্ত্রণ দেয়। বৈচিত্র্য নিশ্চিত করার জন্য, 30 জন জনসংখ্যার প্রতিটির জন্য 300টি মুখ প্রম্পট করে "একটি {তরুণ, মধ্যবয়সী, বয়স্ক} {কালো, পূর্ব-এশীয়, হিস্পানিক, দক্ষিণ-এশীয়, সাদা} {নারী, পুরুষ}"। এই চিত্রগুলি 512 × 512 এর রেজোলিউশনে সংশ্লেষিত হয়েছিল৷ এই ডেটাসেটটি সুস্পষ্ট সংশ্লেষণ ব্যর্থতাগুলি দূর করার জন্য তৈরি করা হয়েছিল যেখানে, উদাহরণস্বরূপ, মুখটি দৃশ্যমান ছিল না৷  স্ট্যাবল ডিফিউশন (এক্সএল) এর সাম্প্রতিকতম সংস্করণ থেকে একটি অতিরিক্ত 900টি চিত্র সংশ্লেষিত করা হয়েছিল। আগের মতো একই জনসংখ্যাগত বিভাগ ব্যবহার করে, 30টি বিভাগের প্রতিটির জন্য 30টি ছবি তৈরি করা হয়েছে, প্রতিটির রেজোলিউশন 768 × 768।  আমরা DALL-E 2 [5] থেকে 9,000টি ছবি তৈরি করেছি, যার মধ্যে 30টি জনতাত্ত্বিক গোষ্ঠীর প্রতিটির জন্য 300টি ছবি রয়েছে। এই চিত্রগুলি 512×512 পিক্সেলের রেজোলিউশনে সংশ্লেষিত হয়েছিল।  512 × 512 রেজোলিউশনে মোট 1,000টি মিডজার্নি[6] ছবি ডাউনলোড করা হয়েছে। এই ছবিগুলিকে ম্যানুয়ালি কিউরেট করা হয়েছে শুধুমাত্র একটি মুখ দিয়ে।  2.5। ডিফিউশন অ-মুখ  আমরা স্ট্যাবল ডিফিউশন (1, 2) এর দুটি সংস্করণের প্রতিটি থেকে 1,000টি নন-ফেস ইমেজ সংশ্লেষিত করেছি। এই ছবিগুলি র্যান্ডম ক্যাপশন (ChatGPT দ্বারা তৈরি) ব্যবহার করে তৈরি করা হয়েছিল এবং কোনও ব্যক্তি বা মুখ সম্বলিত ছবিগুলি সরাতে ম্যানুয়ালি পর্যালোচনা করা হয়েছিল। এই চিত্রগুলি 600 × 600 পিক্সেলের রেজোলিউশনে সংশ্লেষিত হয়েছিল। 1,000টি DALL-E 2 এবং 1,000টি মিডজার্নি চিত্রের অনুরূপ সেট 512 × 512 রেজোলিউশনে সংশ্লেষিত হয়েছিল।  2.6। প্রশিক্ষণ এবং মূল্যায়ন ডেটা  উপরের গণনাকৃত চিত্রগুলির সেটগুলিকে প্রশিক্ষণ এবং মূল্যায়নে বিভক্ত করা হয়েছে। আমাদের মডেল (বিভাগ 3 এ বর্ণিত) 30,000 বাস্তব মুখ এবং 30,000 AI-উত্পাদিত মুখগুলির একটি এলোমেলো উপসেটে প্রশিক্ষিত। AI-উত্পন্ন মুখগুলি 5,250 StyleGAN 1, 5,250 StyleGAN 2, 4,500 StyleGAN 3, 3,750 Stable Diffusion 1, 3,750 Stable Diffusion 2 এবং 7,500 DALL-E এর একটি এলোমেলো উপসেট নিয়ে গঠিত।  আমরা নিম্নলিখিতগুলির বিরুদ্ধে আমাদের মডেল মূল্যায়ন করি:  • প্রশিক্ষণে ব্যবহৃত একই সংশ্লেষণ ইঞ্জিন থেকে 5,000টি মুখের চিত্রের একটি সেট (স্টাইলগান 1, স্টাইলগান 2, স্টাইলগান 3, স্থিতিশীল ডিফিউশন 1, স্টেবল ডিফিউশন 2 এবং ড্যাল-ই 2)।  • প্রশিক্ষণে ব্যবহার করা হয়নি এমন সংশ্লেষণ ইঞ্জিন থেকে 5,000টি মুখের চিত্রের একটি সেট (Generated.photos, EG3D, Stable Diffusion xl, এবং Midjourney)।  • পাঁচটি সংশ্লেষণ ইঞ্জিনের প্রতিটি থেকে 3,750টি নন-ফেস ইমেজের একটি সেট (স্টাইলগান 1, ডাল-ই 2, স্টেবল ডিফিউশন 1, স্টেবল ডিফিউশন 2 এবং মিডজার্নি)।  • 13,750টি বাস্তব মুখের একটি সেট।  এই কাগজটি CC 4.0 লাইসেন্সের অধীনে   । arxiv-এ উপলব্ধ  [১] StyleGAN প্যারামিটার ψ (সাধারণত পরিসরে [0, 1]) একটি চিত্র তৈরি করতে ব্যবহৃত সুপ্ত স্থান উপস্থাপনে বীজের মানের ছাঁটাই নিয়ন্ত্রণ করে। ψ এর ছোট মানগুলি ভাল চিত্রের গুণমান সরবরাহ করে তবে মুখের বৈচিত্র্য হ্রাস করে। ψ = 0.5 এর একটি মধ্য-পরিসরের মান তুলনামূলকভাবে আর্টিফ্যাক্ট-মুক্ত মুখ তৈরি করে, যখন সংশ্লেষিত মুখের লিঙ্গ, বয়স এবং জাতিগততার মধ্যে পার্থক্যের অনুমতি দেয়।  [2] https://generated.photos/faces  [৩] https://github.com/NVlabs/stylegan)  [৪] https: // github। com / স্থিতিশীলতা - AI / StableDiffusion  [৫] https://openai.com/dall-e-2  [৬] https://www.midjourney.com

Part of HackerNoon's growing list of open-source research papers, promoting free access to academic material.

Read My Stories

BotBeat is an AI Research Goldmine - said real person talking to a bot on Twitter/X/Gronk/WhateverWeAreCallingIt

BotBeat's Blog

গল্পের মূল ভাষায় এই অডিও তৈরি!

বন্যের মধ্যে এআই-জেনারেটেড ফেস খোঁজা: ডেটা সেট

About Author

মন্তব্য

আসে ট্যাগ

এই নিবন্ধটি উপস্থাপন করা হয়েছে

Related Stories

ক্লাউড সনেট 3.5 সিস্টেম প্রম্পট লিক: একটি ফরেনসিক বিশ্লেষণ

ফ্লোকির ভালহাল্লা ভারতের শ্রীলঙ্কা সফরের সহযোগী স্পনসর হিসেবে যোগ দিয়েছেন

ব্যবহারকারী-কেন্দ্রিক ক্রিপ্টো পণ্য তৈরি করা: গ্রাহক প্রতিক্রিয়ার গুরুত্ব

এই 18টি ডেভেলপার টুল 🚀🔥 দিয়ে আপনার উৎপাদনশীলতা বাড়ান

ক্লাউড সনেট 3.5 সিস্টেম প্রম্পট লিক: একটি ফরেনসিক বিশ্লেষণ

ফ্লোকির ভালহাল্লা ভারতের শ্রীলঙ্কা সফরের সহযোগী স্পনসর হিসেবে যোগ দিয়েছেন

ব্যবহারকারী-কেন্দ্রিক ক্রিপ্টো পণ্য তৈরি করা: গ্রাহক প্রতিক্রিয়ার গুরুত্ব

এই 18টি ডেভেলপার টুল 🚀🔥 দিয়ে আপনার উৎপাদনশীলতা বাড়ান

Light-Mode

Classic

Newspaper

Minty

Dark-Mode

Neon Noir

Minty

HN StartUps