লেখক:
(1) Gonzalo J. Aniano Porcile, LinkedIn;
(2) জ্যাক গিন্ডি, লিঙ্কডইন;
(3) শিবংশ মুন্দ্রা, লিঙ্কডইন;
(4) জেমস আর. ভার্বাস, লিঙ্কডইন;
(5) হ্যানি ফরিদ, লিঙ্কডইন এবং ক্যালিফোর্নিয়া বিশ্ববিদ্যালয়, বার্কলে।
AI-ভিত্তিক ইমেজ জেনারেশন দ্রুত উন্নতি অব্যাহত রেখেছে, কম সুস্পষ্ট ভিজ্যুয়াল ত্রুটির সাথে ক্রমবর্ধমান আরও বাস্তবসম্মত ছবি তৈরি করছে। এআই-জেনারেট করা ছবিগুলি ভুয়া অনলাইন প্রোফাইল তৈরি করতে ব্যবহার করা হচ্ছে যা স্প্যাম, জালিয়াতি এবং বিভ্রান্তিমূলক প্রচারণার জন্য ব্যবহার করা হচ্ছে। যেকোন ধরণের ম্যানিপুলেটেড বা সংশ্লেষিত বিষয়বস্তু সনাক্ত করার সাধারণ সমস্যাটি ক্রমবর্ধমান মনোযোগ পাচ্ছে, এখানে আমরা একটি AI-উত্পাদিত মুখ থেকে একটি আসল মুখকে আলাদা করার আরও সংকীর্ণ কাজের উপর ফোকাস করি। এটি বিশেষভাবে প্রযোজ্য যখন একটি নকল ব্যবহারকারীর প্রোফাইল ফটো সহ অপ্রমাণিত অনলাইন অ্যাকাউন্টগুলি মোকাবেলা করা হয়৷ আমরা দেখাই যে শুধুমাত্র মুখের উপর ফোকাস করে, একটি আরও স্থিতিস্থাপক এবং সাধারণ-উদ্দেশ্যের আর্টিফ্যাক্ট সনাক্ত করা যেতে পারে যা বিভিন্ন ধরনের GAN- এবং ডিফিউশন-ভিত্তিক সংশ্লেষণ ইঞ্জিন থেকে এবং ইমেজ রেজোলিউশন জুড়ে এআই-উত্পন্ন মুখগুলি সনাক্ত করার অনুমতি দেয় (যত কম হিসাবে 128 × 128 পিক্সেল) এবং গুণাবলী।
গত তিন দশকে প্রাকৃতিক চিত্রের পরিসংখ্যানগত মডেলিংয়ে উল্লেখযোগ্য অগ্রগতি হয়েছে। সহজতম পাওয়ার-স্পেকট্রাল মডেল [20] প্রাকৃতিক চিত্রের 1/ω ফ্রিকোয়েন্সি ম্যাগনিটিউড পতন-অফকে ক্যাপচার করে, চিত্র 1(a)। কারণ এই মডেলটি কোন পর্যায়ের তথ্য অন্তর্ভুক্ত করে না, এটি বিশদ কাঠামোগত তথ্য ক্যাপচার করতে অক্ষম। 2000 সালের গোড়ার দিকে, নতুন পরিসংখ্যান মডেলগুলি উভয় মাত্রা এবং (কিছু) পর্যায়ের প্রাকৃতিক পরিসংখ্যান ক্যাপচার করতে সক্ষম হয়েছিল [25], যার ফলে মডেলিং মৌলিক টেক্সচার প্যাটার্ন, চিত্র 1(b) এর ক্ষেত্রে অগ্রগতি হয়।
পুনরাবৃত্তি করা নিদর্শনগুলি ক্যাপচার করতে সক্ষম হলেও, এই মডেলগুলি বস্তু, মুখ বা জটিল দৃশ্যের জ্যামিতিক বৈশিষ্ট্যগুলি ক্যাপচার করতে সক্ষম হয় না। 2017 থেকে শুরু করে, এবং প্রাকৃতিক চিত্রের বড় ডেটা সেট, গভীর শিক্ষার অগ্রগতি এবং শক্তিশালী GPU ক্লাস্টার দ্বারা চালিত, জেনারেটিভ মডেলগুলি মানুষের মুখ এবং বস্তুর বিস্তারিত বৈশিষ্ট্যগুলি ক্যাপচার করতে শুরু করে [16, 18]। একটি একক বিভাগ (মুখ, গাড়ি, বিড়াল ইত্যাদি) থেকে প্রচুর সংখ্যক চিত্রের উপর প্রশিক্ষিত, এই জেনারেটিভ অ্যাডভারসারিয়াল নেটওয়ার্ক (GANs) অত্যন্ত বিস্তারিত বৈশিষ্ট্যগুলি ক্যাপচার করে
উদাহরণস্বরূপ, মুখ, চিত্র 1(c), কিন্তু শুধুমাত্র একটি একক বিভাগে সীমাবদ্ধ। অতি সম্প্রতি, ডিফিউশন-ভিত্তিক মডেলগুলি [2,26] ভাষাগত প্রম্পটগুলির সাথে জেনারেটিভ ইমেজ মডেলগুলিকে একত্রিত করেছে যা বর্ণনামূলক টেক্সট প্রম্পট থেকে চিত্রগুলির সংশ্লেষণের অনুমতি দেয় যেমন "একটি মৌমাছি পালনকারী একটি স্ব প্রতিকৃতি আঁকা", চিত্র 1(d)।
ঐতিহ্যগতভাবে, জেনারেটিভ ইমেজ মডেলগুলির বিকাশ দুটি প্রাথমিক লক্ষ্য দ্বারা চালিত হয়েছিল: (1) প্রাকৃতিক চিত্রগুলির মৌলিক পরিসংখ্যানগত বৈশিষ্ট্যগুলি বোঝা; এবং (2) কম্পিউটার গ্রাফিক্স রেন্ডারিং থেকে শুরু করে মানব সাইকোফিজিক্স এবং ক্লাসিক কম্পিউটার ভিশন টাস্কে ডেটা বৃদ্ধি পর্যন্ত সমস্ত কিছুর জন্য ফলাফল সংশ্লেষিত চিত্রগুলি ব্যবহার করুন। আজ, যদিও, জেনারেটিভ এআই স্প্যাম থেকে জালিয়াতি এবং বিভ্রান্তিমূলক প্রচারণার জন্য অতিরিক্ত জ্বালানী পর্যন্ত আরও জঘন্য ব্যবহারের ঘটনা খুঁজে পেয়েছে।
কয়েক মিলিয়ন ব্যবহারকারীর সাথে বড় আকারের নেটওয়ার্কগুলিতে কাজ করার সময় ম্যানিপুলেটেড বা সংশ্লেষিত ছবিগুলি সনাক্ত করা বিশেষভাবে চ্যালেঞ্জিং। এই চ্যালেঞ্জটি আরও তাৎপর্যপূর্ণ হয়ে ওঠে যখন গড় ব্যবহারকারী একটি নকল মুখ থেকে আসলকে আলাদা করতে লড়াই করে [24]। যেহেতু আমরা জাল অনলাইন ব্যবহারকারী অ্যাকাউন্ট তৈরিতে জেনারেটিভ AI ব্যবহার নিয়ে উদ্বিগ্ন, আমরা দ্রুত এবং নির্ভরযোগ্য কৌশলগুলি বিকাশ করতে চাই যা AI-উত্পাদিত মুখগুলি থেকে আসলকে আলাদা করতে পারে৷ আমরা পরবর্তীতে আমাদের কাজকে সংশ্লিষ্ট কৌশলের প্রসঙ্গে রাখি।
যেহেতু আমরা AI-উত্পাদিত মুখগুলির উপর বিশেষভাবে ফোকাস করব, তাই আমরা নকল মুখ থেকে আসলকে আলাদা করার উপর ফোকাস করা বা প্রযোজ্য সম্পর্কিত কাজগুলি পর্যালোচনা করব। এআই-উত্পন্ন সামগ্রী সনাক্ত করার জন্য দুটি বিস্তৃত শ্রেণীবিভাগ রয়েছে [10]।
প্রথমটিতে, অনুমান-চালিত পদ্ধতিতে, এআই-উত্পন্ন মুখগুলির নির্দিষ্ট শিল্পকর্মগুলিকে কাজে লাগানো হয় যেমন কর্নিয়াল প্রতিফলনের আকারে দ্বিপাক্ষিক মুখের প্রতিসাম্যের অসঙ্গতি [১৩] এবং পুতুলের আকার [১৫], অথবা মাথার ভঙ্গি এবং স্থানিক বিন্যাসে অসঙ্গতি। মুখের বৈশিষ্ট্য (চোখ, নাকের ডগা, মুখের কোণ, চিবুক ইত্যাদি) [২৩, ৩৩, ৩৪]। এই পদ্ধতির সুবিধা হল যে তারা স্পষ্ট, শব্দার্থ স্তরের অসঙ্গতিগুলি শিখে। ত্রুটি হল যে সময়ের সাথে সাথে সংশ্লেষণ ইঞ্জিনগুলি দেখা যাচ্ছে - হয় নিহিত বা স্পষ্টভাবে - এই নিদর্শনগুলির জন্য সংশোধন করা হচ্ছে৷ অন্যান্য নন-ফেস নির্দিষ্ট আর্টিফ্যাক্টগুলির মধ্যে স্থানিক ফ্রিকোয়েন্সি বা শব্দের অসঙ্গতিগুলি অন্তর্ভুক্ত রয়েছে [5,8,12,21,35], তবে এই নিদর্শনগুলি সাধারণ লন্ডারিং আক্রমণের জন্য ঝুঁকিপূর্ণ হতে পারে (যেমন, ট্রান্সকোডিং, অ্যাডিটিভ নয়েজ, চিত্রের আকার পরিবর্তন)।
দ্বিতীয়টিতে, ডেটা-চালিত পন্থা, মেশিন লার্নিং ব্যবহার করা হয় কিভাবে বাস্তব এবং এআই জেনারেটেড ইমেজের মধ্যে পার্থক্য করা যায় [১১, ২৯, ৩২]। এই মডেলগুলি প্রায়শই তাদের প্রশিক্ষণের সাথে সামঞ্জস্যপূর্ণ চিত্রগুলি বিশ্লেষণ করার সময় ভাল পারফর্ম করে, কিন্তু তারপরে ডোমেনের বাইরের চিত্রগুলির সাথে লড়াই করে এবং/অথবা লন্ডারিং আক্রমণের ঝুঁকিতে থাকে কারণ মডেলটি নিম্ন-স্তরের নিদর্শনগুলিতে আটকে থাকে [9]।
আমরা এই উভয় পন্থাগুলির সেরাটি ব্যবহার করার চেষ্টা করি। সংশ্লেষণ ইঞ্জিনের (GAN এবং ডিফিউশন) একটি পরিসরে আমাদের মডেলকে প্রশিক্ষণ দিয়ে, আমরা একটি নির্দিষ্ট নিম্ন-স্তরের আর্টিফ্যাক্টে আটকানো এড়াতে চাই যা সাধারণীকরণ করে না বা সাধারণ লন্ডারিং আক্রমণের জন্য ঝুঁকিপূর্ণ হতে পারে। শুধুমাত্র AI-উত্পন্ন মুখগুলি সনাক্ত করার উপর ফোকাস করে (এবং নির্বিচারে সিন্থেটিক ছবি নয়), আমরা দেখাই যে আমাদের মডেলটি AI-উত্পাদিত মুখগুলির থেকে আলাদা একটি শব্দার্থিক-স্তরের আর্টিফ্যাক্ট ক্যাপচার করেছে বলে মনে হচ্ছে যা সম্ভাব্য প্রতারণামূলক ব্যবহারকারীকে খুঁজে বের করার জন্য আমাদের নির্দিষ্ট অ্যাপ্লিকেশনের জন্য অত্যন্ত পছন্দনীয়। হিসাব আমরা আরও দেখাই যে আমাদের মডেল AI-উত্পন্ন মুখগুলি সনাক্ত করার জন্য স্থিতিস্থাপক যেগুলি পূর্বে প্রশিক্ষণে দেখা যায় নি, এবং ইমেজ রেজোলিউশন এবং গুণাবলীর একটি বড় পরিসরে স্থিতিস্থাপক।
এই কাগজটি CC 4.0 লাইসেন্সের অধীনে arxiv-এ উপলব্ধ ।