লেখক:
(1) Gonzalo J. Aniano Porcile, LinkedIn;
(2) জ্যাক গিন্ডি, লিঙ্কডইন;
(3) শিবংশ মুন্দ্রা, লিঙ্কডইন;
(4) জেমস আর. ভার্বাস, লিঙ্কডইন;
(5) হ্যানি ফরিদ, লিঙ্কডইন এবং ক্যালিফোর্নিয়া বিশ্ববিদ্যালয়, বার্কলে।
আমাদের বেসলাইন প্রশিক্ষণ এবং মূল্যায়ন কার্যকারিতা সারণী 2-এ দেখানো হয়েছে। মূল্যায়ন চিত্রগুলিতে একটি মুখ আছে কি না (প্রশিক্ষণের চিত্রগুলিতে শুধুমাত্র মুখ রয়েছে) এবং চিত্রগুলি একই (ইন-ইঞ্জিন) দিয়ে তৈরি হয়েছে কিনা তার উপর ভিত্তি করে মূল্যায়নটি ভেঙে দেওয়া হয়েছে। প্রশিক্ষণে ব্যবহৃত বিভিন্ন (ইঞ্জিনের বাইরে) সংশ্লেষণ ইঞ্জিন (বিভাগ 2.6 দেখুন)। প্রশিক্ষণ এবং মূল্যায়নের জন্য সত্যিকারের ইতিবাচক হার[8] (TPR) এর সরাসরি তুলনা প্রদান করার জন্য, আমরা 0.5% এর একটি মিথ্যা ইতিবাচক হার [9] (FPR) প্রদানের জন্য চূড়ান্ত শ্রেণিবিন্যাস প্রান্তিকে সামঞ্জস্য করি।
0.5% এর একটি নির্দিষ্ট FPR সহ, AI-উত্পাদিত মুখগুলি 98% হারে প্রশিক্ষণ এবং মূল্যায়নে সঠিকভাবে শ্রেণীবদ্ধ করা হয়। প্রশিক্ষণের জন্য ব্যবহৃত বিভিন্ন সংশ্লেষণ ইঞ্জিন (স্টাইলগান 1,2,3, স্থিতিশীল ডিফিউশন 1,2 এবং DALL-E 2) জুড়ে, টিপিআর স্থিতিশীল ডিফিউশন 1-এর জন্য 93.3% কম থেকে স্টাইলগানের জন্য উচ্চ 99.5% পর্যন্ত কিছুটা ভিন্ন ছিল। 2, এবং StyleGAN1-এর জন্য 98.9%, StyleGAN3-এর জন্য 99.9%, স্টেবল ডিফিউশন 2-এর জন্য 94.9%, এবং DALL-E 2-এর জন্য 99.2%।
সিনথেসিস ইঞ্জিন দ্বারা উত্পন্ন মুখগুলির জন্য ব্যবহার করা হয় না
প্রশিক্ষণ (ইঞ্জিনের বাইরে), একই এফপিআর-এ TPR 84.5% এ নেমে আসে, যা ডোমেনের বাইরের সাধারণীকরণ ভালো কিন্তু নিখুঁত নয়। প্রশিক্ষণে ব্যবহৃত নয় এমন বিভিন্ন সংশ্লেষণ ইঞ্জিন জুড়ে, টিপিআর ব্যাপকভাবে পরিবর্তিত হয়েছে, মিডজার্নির জন্য সর্বনিম্ন 19.4% থেকে EG3D-এর জন্য উচ্চ 99.5% এবং জেনারেটেড ফটোগুলির জন্য 95.4%। আমাদের শ্রেণিবিন্যাসকারী কিছু ক্ষেত্রে ভালভাবে সাধারণীকরণ করে এবং অন্যদের ক্ষেত্রে ব্যর্থ হয়। এই সীমাবদ্ধতা, তবে, সম্ভবত প্রাথমিক প্রশিক্ষণে এই ইঞ্জিনের বাইরের চিত্রগুলিকে অন্তর্ভুক্ত করে প্রশমিত করা যেতে পারে।
একটি বিশেষভাবে আকর্ষণীয় ফলাফলে, অ-মুখগুলি - প্রশিক্ষণে ব্যবহৃত একই সংশ্লেষণ ইঞ্জিন দ্বারা উত্পন্ন - সমস্ত ভুলভাবে শ্রেণীবদ্ধ করা হয়েছে। এটি সম্ভবত কারণ আমাদের কিছু বাস্তব চিত্রে মুখবিহীন রয়েছে (বিভাগ 2.1 দেখুন) যখন AI-উত্পাদিত সমস্ত ছবিতে মুখ থাকে। যেহেতু আমরা শুধুমাত্র একটি অ্যাকাউন্ট তৈরি করতে ব্যবহৃত নকল মুখগুলি সনাক্ত করতে আগ্রহী, তাই আমরা এটিকে একটি বড় সীমাবদ্ধতা হিসাবে দেখি না৷ এই ফলাফলটি আরও পরামর্শ দেয় যে আমাদের ক্লাসিফায়ারটি একটি AI-উত্পন্ন মুখের একটি নির্দিষ্ট সম্পত্তির সাথে যুক্ত হয়েছে এবং অন্তর্নিহিত সংশ্লেষণ থেকে কিছু নিম্ন-স্তরের আর্টিফ্যাক্ট নয় (যেমন, একটি শব্দ আঙুলের ছাপ [8])। বিভাগ 4.1-এ, আমরা এই অনুমানকে সমর্থন করার জন্য অতিরিক্ত প্রমাণ প্রদান করি।
উপরের বেসলাইন ফলাফল 512×512 পিক্সেল রেজোলিউশনে প্রশিক্ষণ এবং চিত্র মূল্যায়নের উপর ভিত্তি করে। চিত্র 3(a) (কঠিন নীল) এ দেখানো হয়েছে টিপিআর যখন প্রশিক্ষণের চিত্রগুলিকে নিম্ন রেজোলিউশনে (256, 128, 64, এবং 32) স্কেল করা হয় এবং তারপর শ্রেণিবিন্যাসের জন্য 512 পর্যন্ত স্কেল করা হয়। 0.5% এর একই FPR সহ, AI-উত্পন্ন মুখের শ্রেণীবিভাগের জন্য TPR 98.0% বেসলাইন থেকে মোটামুটি দ্রুত কমে যায়।
প্রকৃত ইতিবাচক হার, তবে, উল্লেখযোগ্যভাবে উন্নত হয় যখন মডেলটিকে N × N (N = 32, 64, 128, বা 256) রেজোলিউশনে চিত্রের উপর প্রশিক্ষণ দেওয়া হয় এবং তারপর প্রশিক্ষণে দেখা একই TPR এর বিপরীতে মূল্যায়ন করা হয়, চিত্র 3(a) ) (ড্যাশ করা লাল)। আগের মত, মিথ্যা পজিটিভ হার 0.5% এ স্থির করা হয়েছে। এখানে আমরা দেখতে পাই যে 128 × 128 রেজোলিউশনে TPR তুলনামূলকভাবে বেশি থাকে (91.9%) এবং শুধুমাত্র 32×32 (44.1%) এর সর্বনিম্ন রেজোলিউশনে হ্রাস পায়। এমনকি তুলনামূলকভাবে কম রেজোলিউশনে এআই-উত্পাদিত মুখগুলি সনাক্ত করার ক্ষমতা পরামর্শ দেয় যে আমাদের মডেলটি নিম্ন-স্তরের আর্টিফ্যাক্টের সাথে আটকে যায়নি যা এই স্তরের ডাউন-স্যাম্পলিং থেকে বাঁচবে না।
চিত্র 3(b) এ দেখানো হয়েছে ক্লাসিফায়ারের টিপিআর, বিভিন্ন মানের আনকম্প্রেসড PNG এবং JPEG ইমেজের উপর প্রশিক্ষিত, JPEG গুণাবলীর একটি পরিসর জুড়ে চিত্রের বিপরীতে মূল্যায়ন করা হয়েছে (সর্বোচ্চ মানের 100 থেকে সর্বনিম্ন মানের 20 পর্যন্ত)। এখানে আমরা দেখতে পাই যে AI-জেনারেটেড ফেস শনাক্ত করার জন্য TPR (FPR হল 0.5%) ধীরে ধীরে ক্ষয় হয় 94.3% এর TPR এর সাথে 80 এর মানের TPR এবং 88.0% এর TPR এর মানের সাথে 60। আবার, এআই-জেনারেটেড ফেস সনাক্ত করার ক্ষমতা JPEG কম্প্রেশন আর্টিফ্যাক্টের উপস্থিতি নির্দেশ করে যে আমাদের মডেলটি নিম্ন-স্তরের আর্টিফ্যাক্টের সাথে আটকে যায়নি।
বিভাগ 4 এ দেখানো হয়েছে, আমাদের শ্রেণীবিভাগকারী বিভিন্ন সংশ্লেষণ ইঞ্জিনের পরিসর থেকে তৈরি AI মুখগুলিকে আলাদা করতে অত্যন্ত সক্ষম। এই ক্লাসিফায়ার, তবে, শুধুমাত্র মুখের মধ্যে সীমাবদ্ধ, টেবিল 2। অর্থাৎ, যখন প্রশিক্ষণে ব্যবহৃত একই সংশ্লেষণ ইঞ্জিনগুলি থেকে মুখবিহীন চিত্রগুলি উপস্থাপন করা হয়, তখন ক্লাসিফায়ার সম্পূর্ণরূপে এআই-জেনারেটেড হিসাবে শ্রেণীবদ্ধ করতে ব্যর্থ হয়।
আমরা মনে করি যে আমাদের শ্রেণীবদ্ধকারী একটি শব্দার্থিক স্তরের শিল্পকর্ম শিখে থাকতে পারে। এই দাবিটি আংশিকভাবে এই সত্য দ্বারা সমর্থিত যে আমাদের ক্লাসিফায়ার 128×128 পিক্সেলের কম রেজোলিউশনেও অত্যন্ত নির্ভুল থাকে, চিত্র 3(a), এবং মোটামুটি আক্রমনাত্মক JPEG কম্প্রেশনের মুখেও যুক্তিসঙ্গতভাবে নির্ভুল থাকে, চিত্র 3(b) . এখানে আমরা এই দাবিকে সমর্থন করার জন্য আরও প্রমাণ প্রদান করি যে আমরা একটি কাঠামোগত- বা শব্দার্থিক-স্তরের শিল্পকর্ম শিখেছি।
এটি সুপ্রতিষ্ঠিত যে মানুষের ভিজ্যুয়াল সিস্টেমে সাধারণ উদ্দেশ্য বস্তুর স্বীকৃতি বস্তুর অভিযোজন, ভঙ্গি এবং দৃষ্টিভঙ্গি বিকৃতির জন্য অত্যন্ত শক্তিশালী, মুখের স্বীকৃতি এবং প্রক্রিয়াকরণ এমনকি একটি সাধারণ বিপরীতে কম শক্তিশালী [২৭]। ক্লাসিক মার্গারেট থ্যাচারের বিভ্রম [৩১] এ এই প্রভাবটি আনন্দের সাথে চিত্রিত হয়েছে। চিত্র 4 এর উপরের সারির মুখগুলি নীচের সারিতে থাকা মুখগুলির বিপরীত সংস্করণ। ডানদিকের সংস্করণে, চোখ এবং মুখ মুখের তুলনায় উল্টানো হয়। এই অদ্ভুত বৈশিষ্ট্য ককটেল খাড়া মুখে স্পষ্ট কিন্তু উল্টানো মুখে নয়।
আমরা ভাবছিলাম যে আমাদের শ্রেণীবিভাগকারী শ্রেণীবদ্ধ করতে সংগ্রাম করবে কিনা
উল্লম্বভাবে উল্টানো মুখ। একই 10,000 বৈধতা চিত্র (বিভাগ 2.6) উল্টানো এবং পুনরায় শ্রেণীবদ্ধ করা হয়েছে। 0.5% এর একই স্থির FPR সহ, TPR 98.0% থেকে 20 শতাংশ পয়েন্ট কমে 77.7% হয়েছে।
তুলনা করে, শুধুমাত্র উল্লম্ব অক্ষের (অর্থাৎ, বাম-ডান ফ্লিপ) সম্পর্কে বৈধতা চিত্রগুলি ফ্লিপ করলে একই 0.5% FPR এর সাথে 98.0% এর TPR-এ কোন পরিবর্তন হয় না। এই জোড়া ফলাফল, রেজোলিউশন এবং কম্প্রেশন মানের দৃঢ়তার সাথে মিলিত, পরামর্শ দেয় যে আমাদের মডেলটি নিম্ন-স্তরের আর্টিফ্যাক্টের সাথে আটকে যায়নি এবং এর পরিবর্তে একটি স্ট্রাকচারাল বা শব্দার্থিক সম্পত্তি আবিষ্কার করেছে যা এআই-উত্পন্ন মুখগুলিকে আসল মুখ থেকে আলাদা করে।
আমরা সমন্বিত গ্রেডিয়েন্টের পদ্ধতি ব্যবহার করে আমাদের শ্রেণীবিভাগের প্রকৃতি আরও অন্বেষণ করি [28]। এই পদ্ধতিটি একটি গভীর নেটওয়ার্কের দ্বারা করা ভবিষ্যদ্বাণীগুলিকে এর ইনপুট বৈশিষ্ট্যগুলির জন্য দায়ী করে৷ যেহেতু এই পদ্ধতিটি প্রশিক্ষিত মডেলে কোনো পরিবর্তন ছাড়াই প্রয়োগ করা যেতে পারে, তাই এটি আমাদেরকে মডেলের সিদ্ধান্তের সাপেক্ষে প্রতিটি ইনপুট ইমেজ পিক্সেলের প্রাসঙ্গিকতা গণনা করতে দেয়।
চিত্র 5(a) এ দেখানো হয়েছে স্বাভাবিকীকৃত (সীমার মধ্যে [0, 1]) সমন্বিত গ্রেডিয়েন্টের অস্বাক্ষরিত মাত্রা হল 100 টিরও বেশি StyleGAN 2 চিত্রের গড় (কারণ StyleGAN জেনারেটেড মুখগুলি সব সারিবদ্ধ, গড় গ্রেডিয়েন্ট জুড়ে মুখের বৈশিষ্ট্যগুলির সাথে সামঞ্জস্যপূর্ণ সমস্ত ছবি)। চিত্র 5(b)-(e) হল প্রতিনিধি চিত্র এবং DALL-2, Midjourney, Stable Diffusion 1 এবং Stable Diffusion 2 দ্বারা তৈরি একটি চিত্রের জন্য তাদের স্বাভাবিক সমন্বিত গ্রেডিয়েন্ট। সব ক্ষেত্রেই, আমরা দেখতে পাই যে সবচেয়ে প্রাসঙ্গিক পিক্সেল , বৃহত্তর গ্রেডিয়েন্টের সাথে সঙ্গতিপূর্ণ, প্রাথমিকভাবে মুখের অঞ্চল এবং ত্বকের অন্যান্য অংশের চারপাশে ফোকাস করা হয়।
যেহেতু এটি বিশেষভাবে GAN জেনারেটেড মুখগুলি সনাক্ত করার উপর দৃষ্টি নিবদ্ধ করে, [23] এর কাজটি আমাদের সাথে সরাসরি সম্পর্কিত। এই কাজে, লেখকরা দেখান যে একটি নিম্ন-মাত্রিক রৈখিক মডেল StyleGAN-উত্পন্ন মুখগুলির সাধারণ মুখের প্রান্তিককরণকে ক্যাপচার করে। 3,000 স্টাইলগান মুখের বিপরীতে মূল্যায়ন করা হয়েছে, তাদের মডেলটি সঠিকভাবে 99.5% GAN মুখকে শ্রেণীবদ্ধ করে এবং 1% আসল মুখগুলিকে ভুলভাবে AI হিসাবে শ্রেণীবদ্ধ করে। তুলনা করে, আমরা একটি অনুরূপ TPR অর্জন করি, কিন্তু কম 0.5% FPR সহ।
আমাদের পদ্ধতির বিপরীতে, যা generated.photos-এর মতো অন্যান্য GAN মুখের ক্ষেত্রে সাধারণীকরণ করে, এই আগের কাজের জন্য TPR কমে 86.0% (একই 1% FPR সহ)। তদ্ব্যতীত, এই আগের কাজটি প্রসারণ-ভিত্তিক মুখগুলি সনাক্ত করতে ব্যর্থ হয় কারণ এই মুখগুলিতে কেবল স্টাইলগান মুখগুলির মতো একই সারিবদ্ধ আর্টিফ্যাক্ট থাকে না। তুলনা করে, আমাদের কৌশলটি GAN- এবং ডিফিউশন-উত্পন্ন মুখ এবং প্রশিক্ষণে দেখা যায় না সংশ্লেষণ ইঞ্জিন জুড়ে সাধারণীকরণ করে।
আমরা একটি সাম্প্রতিক অত্যাধুনিক মডেলের মূল্যায়ন করেছি যা এআই-উত্পন্ন চিত্রগুলিতে ফুরিয়ার শিল্পকর্মের উপস্থিতি কাজে লাগায় [৮]। বাস্তব এবং ইন-ইঞ্জিন এআই জেনারেটেড মুখের আমাদের মূল্যায়ন ডেটাসেটে এই মডেলটি 0.5% এর একই FPR এ এআই-উত্পন্ন মুখগুলির মাত্র 23.8% সঠিকভাবে শ্রেণীবদ্ধ করে। এই TPR আমাদের মডেলের 98.0% এর TPR থেকে যথেষ্ট কম এবং [8] এ রিপোর্ট করা 90% TPR এর থেকেও কম। আমরা অনুমান করি যে এই পার্থক্যটি আমাদের ডেটাসেটের আরও বৈচিত্র্যময় এবং চ্যালেঞ্জিং ইন-দ্য-ওয়াইল্ড বাস্তব চিত্রগুলির কারণে।
এই কাগজটি CC 4.0 লাইসেন্সের অধীনে arxiv-এ উপলব্ধ ।
[৮] ট্রু ইতিবাচক হার (টিপিআর) হল এআই-উত্পন্ন ফটোগুলির ভগ্নাংশ যা সঠিকভাবে শ্রেণীবদ্ধ করা হয়েছে।
[৯] মিথ্যা পজিটিভ রেট (এফপিআর) হল বাস্তব ফটোগুলির ভগ্নাংশ যা ভুলভাবে শ্রেণীবদ্ধ করা হয়েছে।