লেখক:  (1) Gonzalo J. Aniano Porcile, LinkedIn;  (2) জ্যাক গিন্ডি, লিঙ্কডইন;  (3) শিবংশ মুন্দ্রা, লিঙ্কডইন;  (4) জেমস আর. ভার্বাস, লিঙ্কডইন;  (5) হ্যানি ফরিদ, লিঙ্কডইন এবং ক্যালিফোর্নিয়া বিশ্ববিদ্যালয়, বার্কলে।  লিঙ্কের টেবিল   বিমূর্ত এবং ভূমিকা   ডেটা সেট   মডেল   ফলাফল   আলোচনা, স্বীকৃতি, এবং রেফারেন্স  বিমূর্ত   AI-ভিত্তিক ইমেজ জেনারেশন দ্রুত উন্নতি অব্যাহত রেখেছে, কম সুস্পষ্ট ভিজ্যুয়াল ত্রুটির সাথে ক্রমবর্ধমান আরও বাস্তবসম্মত ছবি তৈরি করছে। এআই-জেনারেট করা ছবিগুলি ভুয়া অনলাইন প্রোফাইল তৈরি করতে ব্যবহার করা হচ্ছে যা স্প্যাম, জালিয়াতি এবং বিভ্রান্তিমূলক প্রচারণার জন্য ব্যবহার করা হচ্ছে। যেকোন ধরণের ম্যানিপুলেটেড বা সংশ্লেষিত বিষয়বস্তু সনাক্ত করার সাধারণ সমস্যাটি ক্রমবর্ধমান মনোযোগ পাচ্ছে, এখানে আমরা একটি AI-উত্পাদিত মুখ থেকে একটি আসল মুখকে আলাদা করার আরও সংকীর্ণ কাজের উপর ফোকাস করি। এটি বিশেষভাবে প্রযোজ্য যখন একটি নকল ব্যবহারকারীর প্রোফাইল ফটো সহ অপ্রমাণিত অনলাইন অ্যাকাউন্টগুলি মোকাবেলা করা হয়৷ আমরা দেখাই যে শুধুমাত্র মুখের উপর ফোকাস করে, একটি আরও স্থিতিস্থাপক এবং সাধারণ-উদ্দেশ্যের আর্টিফ্যাক্ট সনাক্ত করা যেতে পারে যা বিভিন্ন ধরনের GAN- এবং ডিফিউশন-ভিত্তিক সংশ্লেষণ ইঞ্জিন থেকে এবং ইমেজ রেজোলিউশন জুড়ে এআই-উত্পন্ন মুখগুলি সনাক্ত করার অনুমতি দেয় (যত কম হিসাবে 128 × 128 পিক্সেল) এবং গুণাবলী।  1। পরিচিতি  গত তিন দশকে প্রাকৃতিক চিত্রের পরিসংখ্যানগত মডেলিংয়ে উল্লেখযোগ্য অগ্রগতি হয়েছে। সহজতম পাওয়ার-স্পেকট্রাল মডেল [20] প্রাকৃতিক চিত্রের 1/ω ফ্রিকোয়েন্সি ম্যাগনিটিউড পতন-অফকে ক্যাপচার করে, চিত্র 1(a)। কারণ এই মডেলটি কোন পর্যায়ের তথ্য অন্তর্ভুক্ত করে না, এটি বিশদ কাঠামোগত তথ্য ক্যাপচার করতে অক্ষম। 2000 সালের গোড়ার দিকে, নতুন পরিসংখ্যান মডেলগুলি উভয় মাত্রা এবং (কিছু) পর্যায়ের প্রাকৃতিক পরিসংখ্যান ক্যাপচার করতে সক্ষম হয়েছিল [25], যার ফলে মডেলিং মৌলিক টেক্সচার প্যাটার্ন, চিত্র 1(b) এর ক্ষেত্রে অগ্রগতি হয়।  পুনরাবৃত্তি করা নিদর্শনগুলি ক্যাপচার করতে সক্ষম হলেও, এই মডেলগুলি বস্তু, মুখ বা জটিল দৃশ্যের জ্যামিতিক বৈশিষ্ট্যগুলি ক্যাপচার করতে সক্ষম হয় না। 2017 থেকে শুরু করে, এবং প্রাকৃতিক চিত্রের বড় ডেটা সেট, গভীর শিক্ষার অগ্রগতি এবং শক্তিশালী GPU ক্লাস্টার দ্বারা চালিত, জেনারেটিভ মডেলগুলি মানুষের মুখ এবং বস্তুর বিস্তারিত বৈশিষ্ট্যগুলি ক্যাপচার করতে শুরু করে [16, 18]। একটি একক বিভাগ (মুখ, গাড়ি, বিড়াল ইত্যাদি) থেকে প্রচুর সংখ্যক চিত্রের উপর প্রশিক্ষিত, এই জেনারেটিভ অ্যাডভারসারিয়াল নেটওয়ার্ক (GANs) অত্যন্ত বিস্তারিত বৈশিষ্ট্যগুলি ক্যাপচার করে   উদাহরণস্বরূপ, মুখ, চিত্র 1(c), কিন্তু শুধুমাত্র একটি একক বিভাগে সীমাবদ্ধ। অতি সম্প্রতি, ডিফিউশন-ভিত্তিক মডেলগুলি [2,26] ভাষাগত প্রম্পটগুলির সাথে জেনারেটিভ ইমেজ মডেলগুলিকে একত্রিত করেছে যা বর্ণনামূলক টেক্সট প্রম্পট থেকে চিত্রগুলির সংশ্লেষণের অনুমতি দেয় যেমন "একটি মৌমাছি পালনকারী একটি স্ব প্রতিকৃতি আঁকা", চিত্র 1(d)।  ঐতিহ্যগতভাবে, জেনারেটিভ ইমেজ মডেলগুলির বিকাশ দুটি প্রাথমিক লক্ষ্য দ্বারা চালিত হয়েছিল: (1) প্রাকৃতিক চিত্রগুলির মৌলিক পরিসংখ্যানগত বৈশিষ্ট্যগুলি বোঝা; এবং (2) কম্পিউটার গ্রাফিক্স রেন্ডারিং থেকে শুরু করে মানব সাইকোফিজিক্স এবং ক্লাসিক কম্পিউটার ভিশন টাস্কে ডেটা বৃদ্ধি পর্যন্ত সমস্ত কিছুর জন্য ফলাফল সংশ্লেষিত চিত্রগুলি ব্যবহার করুন। আজ, যদিও, জেনারেটিভ এআই স্প্যাম থেকে জালিয়াতি এবং বিভ্রান্তিমূলক প্রচারণার জন্য অতিরিক্ত জ্বালানী পর্যন্ত আরও জঘন্য ব্যবহারের ঘটনা খুঁজে পেয়েছে।  কয়েক মিলিয়ন ব্যবহারকারীর সাথে বড় আকারের নেটওয়ার্কগুলিতে কাজ করার সময় ম্যানিপুলেটেড বা সংশ্লেষিত ছবিগুলি সনাক্ত করা বিশেষভাবে চ্যালেঞ্জিং। এই চ্যালেঞ্জটি আরও তাৎপর্যপূর্ণ হয়ে ওঠে যখন গড় ব্যবহারকারী একটি নকল মুখ থেকে আসলকে আলাদা করতে লড়াই করে [24]। যেহেতু আমরা জাল অনলাইন ব্যবহারকারী অ্যাকাউন্ট তৈরিতে জেনারেটিভ AI ব্যবহার নিয়ে উদ্বিগ্ন, আমরা দ্রুত এবং নির্ভরযোগ্য কৌশলগুলি বিকাশ করতে চাই যা AI-উত্পাদিত মুখগুলি থেকে আসলকে আলাদা করতে পারে৷ আমরা পরবর্তীতে আমাদের কাজকে সংশ্লিষ্ট কৌশলের প্রসঙ্গে রাখি।  1.1। সম্পর্কিত কাজ  যেহেতু আমরা AI-উত্পাদিত মুখগুলির উপর বিশেষভাবে ফোকাস করব, তাই আমরা নকল মুখ থেকে আসলকে আলাদা করার উপর ফোকাস করা বা প্রযোজ্য সম্পর্কিত কাজগুলি পর্যালোচনা করব। এআই-উত্পন্ন সামগ্রী সনাক্ত করার জন্য দুটি বিস্তৃত শ্রেণীবিভাগ রয়েছে [10]।  প্রথমটিতে, অনুমান-চালিত পদ্ধতিতে, এআই-উত্পন্ন মুখগুলির নির্দিষ্ট শিল্পকর্মগুলিকে কাজে লাগানো হয় যেমন কর্নিয়াল প্রতিফলনের আকারে দ্বিপাক্ষিক মুখের প্রতিসাম্যের অসঙ্গতি [১৩] এবং পুতুলের আকার [১৫], অথবা মাথার ভঙ্গি এবং স্থানিক বিন্যাসে অসঙ্গতি। মুখের বৈশিষ্ট্য (চোখ, নাকের ডগা, মুখের কোণ, চিবুক ইত্যাদি) [২৩, ৩৩, ৩৪]। এই পদ্ধতির সুবিধা হল যে তারা স্পষ্ট, শব্দার্থ স্তরের অসঙ্গতিগুলি শিখে। ত্রুটি হল যে সময়ের সাথে সাথে সংশ্লেষণ ইঞ্জিনগুলি দেখা যাচ্ছে - হয় নিহিত বা স্পষ্টভাবে - এই নিদর্শনগুলির জন্য সংশোধন করা হচ্ছে৷ অন্যান্য নন-ফেস নির্দিষ্ট আর্টিফ্যাক্টগুলির মধ্যে স্থানিক ফ্রিকোয়েন্সি বা শব্দের অসঙ্গতিগুলি অন্তর্ভুক্ত রয়েছে [5,8,12,21,35], তবে এই নিদর্শনগুলি সাধারণ লন্ডারিং আক্রমণের জন্য ঝুঁকিপূর্ণ হতে পারে (যেমন, ট্রান্সকোডিং, অ্যাডিটিভ নয়েজ, চিত্রের আকার পরিবর্তন)।  দ্বিতীয়টিতে, ডেটা-চালিত পন্থা, মেশিন লার্নিং ব্যবহার করা হয় কিভাবে বাস্তব এবং এআই জেনারেটেড ইমেজের মধ্যে পার্থক্য করা যায় [১১, ২৯, ৩২]। এই মডেলগুলি প্রায়শই তাদের প্রশিক্ষণের সাথে সামঞ্জস্যপূর্ণ চিত্রগুলি বিশ্লেষণ করার সময় ভাল পারফর্ম করে, কিন্তু তারপরে ডোমেনের বাইরের চিত্রগুলির সাথে লড়াই করে এবং/অথবা লন্ডারিং আক্রমণের ঝুঁকিতে থাকে কারণ মডেলটি নিম্ন-স্তরের নিদর্শনগুলিতে আটকে থাকে [9]।  আমরা এই উভয় পন্থাগুলির সেরাটি ব্যবহার করার চেষ্টা করি। সংশ্লেষণ ইঞ্জিনের (GAN এবং ডিফিউশন) একটি পরিসরে আমাদের মডেলকে প্রশিক্ষণ দিয়ে, আমরা একটি নির্দিষ্ট নিম্ন-স্তরের আর্টিফ্যাক্টে আটকানো এড়াতে চাই যা সাধারণীকরণ করে না বা সাধারণ লন্ডারিং আক্রমণের জন্য ঝুঁকিপূর্ণ হতে পারে। শুধুমাত্র AI-উত্পন্ন মুখগুলি সনাক্ত করার উপর ফোকাস করে (এবং নির্বিচারে সিন্থেটিক ছবি নয়), আমরা দেখাই যে আমাদের মডেলটি AI-উত্পাদিত মুখগুলির থেকে আলাদা একটি শব্দার্থিক-স্তরের আর্টিফ্যাক্ট ক্যাপচার করেছে বলে মনে হচ্ছে যা সম্ভাব্য প্রতারণামূলক ব্যবহারকারীকে খুঁজে বের করার জন্য আমাদের নির্দিষ্ট অ্যাপ্লিকেশনের জন্য অত্যন্ত পছন্দনীয়। হিসাব আমরা আরও দেখাই যে আমাদের মডেল AI-উত্পন্ন মুখগুলি সনাক্ত করার জন্য স্থিতিস্থাপক যেগুলি পূর্বে প্রশিক্ষণে দেখা যায় নি, এবং ইমেজ রেজোলিউশন এবং গুণাবলীর একটি বড় পরিসরে স্থিতিস্থাপক।   এই কাগজটি CC 4.0 লাইসেন্সের অধীনে   । arxiv-এ উপলব্ধ

Part of HackerNoon's growing list of open-source research papers, promoting free access to academic material.

Read My Stories

BotBeat is an AI Research Goldmine - said real person talking to a bot on Twitter/X/Gronk/WhateverWeAreCallingIt

BotBeat's Blog

গল্পের মূল ভাষায় এই অডিও তৈরি!

AI-জেনারেটেড ফেস ইন দ্য ওয়াইল্ড খোঁজা: অ্যাবস্ট্রাক্ট এবং ইন্ট্রো

About Author

মন্তব্য

আসে ট্যাগ

এই নিবন্ধটি উপস্থাপন করা হয়েছে

Related Stories

এআই/এমএল ডাটালেকের জন্য রেফারেন্স আর্কিটেকচার তৈরির জন্য একজন স্থপতির গাইড

টেলিগ্রাম: ক্রিপ্টো দ্বীপের মূল ভূখণ্ডের সেতু

কিভাবে 10X দ্বারা আপনার কর্মপ্রবাহ উন্নত করবেন: 17টি প্রয়োজনীয় অ্যাপ

ক্রিপ্টো গ্রোথ: কার্যকরী ব্যবহারকারী ব্যক্তিত্ব তৈরি করা

এআই/এমএল ডাটালেকের জন্য রেফারেন্স আর্কিটেকচার তৈরির জন্য একজন স্থপতির গাইড

টেলিগ্রাম: ক্রিপ্টো দ্বীপের মূল ভূখণ্ডের সেতু

কিভাবে 10X দ্বারা আপনার কর্মপ্রবাহ উন্নত করবেন: 17টি প্রয়োজনীয় অ্যাপ

ক্রিপ্টো গ্রোথ: কার্যকরী ব্যবহারকারী ব্যক্তিত্ব তৈরি করা

Light-Mode

Classic

Newspaper

Minty

Dark-Mode

Neon Noir

Minty

HN StartUps