paint-brush
বন্যের মধ্যে এআই-উত্পন্ন মুখগুলি সন্ধান করা: আলোচনা, স্বীকৃতি এবং উল্লেখদ্বারা@botbeat
124 পড়া

বন্যের মধ্যে এআই-উত্পন্ন মুখগুলি সন্ধান করা: আলোচনা, স্বীকৃতি এবং উল্লেখ

অতিদীর্ঘ; পড়তে

AI অনলাইন স্ক্যামের জন্য বাস্তবসম্মত জাল মুখ তৈরি করতে পারে। এই কাজটি চিত্রগুলিতে এআই-উত্পন্ন মুখগুলি সনাক্ত করার একটি পদ্ধতি প্রস্তাব করে।
featured image - বন্যের মধ্যে এআই-উত্পন্ন মুখগুলি সন্ধান করা: আলোচনা, স্বীকৃতি এবং উল্লেখ
BotBeat.Tech: Trusted Generative AI Research Firm HackerNoon profile picture
0-item

লেখক:

(1) Gonzalo J. Aniano Porcile, LinkedIn;

(2) জ্যাক গিন্ডি, লিঙ্কডইন;

(3) শিবংশ মুন্দ্রা, লিঙ্কডইন;

(4) জেমস আর. ভার্বাস, লিঙ্কডইন;

(5) হ্যানি ফরিদ, লিঙ্কডইন এবং ক্যালিফোর্নিয়া বিশ্ববিদ্যালয়, বার্কলে।

লিঙ্কের টেবিল

5. আলোচনা

অনেক ইমেজ শ্রেণীবিভাগের সমস্যার জন্য, বৃহৎ নিউরাল মডেল - যথাযথভাবে প্রতিনিধি ডেটা সহ - বৈষম্যমূলক বৈশিষ্ট্যগুলি শিখতে তাদের ক্ষমতার জন্য আকর্ষণীয়। এই মডেলগুলি, তবে, প্রতিপক্ষ আক্রমণের জন্য দুর্বল হতে পারে [4]। আমাদের মডেলটি পূর্ববর্তী মডেলগুলির মতো দুর্বল কিনা তা দেখতে বাকি রয়েছে যেখানে অদৃশ্য পরিমাণে প্রতিপক্ষের গোলমাল মডেলটিকে বিভ্রান্ত করে [3]। বিশেষ করে, আমরা যে আপাত কাঠামোগত বা শব্দার্থিক নিদর্শনগুলি শিখেছি বলে মনে হয় তা ইচ্ছাকৃত প্রতিপক্ষ আক্রমণের জন্য আরও দৃঢ়তা প্রদান করবে কিনা তা দেখতে হবে।


ট্রান্সকোডিং এবং ইমেজ রিসাইজ করার মতো লন্ডারিং অপারেশন সহ কম পরিশীলিত আক্রমণের ক্ষেত্রে, আমাদের আছে


চিত্র 5. এআই-উত্পন্ন মুখ এবং তাদের স্বাভাবিক সমন্বিত গ্রেডিয়েন্টের উদাহরণ, যা প্রকাশ করে যে আমাদের মডেলটি প্রাথমিকভাবে মুখের অঞ্চলগুলিতে ফোকাস করা হয়েছে: (ক) গড়ে 100টি StyleGAN 2 মুখ, (b) DALL-E 2, (c) মিডজার্নি, (d,e) স্থিতিশীল বিস্তার 1,2।


দেখানো হয়েছে যে আমাদের মডেল লন্ডারিং অপারেশনের বিস্তৃত পরিসরে স্থিতিস্থাপক।


এআই-উত্পাদিত বিষয়বস্তু তৈরি এবং সনাক্তকরণ সহজাতভাবে প্রতিপক্ষ এবং সৃষ্টিকর্তা এবং সনাক্তকারীর মধ্যে কিছুটা পূর্বাভাসযোগ্য। যদিও এটি মনে হতে পারে যে সনাক্তকরণ নিরর্থক, তা নয়। ক্রমাগত ডিটেক্টর তৈরি করে, আমরা নির্মাতাদের বিশ্বাসযোগ্য জাল তৈরি করার জন্য সময় এবং খরচ বিনিয়োগ চালিয়ে যেতে বাধ্য করি। এবং যখন যথেষ্ট পরিশীলিত স্রষ্টা সম্ভবত বেশিরভাগ প্রতিরক্ষা বাইপাস করতে সক্ষম হবেন, গড় স্রষ্টা তা করবেন না।


আমাদের মতো বড় অনলাইন প্ল্যাটফর্মে কাজ করার সময়, এই প্রশমন - কিন্তু নির্মূল নয় - কৌশল নিরাপদ অনলাইন স্থান তৈরি করার জন্য মূল্যবান। উপরন্তু, যে কোনো সফল প্রতিরক্ষা একটি নয়, অনেকগুলি ভিন্ন পন্থা নিযুক্ত করবে যা বিভিন্ন শিল্পকর্মকে কাজে লাগায়। এই ধরনের সমস্ত প্রতিরক্ষাকে বাইপাস করা প্রতিপক্ষের জন্য গুরুত্বপূর্ণ চ্যালেঞ্জ তৈরি করবে। রেজোলিউশন, গুণমান এবং সংশ্লেষণ ইঞ্জিনগুলির একটি পরিসর জুড়ে স্থিতিস্থাপক যা একটি শক্তিশালী আর্টিফ্যাক্ট বলে মনে হচ্ছে তা শেখার মাধ্যমে, এখানে বর্ণিত পদ্ধতিটি একটি প্রতিরক্ষামূলক টুলকিটে একটি শক্তিশালী নতুন টুল যোগ করে।

স্বীকৃতি

এই কাজটি লিঙ্কডইন[10]-এ অধ্যাপক হ্যানি ফরিদ এবং ট্রাস্ট ডেটা দলের মধ্যে একটি সহযোগিতার ফসল। AI-উত্পন্ন মুখগুলি তৈরিতে সাহায্য করার জন্য আমরা Matya's Bohacek কে ধন্যবাদ জানাই। এই সহযোগিতা সক্রিয় করার জন্য আমরা লিঙ্কডইন স্কলারস[11] প্রোগ্রামকে ধন্যবাদ জানাই। এছাড়াও আমরা ইয়া জু, ড্যানিয়েল ওলমেডিলা, কিম ক্যাপস-তানাকা, জেনেল ব্রে, শৌনক চ্যাটার্জি, বিদিত জৈন, টিং চেন, ভিপিন গুপ্তা, দিনেশ পালানিভেলু, মিলিন্দা লাক্কাম, এবং নটেশ পিল্লাইকে এই কাজের সমর্থনের জন্য ধন্যবাদ জানাই। স্টাইলগান প্রজন্মের সফ্টওয়্যার, প্রশিক্ষিত মডেল এবং সংশ্লেষিত ছবিগুলিকে সর্বজনীনভাবে উপলব্ধ করার জন্য এবং তাদের মূল্যবান জন্য NVIDIA-এর ডেভিড লুয়েবকে, মার্গারেট আলব্রেখট, এডউইন নিদা, কোকি নাগানো, জর্জ চেল্লাপা, বুরাক ইয়োল্ডেমির এবং অঙ্কিত প্যাটেলের কাছে আমরা কৃতজ্ঞ। পরামর্শ

তথ্যসূত্র

[১] স্থিতিশীলতা এআই। https://stability.ai. 1


[২] ডেভিড বাউ, অ্যালেক্স অ্যান্ডোনিয়ান, অড্রে কুই, ইয়নহোয়ান পার্ক, আলি জাহানিয়ান, অডে অলিভা এবং আন্তোনিও তোরালবা। শব্দ দ্বারা আঁকা. arXiv:2103.10951, 2021. 1


[৩] নিকোলাস কার্লিনি এবং হ্যানি ফরিদ। সাদা-এবং কালো-বক্স আক্রমণের সাথে ডিপফেক-ইমেজ ডিটেক্টর এড়ানো। কম্পিউটার ভিশন এবং প্যাটার্ন রিকগনিশন ওয়ার্কশপের উপর IEEE/CVF সম্মেলনের কার্যক্রমে, পৃষ্ঠা 658–659, 2020। 7


[৪] নিকোলাস কার্লিনি এবং ডেভিড ওয়াগনার। নিউরাল নেটওয়ার্কের দৃঢ়তা মূল্যায়নের দিকে। নিরাপত্তা এবং গোপনীয়তার উপর IEEE সিম্পোজিয়ামে, পৃষ্ঠা 39-57। IEEE, 2017. 7


[৫] লুসি চাই, ডেভিড বাউ, সের-নাম লিম এবং ফিলিপ আইসোলা। কি জাল ছবি সনাক্তযোগ্য করে তোলে? সাধারণীকরণ যে বৈশিষ্ট্য বোঝা. কম্পিউটার ভিশনের উপর ইউরোপীয় সম্মেলনে, পৃষ্ঠা 103-120, 2020। 2


[৬] এরিক আর চ্যান, কনর জেড লিন, ম্যাথিউ এ চ্যান, কোকি নাগানো, বক্সিয়াও প্যান, শালিনি ডি মেলো, ওরাজিও গ্যালো, লিওনিদাস জে গুইবাস, জোনাথন ট্রেম্বলে, সামেহ খামিস, এট আল। দক্ষ জ্যামিতি-সচেতন 3D জেনারেটিভ অ্যাডভারসারিয়াল নেটওয়ার্ক। কম্পিউটার ভিশন এবং প্যাটার্ন রিকগনিশনের আন্তর্জাতিক সম্মেলনে, পৃষ্ঠা 16123–16133, 2022। 2


[৭] ফ্রাঙ্কোইস চোলেট। এক্সেপশন: গভীরভাবে বিভাজ্য কনভল্যুশন সহ গভীর শিক্ষা। arXiv:1610.02357, 2017। 4


[৮] রিকার্ডো করভি, ডেভিড কোজোলিনো, গিয়াদা জিনগারিনি, জিওভানি পোগি, কোকি নাগানো এবং লুইসা ভারডোলিভা। প্রসারিত মডেল দ্বারা উত্পন্ন সিন্থেটিক ইমেজ সনাক্তকরণের উপর. ধ্বনিবিদ্যা, বক্তৃতা এবং সংকেত প্রক্রিয়াকরণের আন্তর্জাতিক সম্মেলনে, পৃষ্ঠা 1-5। IEEE, 2023। 2, 5, 7


[৯] চেংডং ডং, অজয় কুমার এবং এরিউন লিউ। তাদের বর্ণালী ডোমেন ছাপ থেকে GAN-উত্পন্ন জাল চিত্রগুলি সনাক্ত করার আগে দুবার চিন্তা করুন৷ কম্পিউটার ভিশন এবং প্যাটার্ন রিকগনিশনের আন্তর্জাতিক সম্মেলনে, পৃষ্ঠা 7865-7874, 2022। 2


[১০] হানি ফরিদ। গভীর নকল তৈরি করা, ব্যবহার করা, অপব্যবহার করা এবং সনাক্ত করা। অনলাইন ট্রাস্ট অ্যান্ড সেফটি জার্নাল, 1(4), 2022। 2


[১১] জোয়েল ফ্রাঙ্ক, থর্স্টেন আইজেনহোফার, লিয়া শোনহের, আসজা ফিস- ¨ চের, ডোরোথিয়া কোলোসা এবং থর্স্টেন হোলজ। গভীর জাল চিত্র স্বীকৃতির জন্য ফ্রিকোয়েন্সি বিশ্লেষণের সুবিধা। arXiv:2003.08685, 2020. 2


[১২] দিয়েগো গ্র্যাগনানিলো, ডেভিড কোজোলিনো, ফ্রান্সেসকো মারা, জিওভানি পোগি এবং লুইসা ভারডোলিভা। GAN উত্পন্ন ছবি সনাক্ত করা সহজ? হৃদয়-রাজ্যের একটি সমালোচনামূলক বিশ্লেষণ। মাল্টিমিডিয়া এবং এক্সপোতে IEEE আন্তর্জাতিক সম্মেলনে, পৃষ্ঠা 1-6, 2021। 2


[১৩] হুই গুও, শু হু, জিন ওয়াং, মিং-চিং চ্যাং এবং সিওয়েই লিউ। চোখ সব বলে: অনিয়মিত পুতুলের আকার গণ-উত্পন্ন মুখগুলি প্রকাশ করে। ধ্বনিবিদ্যা, বক্তৃতা এবং সংকেত প্রক্রিয়াকরণের উপর IEEE আন্তর্জাতিক সম্মেলনে, পৃষ্ঠা 2904-2908। IEEE, 2022। 2


[১৪] কাইমিং হি, জিয়াংইউ ঝাং, শাওকিং রেন এবং জিয়ান সান। ইমেজ স্বীকৃতির জন্য গভীর অবশিষ্ট শিক্ষা। arXiv: 1512.03385, 2015। 4


[১৫] শু হু, ইউজুন লি এবং সিওয়েই লিউ। অসামঞ্জস্যপূর্ণ কর্নিয়াল স্পেকুলার হাইলাইটগুলি ব্যবহার করে GAN জেনারেটেড মুখগুলি প্রকাশ করা। ধ্বনিবিদ্যা, বক্তৃতা এবং সংকেত প্রক্রিয়াকরণের উপর IEEE আন্তর্জাতিক সম্মেলনে, পৃষ্ঠা 2500-2504। IEEE, 2021. 2


[১৬] তেরো কাররাস, টিমো আইলা, সামুলি লেইন এবং জাক্কো লেহতিনেন। উন্নত গুণমান, স্থিতিশীলতা এবং বৈচিত্র্যের জন্য GAN-এর প্রগতিশীল বৃদ্ধি। arXiv:1710.10196, 2017। 1


[১৭] তেরো কাররাস, মিইকা আইত্তালা, সামুলি লেইন, এরিক হার্ক ¨ ওয়ানেন, ¨ জ্যান হেলস্টেন, জাক্কো লেহটিনেন এবং টিমো আইলা। উপনাম-মুক্ত জেনারেটিভ অ্যাডভারসারিয়াল নেটওয়ার্ক। নিউরাল ইনফরমেশন প্রসেসিং সিস্টেমে, 2021। 1, 2


[18] তেরো কাররাস, সামুলি লাইন এবং টিমো আইলা। জেনারেটিভ অ্যাডভারসারিয়াল নেটওয়ার্কের জন্য একটি শৈলী-ভিত্তিক জেনারেটর আর্কিটেকচার। কম্পিউটার ভিশন এবং প্যাটার্ন রিকগনিশনের আন্তর্জাতিক সম্মেলনে, পৃষ্ঠা 4401–4410, 2019। 1, 2


[১৯] তেরো কাররাস, সামুলি লাইন, মিইকা আইত্তালা, জ্যান হেলস্টেন, জাক্কো লেহটিনেন এবং টিমো আইলা। স্টাইলগানের চিত্রের গুণমান বিশ্লেষণ এবং উন্নত করা। ইন্টারন্যাশনাল কনফারেন্স অন কম্পিউটার ভিশন এবং প্যাটার্ন রিকগনিশনে, পৃষ্ঠা 8110– 8119, 2020। 2


[২০] ডেভিড সি নিল, ডেভিড ফিল্ড এবং ড্যানিয়েল কার্স্টেন্ট। ফ্র্যাক্টাল ছবির মানুষের বৈষম্য। জোসা এ, 7(6):1113-1123, 1990। 1


[২১] বো লিউ, ফান ইয়াং, শিউলি বি, বিন জিয়াও, উইশেং লি, এবং জিনবো গাও। বাস্তব চিত্র দ্বারা উত্পন্ন ছবি সনাক্তকরণ. কম্পিউটার ভিশনের উপর ইউরোপীয় সম্মেলনে, পৃষ্ঠা 95-110। স্প্রিংগার, 2022। 2


[২২] জে লিউ, ইউটং লিন, ইউ কাও, হান হু, ইক্সুয়ান ওয়েই, ঝেং ঝাং, স্টিফেন লিন এবং বেইনিং গুও। সুইন ট্রান্সফরমার: স্থানান্তরিত জানালা ব্যবহার করে হায়ারার্কিক্যাল ভিশন ট্রান্সফরমার। IEEE/CVF ইন্টারন্যাশনাল কনফারেন্স অন কম্পিউটার ভিশন, 2021-এ। 4


[২৩] শিবংশ মুন্দ্রা, গঞ্জালো জে. অ্যানিয়ানো পোরসিল, স্মিত মারভানিয়া, জেমস আর. ভার্বাস এবং হ্যানি ফরিদ। কমপ্যাক্ট এম্বেডিং থেকে গ্যানজেনারেটেড প্রোফাইল ফটোগুলি প্রকাশ করা হচ্ছে। কম্পিউটার ভিশন এবং প্যাটার্ন রিকগনিশন ওয়ার্কশপ, 2023-এর আন্তর্জাতিক সম্মেলনে। 2, 7


[২৪] সোফি জে নাইটিংগেল এবং হ্যানি ফরিদ। এআই-সংশ্লেষিত মুখগুলি আসল মুখ থেকে আলাদা করা যায় না এবং আরও বিশ্বস্ত। ন্যাশনাল একাডেমি অফ সায়েন্সেসের কার্যধারা, 119(8):e2120481119, 2022। 2


[২৫] জাভিয়ের পোর্টিলা এবং ইরো পি সিমোনসেলি। জটিল তরঙ্গের সহগগুলির যৌথ পরিসংখ্যানের উপর ভিত্তি করে একটি প্যারামেট্রিক টেক্সচার মডেল। ইন্টারন্যাশনাল জার্নাল অফ কম্পিউটার ভিশন, 40:49–70, 2000। 1


[২৬] রবিন রমবাচ, আন্দ্রেয়াস ব্ল্যাটম্যান, ডমিনিক লরেঞ্জ, প্যাট্রিক এসের এবং বিজর্ন ওমার। উচ্চ-রেজোলিউশন ইমেজ সিঙ্ক- সুপ্ত প্রসারণ মডেলের সাথে থিসিস। কম্পিউটার ভিশন এবং প্যাটার্ন রিকগনিশনের আন্তর্জাতিক সম্মেলনে, পৃষ্ঠা 10684–10695, 2022। 1, 4


[২৭] পবন সিনহা, বেঞ্জামিন বালাস, ইউরি অস্ট্রোভস্কি এবং রিচার্ড রাসেল। মানুষের দ্বারা মুখ শনাক্তকরণ: উনিশটি ফলাফল সমস্ত কম্পিউটার দৃষ্টি গবেষকদের জানা উচিত। IEEE এর কার্যধারা, 94(11):1948–1962, 2006। 6


[২৮] মুকুন্দ সুন্দররাজন, অঙ্কুর টালি এবং কিকি ইয়ান। গভীর নেটওয়ার্কের জন্য স্বতঃসিদ্ধ বৈশিষ্ট্য। arXiv: 1703.01365, 2017. 6


[২৯] চুয়াংচুয়াং তান, ইয়াও ঝাও, শিকুই ওয়েই, গুয়াংহুয়া গু এবং ইউনচাও ওয়েই। গ্রেডিয়েন্টের উপর শেখা: GAN-উত্পন্ন চিত্র সনাক্তকরণের জন্য সাধারণীকৃত আর্টিফ্যাক্ট উপস্থাপনা। কম্পিউটার ভিশন এবং প্যাটার্ন রিকগনিশনের আন্তর্জাতিক সম্মেলনে, পৃষ্ঠা 12105-12114, 2023। 2


[৩০] মিংক্সিং ট্যান এবং কুওক ভি. লে. এফিসিয়েন্টনেট: কনভোলিউশনাল নিউরাল নেটওয়ার্কের জন্য মডেল স্কেলিং পুনর্বিবেচনা করা। arXiv: 1905.11946, 2020. 4


[৩১] পিটার থম্পসন। মার্গারেট থ্যাচার: একটি নতুন বিভ্রম। উপলব্ধি, 9(4):483–484, 1980। 6


[৩২] শেং-ইউ ওয়াং, অলিভার ওয়াং, রিচার্ড ঝাং, অ্যান্ড্রু ওয়েনস, এবং আলেক্সি এ ইফ্রোস। CNN-উত্পাদিত চিত্রগুলি আশ্চর্যজনকভাবে সহজেই চিহ্নিত করা যায়... আপাতত। কম্পিউটার ভিশন এবং প্যাটার্ন রিকগনিশনের আন্তর্জাতিক সম্মেলনে, পৃষ্ঠা 8695-8704, 2020। 2


[৩৩] জিন ইয়াং, ইউজুন লি এবং সিওয়েই লিউ। অসংলগ্ন মাথা ভঙ্গি ব্যবহার করে গভীর নকল প্রকাশ করা। ধ্বনিবিদ্যা, বক্তৃতা এবং সংকেত প্রক্রিয়াকরণের উপর IEEE আন্তর্জাতিক সম্মেলনে, পৃষ্ঠা 8261–8265। IEEE, 2019। 2


[৩৪] জিন ইয়াং, ইউজুন লি, হংগাং কুই এবং সিওয়েই লিউ। ল্যান্ডমার্ক অবস্থানগুলি ব্যবহার করে GAN-সংশ্লেষিত মুখগুলি উন্মুক্ত করা। তথ্য গোপন ও মাল্টিমিডিয়া সিকিউরিটি বিষয়ে ACM কর্মশালায়, পৃষ্ঠা 113–118, 2019। 2


[৩৫] জু ঝাং, স্বেবর কারামান এবং শিহ-ফু চ্যাং। GAN জাল ছবিতে নিদর্শন সনাক্ত করা এবং অনুকরণ করা। IEEE ইন্টারন্যাশনাল ওয়ার্কশপে ইনফরমেশন ফরেনসিক অ্যান্ড সিকিউরিটি, পৃষ্ঠা 1-6, 2019। 2


এই কাগজটি CC 4.0 লাইসেন্সের অধীনে arxiv-এ উপলব্ধ


[১০] এই কাজে বর্ণিত মডেলটি কোনো লিঙ্কডইন সদস্যদের বিরুদ্ধে ব্যবস্থা নিতে ব্যবহৃত হয় না।


[১১] https://careers.linkedin.com/scholars