पिछले कुछ वर्षों से डीपफेक का चलन बढ़ रहा है, जिसमें कई फेस स्वैप टूल धोखेबाजों और यहां तक कि संगठित आपराधिक समूहों के बीच लोकप्रियता हासिल कर रहे हैं।
यूरोपोल रिपोर्ट के अनुसार "
हालाँकि, एआई से संबंधित हर चीज की तरह, यह हमेशा धोखेबाजों और आधुनिक डीपफेक डिटेक्टरों के बीच हथियारों की दौड़ है। अंतर्राष्ट्रीय धोखाधड़ी जागरूकता सप्ताह से बाहर आते हुए, हम पिछले कुछ वर्षों में डीपफेक डिटेक्टरों की क्षमताओं और प्रगति की वास्तविकता जांच प्रदान करना चाहते थे - वास्तविकता की जांच केवल इसलिए आवश्यक थी क्योंकि डीपफेक धोखाधड़ी कितना बड़ा मुद्दा बना हुआ है।
अपने आंतरिक शोध में, हमने 2020 से प्रकाशित ओपन-सोर्स आधुनिक अत्याधुनिक डीपफेक डिटेक्टरों के प्रदर्शन का विश्लेषण किया।
यहां हमारा मौलिक अवलोकन है: जब वास्तविक और नकली सामग्री के बीच अंतर करने की बात आती है, तो कंप्यूटर ने लंबे समय से मनुष्यों से बेहतर प्रदर्शन किया है। यह खोज अत्याधुनिक एल्गोरिदम और विधियों की शक्ति का उपयोग करने की आवश्यकता को रेखांकित करती है।
इस क्षेत्र के लगभग सभी प्रमुख कार्यों में चेहरे की पहचान को उनके एल्गोरिदम के मूलभूत तत्व के रूप में प्रमुखता से शामिल किया गया है। चेहरे की पहचान एक निकट-समाधान है, जिसकी विशेषता उच्च सटीकता है - सही नहीं, लेकिन करीब।
जब कोई चेहरा किसी छवि में प्रमुखता से स्थित होता है और आगे की ओर देखता है, तो आधुनिक पहचान मॉडल तेज़ और विश्वसनीय पहचान में उत्कृष्टता प्राप्त करते हैं।
और जबकि डीपफेक छवियां बनाने के कई तरीके हैं, एक विधि लोकप्रिय और मजबूत दोनों है: वन-शॉट फेस स्वैपिंग। यह तकनीक चेहरे की विशेषताओं को पहले से दूसरे में स्थानांतरित करने के लिए दो छवियों, एक स्रोत और एक लक्ष्य का उपयोग करती है।
वर्तमान परिदृश्य में, इसे डीपफेक छवियां और वीडियो बनाने का सबसे शक्तिशाली तरीका माना जाता है।
आप हमारा प्रयास कर सकते हैं
अधिकांश संबंधित कार्यों में आसानी से उपलब्ध कोड और वेटेज की कमी डीपफेक पहचान के क्षेत्र में एक आम चुनौती को रेखांकित करती है।
यह परिदृश्य अक्सर वैज्ञानिक प्रसार पर व्यावसायिक अनुप्रयोगों को प्राथमिकता देता है, जिसके परिणामस्वरूप उन उपकरणों और संसाधनों तक सीमित पहुंच होती है जो अकादमिक और अनुसंधान समुदायों के लिए आवश्यक हैं।
खुले तौर पर साझा किए गए कोड और मॉडल वेट की कमी डीपफेक का पता लगाने के तरीकों की व्यापक प्रगति में एक महत्वपूर्ण बाधा रही है।
डीपफेक का पता लगाने के लिए कई दृष्टिकोण हैं, और प्रत्येक सम्मेलन के साथ, नए लेख सामने आते हैं।
इनमें से कुछ लेख मुख्य रूप से डीपफेक का पता लगाने के लिए मॉडल आर्किटेक्चर पर ध्यान केंद्रित करते हैं, ट्रांसफार्मर मॉडल से काफी प्रेरणा लेते हैं और इसे चुनौती के अनुकूल बनाने का प्रयास करते हैं।
इस बीच, अन्य लेख प्रशिक्षण विधियों पर ध्यान केंद्रित करते हैं, विशेष रूप से नकली छवियों से भरे सिंथेटिक डेटासेट पर। यह क्षेत्र बेंचमार्क से समृद्ध है, और निम्नलिखित अनुभाग में, हम उनमें से कुछ सबसे शक्तिशाली पर चर्चा करेंगे, जिसमें ओपन-सोर्स कोड और उपलब्ध वेट पर जोर दिया जाएगा।
सभी आधुनिक डीपफेक पहचान विधियों के लिए सबसे प्रमुख आधार रेखा पेपर में प्रकाशित शोध है
उन्होंने इन भेदों को मान्य करने के लिए मानव पर्यवेक्षकों का उपयोग किया। पेपर में डीपफेक वर्गीकरण मॉडल एक बाइनरी सिस्टम है जो इमेजनेट वेट के साथ XceptionNet बैकबोन पर आधारित है, जो उनके डेटासेट पर ठीक-ठाक है।
मॉडल प्रतिक्रियाओं के आधार पर एक सरल मतदान तंत्र को नियोजित करके, लेखकों ने मॉडल की वास्तुशिल्प सादगी के बावजूद डीपफेक का पता लगाने के क्षेत्र में महत्वपूर्ण प्रभाव हासिल किया।
लेखक पिछले डीपफेक डिटेक्शन मॉडल में एक आम समस्या पर प्रकाश डालते हैं जो मुख्य रूप से एक सरल बाइनरी क्लासिफायरियर दृष्टिकोण पर उनकी निर्भरता की विशेषता है।
बुनियादी बाइनरी क्लासिफायर दृष्टिकोण जो वास्तविक और नकली छवियों के बीच सूक्ष्म अंतर को ध्यान में नहीं रखता है। यहां लेखक अलग-अलग कलाकृतियों वाले क्षेत्रों पर ध्यान केंद्रित करने के लिए कई ध्यान देने वाले प्रमुखों के साथ एक बहु-ध्यान नेटवर्क का उपयोग करते हुए बारीक वर्गीकरण से प्रेरित एक विकल्प का प्रस्ताव करते हैं।
यह नेटवर्क छवि प्रतिनिधित्व और प्रशिक्षण के लिए एक विशिष्ट ध्यान-निर्देशित डेटा वृद्धि तंत्र बनाने के लिए निम्न-स्तरीय बनावट सुविधाओं और उच्च-स्तरीय अर्थ संबंधी विशेषताओं को जोड़ता है।
यह दृष्टिकोण मौजूदा मॉडलों की सीमाओं को संबोधित करता है, जिससे यह डीपफेक का पता लगाने के लिए एक आशाजनक तरीका बन जाता है।
"एम2टीआर" के लेखक:
वे मल्टी-स्केल संरचना के साथ एक मल्टी-मोडल दृष्टिकोण पेश करते हैं, जो उन कलाकृतियों का पता लगाने के लिए एक आवृत्ति फ़िल्टर का उपयोग करते हैं जो संपीड़न के बाद दिखाई नहीं दे सकती हैं।
वे आरजीबी और फ़्रीक्वेंसी सुविधाओं को एक एकीकृत प्रतिनिधित्व में मर्ज करने के लिए आत्म-ध्यान से प्रेरित एक क्रॉस-मोडेलिटी फ़्यूज़न ब्लॉक का उपयोग करते हैं, जिससे उनकी डीपफेक पहचान पद्धति में वृद्धि होती है।
में "
वे दो घटकों पर आधारित एक दृष्टिकोण प्रस्तावित करते हैं: पुनर्निर्माण सीखना और वर्गीकरण सीखना:
वर्गीकरण शिक्षण वास्तविक और नकली छवियों के बीच असमानताओं की पहचान करता है।
लेखक इन अभ्यावेदन को बेहतर बनाने के लिए एक बहु-स्तरीय दृष्टिकोण अपनाते हैं, वास्तविक चेहरों को मॉडल करने के लिए एक समर्पित पुनर्निर्माण नेटवर्क का उपयोग करते हैं और पहले से अज्ञात जालसाजी पैटर्न का पता लगाने के लिए मीट्रिक-लर्निंग हानि का उपयोग करते हैं।
काम में, "
ये मॉडल वास्तविक आईडी के वितरण को याद रखते हैं, जिसका अर्थ है कि एक नकली छवि कभी-कभी दो अलग-अलग आईडी के मिश्रण के रूप में दिखाई दे सकती है। हालाँकि, यह समस्या विशेष रूप से चुनौतीपूर्ण हो जाती है जब इन मॉडलों को नए, अनदेखे या क्रॉस डेटासेट पर लागू करने का प्रयास किया जाता है। इन मामलों में, मॉडल को छवि की वास्तविक पहचान को समझने के लिए संघर्ष करना पड़ता है क्योंकि उसने पहले इसका सामना नहीं किया है।
इस मुद्दे को संबोधित करने के लिए, जिसे लेखक "अंतर्निहित पहचान रिसाव" के रूप में संदर्भित करते हैं, वे ऐसे समाधान खोजने का प्रयास करते हैं जो उनके प्रशिक्षण डेटासेट की सीमाओं से परे डीपफेक डिटेक्शन मॉडल के सामान्यीकरण में सुधार करते हैं।
इस घटना का प्रमाण प्रदान करने के लिए, लेखकों ने शुरू में पूर्व-प्रशिक्षित डीपफेक क्लासिफायर लिया और अंतिम परत को छोड़कर सभी परतों को फ्रीज कर दिया। उन्होंने अंतिम परत को एक रैखिक परत से बदल दिया और आईडी वर्गीकरण कार्य के लिए इसे ठीक किया।
इस प्रयोग से पता चला कि पहचान रिसाव की संभावना को प्रदर्शित करते हुए, उच्च सटीकता के साथ आईडी को वर्गीकृत करने के लिए एक एकल रैखिक परत को प्रभावी ढंग से प्रशिक्षित किया जा सकता है। फिर लेखकों ने अलग-अलग पैमाने पर चेहरे के हिस्सों की अदला-बदली के लिए एक नई विधि बनाई, जिसमें चेहरे के विशिष्ट क्षेत्रों की अदला-बदली पर प्राथमिक ध्यान दिया गया।
फिर उन्होंने इस प्रक्रिया से उत्पन्न छवियों का उपयोग करके एक बहु-स्तरीय पहचान मॉडल को प्रशिक्षित किया। यह मॉडल आर्टिफैक्ट क्षेत्रों के अस्तित्व का पता लगाने के लिए विभिन्न परतों में विभिन्न आकारों के फीचर मानचित्रों की जांच करता है, जिससे डीपफेक हेरफेर के संभावित संकेतों का गहन अवलोकन होता है।
डीपफेक पहचान के क्षेत्र में नवीनतम उल्लेखनीय पेपर है "
इस डेटासेट में छद्म स्रोत और व्यक्तिगत प्राचीन छवियों से प्राप्त लक्ष्य छवियों के मिश्रण से उत्पन्न छवियां शामिल हैं। यह प्रक्रिया डीपफेक में अक्सर सामने आने वाली सामान्य जालसाजी कलाकृतियों को प्रभावी ढंग से दोहराती है।
इस दृष्टिकोण के पीछे मुख्य अंतर्दृष्टि यह है कि अधिक सामान्य और कम आसानी से पहचाने जाने योग्य नकली नमूनों का उपयोग करके, क्लासिफायर हेरफेर-विशिष्ट कलाकृतियों के लिए ओवरफिटिंग के बिना अधिक सामान्य और मजबूत प्रतिनिधित्व सीख सकते हैं।
लेखक सामान्य डीपफेक कलाकृतियों के चार प्राथमिक प्रकारों की पहचान करते हैं: ऐतिहासिक बेमेल, सम्मिश्रण सीमा, रंग बेमेल, और आवृत्ति असंगति। फिर वे एक विशेष मॉडल का उपयोग करके इन कलाकृतियों को संश्लेषित करते हैं।
मॉडल आर्किटेक्चर के लिए, लेखकों ने इमेजनेट डेटासेट पर पूर्व-प्रशिक्षित EfficientNet-b4 लिया। वे इस मॉडल को अपने सेल्फ-ब्लेंडेड इमेजेज (एसबीआई) डेटासेट पर फाइन-ट्यून करते हैं, जिससे यह सुनिश्चित होता है कि मॉडल सामान्य जालसाजी कलाकृतियों के साथ इन मिश्रित छवियों से सीखकर डीपफेक का पता लगाने में माहिर हो जाता है।
हमने आधुनिक अत्याधुनिक डीपफेक डिटेक्टरों के प्रदर्शन का विश्लेषण किया है जो 2020 के बाद प्रकाशित हुए थे और उनके कोड और मॉडल वजन सार्वजनिक और अनुसंधान उपयोग के लिए उपलब्ध हैं।
हमने यह देखने के लिए समान सार्वजनिक डेटासेट पर प्रत्येक मॉडल के लिए प्रासंगिक मीट्रिक की गणना की है कि लेखकों द्वारा बताए गए गुणों को समान डेटासेट में कैसे स्थानांतरित किया जाता है। फिर हमने सरल परिवर्तन लागू किए जो अक्सर धोखेबाजों द्वारा सत्यापन को बायपास करने के लिए उपयोग किए जाते हैं (जैसे फेस स्वैप) और देखा कि डीपफेक डिटेक्टर कितनी कुशलता से काम करते हैं।
हमने इस्तेमाल किया
ज़मीनी सच्चाई से जुड़ी नकली छवियाँ डेटासेट पेश करने के लिए, हमने अत्याधुनिक तकनीक का उपयोग किया
पर्याप्त मात्रा में छवियां उत्पन्न करने के लिए, हमने फेक-सेलेबा-एचक्यू और फेक-एलएफडब्ल्यू बनाने के लिए डेटासेट से स्रोत और संदर्भ फ़ोटो के यादृच्छिक जोड़े का उपयोग किया। प्रत्येक डेटासेट ठीक 10,000 छवियों का है।
सरलता के लिए, मॉडलों की गुणवत्ता को मापने के लिए मुख्य मीट्रिक हमने 0.5 की डिफ़ॉल्ट सीमा के साथ 1-वर्ग सटीकता का उपयोग किया। दूसरे शब्दों में, प्रत्येक डेटासेट के लिए, हमने सही अनुमान लगाए गए लेबल के प्रतिशत की गणना की। इसके अतिरिक्त, हम संयुक्त वास्तविक और नकली डेटासेट पर कुल आरओसी-एयूसी मीट्रिक की गणना करते हैं।
एलएफडब्ल्यू | सेलेबामुख्यालय | नकली-LFW | नकली-सेलेबाHQ | एयूसी स्कोर | |
---|---|---|---|---|---|
स्टेट बैंक ऑफ इंडिया | 0.82 | 0.57 | 0.82 | 0.96 | 0.84 |
सीएडीडीएम | 0.49 | 0.69 | 0.80 | 0.54 | 0.67 |
टोह | 0.01 | 0.00 | 0.98 | 0.00 | 0.54 |
चटाई | 0.00 | 0.74 | 1. | 1. | 0.75 |
एफएफ++ | 0.13 | 0.67 | 0.88 | 0.53 | 0.57 |
एम2टीआर | 0.42 | 0.56 | 0.69 | 0.51 | 0.56 |
तालिका 1. बिना किसी बदलाव के वास्तविक/नकली डेटासेट के लिए 1-वर्ग सटीकता और एयूसी
जैसा कि अपेक्षित था, अधिकांश मॉडलों में सिमस्वैप डीपफेक का पता लगाने में कुछ समस्याएं थीं। सबसे अच्छा मॉडल एसबीआई है, जिसने 82% और 96% स्कोर किया है, जो आशाजनक 0.84 एयूसी स्कोर दर्शाता है।
जो अप्रत्याशित है वह यह है कि ऐसे कई सक्षम मॉडल हैं जिन्हें वास्तविक डेटासेट से छवियों को वास्तविक के रूप में वर्गीकृत करने में कठिनाइयाँ थीं:
MAT, FF और M2TR ने LFW के आधे से भी कम चेहरों को डीपफेक के रूप में स्कोर किया।
ऐसे 3 मॉडल हैं जिनका AUC स्कोर 0.5 के करीब है। इससे इन मॉडलों को अधिक यथार्थवादी डोमेन में स्थानांतरित करने की क्षमता पर सवाल उठता है और धोखेबाजों द्वारा इन्हें आसानी से कैसे बायपास किया जा सकता है।
यह जांचने के लिए कि ये मॉडल अधिक यथार्थवादी डोमेन पर कैसे व्यवहार करते हैं, हम दो अलग-अलग तकनीकों का प्रयास करेंगे जिनका धोखेबाज आमतौर पर डीपफेक का उपयोग करते समय उपयोग करते हैं।
अधिकांश कलाकृतियों और अनियमितताओं को छिपाने के लिए वे जो पहला काम करते हैं, वह है स्केलिंग को कम करना। चूंकि, अधिकांश जीवंतता और डीपफेक जांचों में वीडियो की गुणवत्ता पर कोई आवश्यकता नहीं होती है, धोखेबाज आमतौर पर डीपफेक वीडियो को संपीड़ित करते हैं।
इस दृष्टिकोण को अनुकरण करने के लिए, हम समान डेटासेट का उपयोग करेंगे, लेकिन एक बिलिनियर एल्गोरिदम का उपयोग करके प्रत्येक छवि को बहुत छोटे रिज़ॉल्यूशन (128x128) में संपीड़ित करेंगे। आदर्श रूप से, डीपफेक डिटेक्टरों को डीपफेक का पता लगाने में सक्षम होना चाहिए, भले ही अनुमान पर छवियों का रिज़ॉल्यूशन प्रशिक्षण प्रक्रिया के दौरान रिज़ॉल्यूशन से भिन्न हो।
एलएफडब्ल्यू | सेलेबामुख्यालय | नकली-LFW | नकली-सेलेबाHQ | एयूसी स्कोर | |
---|---|---|---|---|---|
स्टेट बैंक ऑफ इंडिया | 0.82 | 0.82 | 0.43 | 0.23 | 0.6 |
सीएडीडीएम | 0.55 | 0.46 | 0.62 | 0.65 | 0.6 |
टोह | 0.83 | 0.89 | 0.13 | 0.08 | 0.54 |
एमएटी सी40 | 1. | 1. | 0. | 0. | 0.5 |
चित्र 2: निम्न-गुणवत्ता वाले डेटासेट पर डीपफेक डिटेक्टरों के सर्वोत्तम मेट्रिक्स
यहां, परिणाम भ्रामक से भी अधिक हैं। जो मॉडल कमोबेश प्रतिस्पर्धी प्रदर्शन हासिल कर रहे थे, अब नकली डेटासेट पर लगभग शून्य सटीकता है। कोई यह देख सकता है कि MAT मॉडल ने हर चीज़ को वास्तविक छवि के रूप में स्कोर किया है, और RECCE मॉडल उसी निर्णय के बहुत करीब है।
धोखाधड़ी का दूसरा अभ्यास उन सभी खामियों को दूर करने के लिए डीपफेक छवियों को सुधारने के लिए छवि को उन्नत करना है जो डिटेक्टरों को गढ़ी गई छवियों को "छोड़" सकती हैं। ऐसे कई उदाहरणों में से एक आंखें हैं: अधिकांश डीपफेक छवियों पर कोई गोल पुतलियाँ या प्रकाश अपवर्तन नहीं होते हैं।
इसलिए, एक जालसाज़ आमतौर पर सभी अशुद्धियों को छुपाने के लिए इंस्टाग्राम या टिकटॉक में उपयोग किए जाने वाले कुछ विशिष्ट सौंदर्यीकरण या "एन्हांसमेंट" सॉफ़्टवेयर का उपयोग करता है।
ऐसे सॉफ़्टवेयर के प्रभावों का अनुकरण करने के लिए, हमने इसके निकट से संबंधित सॉफ़्टवेयर का उपयोग किया
एलएफडब्ल्यू | सेलेबामुख्यालय | नकली-LFW | नकली-सेलेबाHQ | एयूसी स्कोर | |
---|---|---|---|---|---|
स्टेट बैंक ऑफ इंडिया | 0.76 | 0.63 | 0.38 | 0.58 | 0.62 |
सीएडीडीएम | 0.52 | 0.71 | 0.59 | 0.38 | 0.57 |
टोह | 0.18 | 0. | 0.8 | 1. | 0.52 |
एमएटी सी40 | 0.99 | 1. | 0. | 0. | 0.5 |
चित्र 3: उन्नत डेटासेट पर डीपफेक डिटेक्टरों के सर्वोत्तम मेट्रिक्स
यहां, कोई भी प्रयोग 2 जैसा ही रुझान देख सकता है। MAT मॉडल ने हर चीज़ को असली बताया और RECCE ने हर चीज़ को नकली बताया। एसबीआई और सीएडीडीएम का प्रदर्शन रैंडम से बेहतर है, लेकिन वे फेक-एलएफडब्ल्यू और फेक-सेलेबा-एचक्यू डेटासेट में आधे से अधिक डीपफेक से चूक गए।
इस शोध का नतीजा निराशाजनक है क्योंकि कोई ओपन-सोर्स डीपफेक डिटेक्टर नहीं है जो 100% सुरक्षित हो, जबकि डीपफेक धोखाधड़ी के और विकसित होने की उम्मीद है, क्योंकि इसकी पीढ़ी आसान और सस्ती होती जा रही है। समसब के आंतरिक आँकड़ों के अनुसार, डीपफेक धोखाधड़ी का प्रचलन 2022 से Q1 2023 तक काफी बढ़ गया:
हमारे प्रयोगों से पता चलता है कि डीपफेक का पता लगाने के बारे में अभी भी बहुत कुछ किया जाना बाकी है। यहां तक कि सबसे अच्छे ओपन-सोर्स डीपफेक डिटेक्शन मॉडल भी वास्तविक दुनिया के लिए तैयार नहीं हैं और धोखेबाजों का मुकाबला नहीं कर सकते हैं।
डीपफेक डिटेक्टरों के बारे में बड़ी संख्या में पेपर हैं, लेकिन उनमें से अधिकांश में कोड या मॉडल वेट उपलब्ध नहीं हैं।
इस वजह से, यहां एक मुद्दा खुलेपन की कमी है जो डीपफेक का पता लगाने के तरीकों में सुधार में बाधा पैदा करता है।
इसलिए, हम Sumsub में:
फिर भी, इंटरनेट उपयोगकर्ताओं की छवियों की ऑनलाइन सुरक्षा की मुख्य ज़िम्मेदारी स्वयं उपयोगकर्ताओं पर है। व्यक्तिगत फ़ोटो ऑनलाइन साझा करते समय सावधान रहना याद रखें। बेहतर होगा कि इसके बजाय स्टाइलिश अवतारों का उपयोग करें, जैसा कि हमारे लेखकों ने किया।
और
समसुब में लीड कंप्यूटर विज़न इंजीनियर मैक्सिम आर्टेमेव और कंप्यूटर विज़न इंजीनियर स्लावा पिरोगोव द्वारा लिखित