paint-brush
P-HAR: पोर्नोग्राफिक ह्यूमन एक्शन रिकॉग्निशनद्वारा@civilizedsoftware
1,117 रीडिंग
1,117 रीडिंग

P-HAR: पोर्नोग्राफिक ह्यूमन एक्शन रिकॉग्निशन

द्वारा Civilized Software4m2023/04/17
Read on Terminal Reader

बहुत लंबा; पढ़ने के लिए

गहन शिक्षण समुदाय के भीतर मानव क्रिया मान्यता अनुसंधान के एक सक्रिय क्षेत्र के रूप में उभरी है। प्राथमिक उद्देश्य में वीडियो और ऑडियो डेटा जैसे कई इनपुट स्ट्रीम का उपयोग करके वीडियो में मानवीय क्रियाओं की पहचान करना और उन्हें वर्गीकृत करना शामिल है। प्रदर्शन के मामले में सबसे प्रभावी मॉडल में आरजीबी स्ट्रीम के लिए ट्रांसफार्मर-आधारित आर्किटेक्चर, कंकाल स्ट्रीम के लिए PoseC3D और ऑडियो स्ट्रीम के लिए ResNet101 शामिल हैं।
featured image - P-HAR: पोर्नोग्राफिक ह्यूमन एक्शन रिकॉग्निशन
Civilized Software HackerNoon profile picture


गहन शिक्षण समुदाय के भीतर मानव क्रिया मान्यता अनुसंधान के एक सक्रिय क्षेत्र के रूप में उभरी है। प्राथमिक उद्देश्य में वीडियो और ऑडियो डेटा जैसे कई इनपुट स्ट्रीम का उपयोग करके वीडियो में मानव क्रियाओं की पहचान करना और उन्हें वर्गीकृत करना शामिल है।


इस तकनीक का एक विशेष अनुप्रयोग पोर्नोग्राफी डोमेन में निहित है, जो अद्वितीय तकनीकी चुनौतियों का सामना करता है जो मानव क्रिया पहचान की प्रक्रिया को जटिल बनाता है। प्रकाश विविधताएं, रोड़ा, और कैमरा कोणों और फिल्मांकन तकनीकों में पर्याप्त अंतर जैसे कारक कार्रवाई की पहचान को कठिन बनाते हैं।


यहां तक कि जब दो क्रियाएं समान होती हैं, तो विविध कैमरा दृष्टिकोण मॉडल की भविष्यवाणियों में भ्रम पैदा कर सकते हैं। पोर्नोग्राफी डोमेन में इन चुनौतियों का समाधान करने के लिए, हमने गहन शिक्षण तकनीकों को नियोजित किया है जो आरजीबी, स्केलेटन (पोज़) और ऑडियो डेटा सहित विभिन्न इनपुट स्ट्रीम से सीखते हैं। प्रदर्शन और रनटाइम के मामले में सबसे प्रभावी मॉडल में आरजीबी स्ट्रीम के लिए ट्रांसफार्मर-आधारित आर्किटेक्चर, कंकाल स्ट्रीम के लिए PoseC3D और ऑडियो स्ट्रीम के लिए ResNet101 शामिल हैं।


इन मॉडलों के आउटपुट को देर से संलयन का उपयोग करके जोड़ा जाता है, जिसमें अंतिम स्कोरिंग योजना में प्रत्येक मॉडल का महत्व भिन्न होता है। एक वैकल्पिक रणनीति में एक मॉडल को दो इनपुट स्ट्रीम के साथ एक साथ प्रशिक्षण देना शामिल हो सकता है, जैसे आरजीबी + कंकाल या आरजीबी + ऑडियो, और बाद में उनके परिणामों को मर्ज करना। हालाँकि, यह दृष्टिकोण डेटा के अंतर्निहित गुणों के कारण अनुपयुक्त है।


ऑडियो इनपुट स्ट्रीम केवल विशिष्ट क्रियाओं के लिए उपयोगी होती हैं, जबकि अन्य क्रियाओं में विशिष्ट ऑडियो विशेषताओं का अभाव होता है। इसी तरह, कंकाल-आधारित मॉडल केवल तभी लागू होता है जब मुद्रा अनुमान एक निश्चित आत्मविश्वास सीमा से अधिक हो जाता है, जो कुछ कार्यों के लिए चुनौतीपूर्ण होता है।


लेट फ्यूजन तकनीक का उपयोग करके, जिसका विवरण बाद के खंडों में दिया गया है, हम 20 अलग-अलग श्रेणियों के बीच शीर्ष दो भविष्यवाणियों के लिए प्रभावशाली 90% सटीकता दर प्राप्त करते हैं। इन श्रेणियों में यौन क्रियाओं और पदों की एक विविध श्रेणी शामिल है।

मॉडल

आरजीबी इनपुट स्ट्रीम

मॉडल के लिए प्राथमिक और सबसे विश्वसनीय इनपुट स्ट्रीम आरजीबी फ्रेम है। इस संदर्भ में दो सबसे शक्तिशाली आर्किटेक्चर हैं 3डी कनवॉल्यूशनल न्यूरल नेटवर्क्स (3डी सीएनएन) और ध्यान-आधारित मॉडल। ध्यान आधारित मॉडल, विशेष रूप से ट्रांसफॉर्मर आर्किटेक्चर का उपयोग करने वाले, वर्तमान में क्षेत्र में अत्याधुनिक माने जाते हैं। नतीजतन, हम इष्टतम प्रदर्शन प्राप्त करने के लिए एक ट्रांसफॉर्मर-आधारित आर्किटेक्चर को नियोजित करते हैं। इसके अतिरिक्त, मॉडल 7 सेकंड के वीडियो क्लिप को संसाधित करने के लिए लगभग 0.53 सेकंड की आवश्यकता के लिए तेजी से अनुमान क्षमता प्रदर्शित करता है।

कंकाल इनपुट स्ट्रीम

प्रारंभ में, मानव कंकाल को मानव पहचान और 2डी पोज़ अनुमान मॉडल का उपयोग करके निकाला जाता है। निकाली गई कंकाल की जानकारी को बाद में PoseC3D, एक 3D कनवॉल्यूशनल न्यूरल नेटवर्क (3D CNN) में फीड किया जाता है, जिसे विशेष रूप से कंकाल-आधारित मानव क्रिया पहचान के लिए डिज़ाइन किया गया है। इस मॉडल को क्षेत्र में अत्याधुनिक भी माना जाता है। इसके प्रदर्शन के अलावा, PoseC3D मॉडल कुशल निष्कर्ष क्षमताओं को प्रदर्शित करता है, जिसमें 7-सेकंड वीडियो क्लिप को संसाधित करने के लिए लगभग 3 सेकंड की आवश्यकता होती है।


कई कार्रवाइयों में सामना किए गए चुनौतीपूर्ण दृष्टिकोणों के कारण (उदाहरण के लिए विश्वसनीय पोज़ निकालना संभव नहीं है जो किसी मॉडल को ज़्यादातर समय फिंगरिंग एक्शन की पहचान करने में मदद करेगा), कंकाल-आधारित मानव क्रिया पहचान को चुनिंदा रूप से नियोजित किया जाता है, विशेष रूप से क्रियाओं के एक सबसेट के लिए, जिसमें सेक्स पोजीशन भी शामिल है

ऑडियो इनपुट स्ट्रीम

ऑडियो इनपुट स्ट्रीम के लिए, ऑडियोविज़ुअल स्लोफ़ास्ट मॉडल से प्राप्त एक रेसनेट-आधारित आर्किटेक्चर कार्यरत है। यह दृष्टिकोण कंकाल-आधारित पद्धति की तुलना में कार्यों के एक छोटे समूह पर लागू होता है, मुख्य रूप से इस विशिष्ट डोमेन के भीतर विश्वसनीय रूप से पहचान करने के लिए एक ऑडियो परिप्रेक्ष्य से उपलब्ध सीमित जानकारी के कारण।

डेटासेट

इकट्ठे किए गए डेटासेट व्यापक और विषम हैं, जिसमें रिकॉर्डिंग प्रकारों की एक विस्तृत श्रृंखला शामिल है, जिसमें पॉइंट-ऑफ-व्यू (पीओवी), पेशेवर, शौकिया, एक समर्पित कैमरा ऑपरेटर के साथ या उसके बिना, और अलग-अलग पृष्ठभूमि के वातावरण, व्यक्ति और कैमरा दृष्टिकोण शामिल हैं। डेटासेट में 20 अलग-अलग श्रेणियों में फैले लगभग 100 घंटे का प्रशिक्षण डेटा शामिल है। हालाँकि, डेटासेट में कुछ श्रेणी के असंतुलन देखे गए थे। डेटासेट के भविष्य के पुनरावृत्तियों के लिए इन असंतुलनों को दूर करने के प्रयासों पर विचार किया जा रहा है।


वास्तुकला

वास्तुकला



ऊपर दिया गया उदाहरण हमारे सिस्टम में उपयोग की जाने वाली AI पाइपलाइन का अवलोकन प्रदान करता है।

प्रारंभ में, वीडियो के गैर-NSFW सेगमेंट की पहचान करने के लिए एक हल्का NSFW डिटेक्शन मॉडल कार्यरत है, जिससे हम उन सेक्शन के लिए शेष पाइपलाइन को बायपास कर सकते हैं। यह दृष्टिकोण न केवल समग्र वीडियो अनुमान समय को तेज करता है बल्कि झूठी सकारात्मकता को भी कम करता है। अप्रासंगिक फ़ुटेज, जैसे घर या कार पर क्रिया पहचान मॉडल चलाना अनावश्यक है क्योंकि उन्हें ऐसी सामग्री को पहचानने के लिए डिज़ाइन नहीं किया गया है।


इस प्रारंभिक चरण के बाद, हम एक तीव्र आरजीबी-आधारित क्रिया पहचान मॉडल को परिनियोजित करते हैं। इस मॉडल के शीर्ष दो परिणामों के आधार पर, हम निर्धारित करते हैं कि आरजीबी-आधारित स्थिति पहचान मॉडल, ऑडियो-आधारित क्रिया पहचान मॉडल, या कंकाल-आधारित क्रिया पहचान मॉडल निष्पादित करना है या नहीं। यदि आरजीबी-एक्शन रिकग्निशन मॉडल से शीर्ष दो भविष्यवाणियों में से एक स्थिति श्रेणी से मेल खाती है, तो हम आरजीबी-पोजिशन रिकग्निशन मॉडल के साथ विशिष्ट स्थिति की सटीक पहचान करने के लिए आगे बढ़ते हैं।


इसके बाद, हम मानव कंकाल को निकालने के लिए बाउंडिंग बॉक्स और 2डी पोज़ मॉडल का उपयोग करते हैं, जो तब कंकाल-आधारित स्थिति पहचान मॉडल में इनपुट होता है। आरजीबी-स्थिति मान्यता मॉडल और कंकाल-स्थिति पहचान मॉडल के परिणाम देर से संलयन के माध्यम से एकीकृत होते हैं।


यदि शीर्ष दो लेबल में ऑडियो समूह का पता लगाया जाता है, तो ऑडियो-आधारित क्रिया पहचान मॉडल निष्पादित किया जाता है। इसके परिणाम देर से फ्यूजन के माध्यम से आरजीबी-एक्शन रिकग्निशन मॉडल के साथ संयुक्त होते हैं।


अंत में, हम एक या दो अंतिम भविष्यवाणियों को उत्पन्न करते हुए, क्रिया और स्थिति मॉडल के परिणामों का विश्लेषण करते हैं। इस तरह की भविष्यवाणियों के उदाहरणों में एकल क्रियाएं (जैसे, मिस्सी *** ry), स्थिति और क्रिया संयोजन (जैसे, काउगर्ल और किसिंग या डॉगी और An*l), या दोहरी क्रियाएं (जैसे, Cunn***ngus & Fing**) शामिल हैं। * एनजी)।


अधिक जानकारी के लिए आप हमारे P-HAR API दस्तावेज़ पढ़ सकते हैं