गहन शिक्षण समुदाय के भीतर मानव क्रिया मान्यता अनुसंधान के एक सक्रिय क्षेत्र के रूप में उभरी है। प्राथमिक उद्देश्य में वीडियो और ऑडियो डेटा जैसे कई इनपुट स्ट्रीम का उपयोग करके वीडियो में मानव क्रियाओं की पहचान करना और उन्हें वर्गीकृत करना शामिल है।
इस तकनीक का एक विशेष अनुप्रयोग पोर्नोग्राफी डोमेन में निहित है, जो अद्वितीय तकनीकी चुनौतियों का सामना करता है जो मानव क्रिया पहचान की प्रक्रिया को जटिल बनाता है। प्रकाश विविधताएं, रोड़ा, और कैमरा कोणों और फिल्मांकन तकनीकों में पर्याप्त अंतर जैसे कारक कार्रवाई की पहचान को कठिन बनाते हैं।
यहां तक कि जब दो क्रियाएं समान होती हैं, तो विविध कैमरा दृष्टिकोण मॉडल की भविष्यवाणियों में भ्रम पैदा कर सकते हैं। पोर्नोग्राफी डोमेन में इन चुनौतियों का समाधान करने के लिए, हमने गहन शिक्षण तकनीकों को नियोजित किया है जो आरजीबी, स्केलेटन (पोज़) और ऑडियो डेटा सहित विभिन्न इनपुट स्ट्रीम से सीखते हैं। प्रदर्शन और रनटाइम के मामले में सबसे प्रभावी मॉडल में आरजीबी स्ट्रीम के लिए ट्रांसफार्मर-आधारित आर्किटेक्चर, कंकाल स्ट्रीम के लिए PoseC3D और ऑडियो स्ट्रीम के लिए ResNet101 शामिल हैं।
इन मॉडलों के आउटपुट को देर से संलयन का उपयोग करके जोड़ा जाता है, जिसमें अंतिम स्कोरिंग योजना में प्रत्येक मॉडल का महत्व भिन्न होता है। एक वैकल्पिक रणनीति में एक मॉडल को दो इनपुट स्ट्रीम के साथ एक साथ प्रशिक्षण देना शामिल हो सकता है, जैसे आरजीबी + कंकाल या आरजीबी + ऑडियो, और बाद में उनके परिणामों को मर्ज करना। हालाँकि, यह दृष्टिकोण डेटा के अंतर्निहित गुणों के कारण अनुपयुक्त है।
ऑडियो इनपुट स्ट्रीम केवल विशिष्ट क्रियाओं के लिए उपयोगी होती हैं, जबकि अन्य क्रियाओं में विशिष्ट ऑडियो विशेषताओं का अभाव होता है। इसी तरह, कंकाल-आधारित मॉडल केवल तभी लागू होता है जब मुद्रा अनुमान एक निश्चित आत्मविश्वास सीमा से अधिक हो जाता है, जो कुछ कार्यों के लिए चुनौतीपूर्ण होता है।
लेट फ्यूजन तकनीक का उपयोग करके, जिसका विवरण बाद के खंडों में दिया गया है, हम 20 अलग-अलग श्रेणियों के बीच शीर्ष दो भविष्यवाणियों के लिए प्रभावशाली 90% सटीकता दर प्राप्त करते हैं। इन श्रेणियों में यौन क्रियाओं और पदों की एक विविध श्रेणी शामिल है।
मॉडल के लिए प्राथमिक और सबसे विश्वसनीय इनपुट स्ट्रीम आरजीबी फ्रेम है। इस संदर्भ में दो सबसे शक्तिशाली आर्किटेक्चर हैं 3डी कनवॉल्यूशनल न्यूरल नेटवर्क्स (3डी सीएनएन) और ध्यान-आधारित मॉडल। ध्यान आधारित मॉडल, विशेष रूप से ट्रांसफॉर्मर आर्किटेक्चर का उपयोग करने वाले, वर्तमान में क्षेत्र में अत्याधुनिक माने जाते हैं। नतीजतन, हम इष्टतम प्रदर्शन प्राप्त करने के लिए एक ट्रांसफॉर्मर-आधारित आर्किटेक्चर को नियोजित करते हैं। इसके अतिरिक्त, मॉडल 7 सेकंड के वीडियो क्लिप को संसाधित करने के लिए लगभग 0.53 सेकंड की आवश्यकता के लिए तेजी से अनुमान क्षमता प्रदर्शित करता है।
प्रारंभ में, मानव कंकाल को मानव पहचान और 2डी पोज़ अनुमान मॉडल का उपयोग करके निकाला जाता है। निकाली गई कंकाल की जानकारी को बाद में PoseC3D, एक 3D कनवॉल्यूशनल न्यूरल नेटवर्क (3D CNN) में फीड किया जाता है, जिसे विशेष रूप से कंकाल-आधारित मानव क्रिया पहचान के लिए डिज़ाइन किया गया है। इस मॉडल को क्षेत्र में अत्याधुनिक भी माना जाता है। इसके प्रदर्शन के अलावा, PoseC3D मॉडल कुशल निष्कर्ष क्षमताओं को प्रदर्शित करता है, जिसमें 7-सेकंड वीडियो क्लिप को संसाधित करने के लिए लगभग 3 सेकंड की आवश्यकता होती है।
कई कार्रवाइयों में सामना किए गए चुनौतीपूर्ण दृष्टिकोणों के कारण (उदाहरण के लिए विश्वसनीय पोज़ निकालना संभव नहीं है जो किसी मॉडल को ज़्यादातर समय फिंगरिंग एक्शन की पहचान करने में मदद करेगा), कंकाल-आधारित मानव क्रिया पहचान को चुनिंदा रूप से नियोजित किया जाता है, विशेष रूप से क्रियाओं के एक सबसेट के लिए, जिसमें सेक्स पोजीशन भी शामिल है
ऑडियो इनपुट स्ट्रीम के लिए, ऑडियोविज़ुअल स्लोफ़ास्ट मॉडल से प्राप्त एक रेसनेट-आधारित आर्किटेक्चर कार्यरत है। यह दृष्टिकोण कंकाल-आधारित पद्धति की तुलना में कार्यों के एक छोटे समूह पर लागू होता है, मुख्य रूप से इस विशिष्ट डोमेन के भीतर विश्वसनीय रूप से पहचान करने के लिए एक ऑडियो परिप्रेक्ष्य से उपलब्ध सीमित जानकारी के कारण।
इकट्ठे किए गए डेटासेट व्यापक और विषम हैं, जिसमें रिकॉर्डिंग प्रकारों की एक विस्तृत श्रृंखला शामिल है, जिसमें पॉइंट-ऑफ-व्यू (पीओवी), पेशेवर, शौकिया, एक समर्पित कैमरा ऑपरेटर के साथ या उसके बिना, और अलग-अलग पृष्ठभूमि के वातावरण, व्यक्ति और कैमरा दृष्टिकोण शामिल हैं। डेटासेट में 20 अलग-अलग श्रेणियों में फैले लगभग 100 घंटे का प्रशिक्षण डेटा शामिल है। हालाँकि, डेटासेट में कुछ श्रेणी के असंतुलन देखे गए थे। डेटासेट के भविष्य के पुनरावृत्तियों के लिए इन असंतुलनों को दूर करने के प्रयासों पर विचार किया जा रहा है।
ऊपर दिया गया उदाहरण हमारे सिस्टम में उपयोग की जाने वाली AI पाइपलाइन का अवलोकन प्रदान करता है।
प्रारंभ में, वीडियो के गैर-NSFW सेगमेंट की पहचान करने के लिए एक हल्का NSFW डिटेक्शन मॉडल कार्यरत है, जिससे हम उन सेक्शन के लिए शेष पाइपलाइन को बायपास कर सकते हैं। यह दृष्टिकोण न केवल समग्र वीडियो अनुमान समय को तेज करता है बल्कि झूठी सकारात्मकता को भी कम करता है। अप्रासंगिक फ़ुटेज, जैसे घर या कार पर क्रिया पहचान मॉडल चलाना अनावश्यक है क्योंकि उन्हें ऐसी सामग्री को पहचानने के लिए डिज़ाइन नहीं किया गया है।
इस प्रारंभिक चरण के बाद, हम एक तीव्र आरजीबी-आधारित क्रिया पहचान मॉडल को परिनियोजित करते हैं। इस मॉडल के शीर्ष दो परिणामों के आधार पर, हम निर्धारित करते हैं कि आरजीबी-आधारित स्थिति पहचान मॉडल, ऑडियो-आधारित क्रिया पहचान मॉडल, या कंकाल-आधारित क्रिया पहचान मॉडल निष्पादित करना है या नहीं। यदि आरजीबी-एक्शन रिकग्निशन मॉडल से शीर्ष दो भविष्यवाणियों में से एक स्थिति श्रेणी से मेल खाती है, तो हम आरजीबी-पोजिशन रिकग्निशन मॉडल के साथ विशिष्ट स्थिति की सटीक पहचान करने के लिए आगे बढ़ते हैं।
इसके बाद, हम मानव कंकाल को निकालने के लिए बाउंडिंग बॉक्स और 2डी पोज़ मॉडल का उपयोग करते हैं, जो तब कंकाल-आधारित स्थिति पहचान मॉडल में इनपुट होता है। आरजीबी-स्थिति मान्यता मॉडल और कंकाल-स्थिति पहचान मॉडल के परिणाम देर से संलयन के माध्यम से एकीकृत होते हैं।
यदि शीर्ष दो लेबल में ऑडियो समूह का पता लगाया जाता है, तो ऑडियो-आधारित क्रिया पहचान मॉडल निष्पादित किया जाता है। इसके परिणाम देर से फ्यूजन के माध्यम से आरजीबी-एक्शन रिकग्निशन मॉडल के साथ संयुक्त होते हैं।
अंत में, हम एक या दो अंतिम भविष्यवाणियों को उत्पन्न करते हुए, क्रिया और स्थिति मॉडल के परिणामों का विश्लेषण करते हैं। इस तरह की भविष्यवाणियों के उदाहरणों में एकल क्रियाएं (जैसे, मिस्सी *** ry), स्थिति और क्रिया संयोजन (जैसे, काउगर्ल और किसिंग या डॉगी और An*l), या दोहरी क्रियाएं (जैसे, Cunn***ngus & Fing**) शामिल हैं। * एनजी)।
अधिक जानकारी के लिए आप हमारे P-HAR API दस्तावेज़ पढ़ सकते हैं