गहन शिक्षण समुदाय के भीतर मानव क्रिया मान्यता अनुसंधान के एक सक्रिय क्षेत्र के रूप में उभरी है। प्राथमिक उद्देश्य में वीडियो और ऑडियो डेटा जैसे कई इनपुट स्ट्रीम का उपयोग करके वीडियो में मानव क्रियाओं की पहचान करना और उन्हें वर्गीकृत करना शामिल है।  इस तकनीक का एक विशेष अनुप्रयोग पोर्नोग्राफी डोमेन में निहित है, जो अद्वितीय तकनीकी चुनौतियों का सामना करता है जो मानव क्रिया पहचान की प्रक्रिया को जटिल बनाता है। प्रकाश विविधताएं, रोड़ा, और कैमरा कोणों और फिल्मांकन तकनीकों में पर्याप्त अंतर जैसे कारक कार्रवाई की पहचान को कठिन बनाते हैं।  यहां तक कि जब दो क्रियाएं समान होती हैं, तो विविध कैमरा दृष्टिकोण मॉडल की भविष्यवाणियों में भ्रम पैदा कर सकते हैं। पोर्नोग्राफी डोमेन में इन चुनौतियों का समाधान करने के लिए, हमने   तकनीकों को नियोजित किया है जो आरजीबी, स्केलेटन (पोज़) और ऑडियो डेटा सहित विभिन्न इनपुट स्ट्रीम से सीखते हैं। प्रदर्शन और रनटाइम के मामले में सबसे प्रभावी मॉडल में आरजीबी स्ट्रीम के लिए ट्रांसफार्मर-आधारित आर्किटेक्चर, कंकाल स्ट्रीम के लिए PoseC3D और ऑडियो स्ट्रीम के लिए ResNet101 शामिल हैं। गहन शिक्षण  इन मॉडलों के आउटपुट को देर से संलयन का उपयोग करके जोड़ा जाता है, जिसमें अंतिम स्कोरिंग योजना में प्रत्येक मॉडल का महत्व भिन्न होता है। एक वैकल्पिक रणनीति में एक मॉडल को दो इनपुट स्ट्रीम के साथ एक साथ प्रशिक्षण देना शामिल हो सकता है, जैसे आरजीबी + कंकाल या आरजीबी + ऑडियो, और बाद में उनके परिणामों को मर्ज करना। हालाँकि, यह दृष्टिकोण डेटा के अंतर्निहित गुणों के कारण अनुपयुक्त है।  ऑडियो इनपुट स्ट्रीम केवल विशिष्ट क्रियाओं के लिए उपयोगी होती हैं, जबकि अन्य क्रियाओं में विशिष्ट ऑडियो विशेषताओं का अभाव होता है। इसी तरह, कंकाल-आधारित मॉडल केवल तभी लागू होता है जब मुद्रा अनुमान एक निश्चित आत्मविश्वास सीमा से अधिक हो जाता है, जो कुछ कार्यों के लिए चुनौतीपूर्ण होता है।  लेट फ्यूजन तकनीक का उपयोग करके, जिसका विवरण बाद के खंडों में दिया गया है, हम 20 अलग-अलग श्रेणियों के बीच शीर्ष दो भविष्यवाणियों के लिए प्रभावशाली 90% सटीकता दर प्राप्त करते हैं। इन श्रेणियों में यौन क्रियाओं और पदों की एक विविध श्रेणी शामिल है।  मॉडल  आरजीबी इनपुट स्ट्रीम  मॉडल के लिए प्राथमिक और सबसे विश्वसनीय इनपुट स्ट्रीम आरजीबी फ्रेम है। इस संदर्भ में दो सबसे शक्तिशाली आर्किटेक्चर हैं 3डी कनवॉल्यूशनल न्यूरल नेटवर्क्स (3डी सीएनएन) और ध्यान-आधारित मॉडल। ध्यान आधारित मॉडल, विशेष रूप से ट्रांसफॉर्मर आर्किटेक्चर का उपयोग करने वाले, वर्तमान में क्षेत्र में अत्याधुनिक माने जाते हैं। नतीजतन, हम इष्टतम प्रदर्शन प्राप्त करने के लिए एक ट्रांसफॉर्मर-आधारित आर्किटेक्चर को नियोजित करते हैं। इसके अतिरिक्त, मॉडल 7 सेकंड के वीडियो क्लिप को संसाधित करने के लिए लगभग 0.53 सेकंड की आवश्यकता के लिए तेजी से अनुमान क्षमता प्रदर्शित करता है।  कंकाल इनपुट स्ट्रीम  प्रारंभ में, मानव कंकाल को मानव पहचान और 2डी पोज़ अनुमान मॉडल का उपयोग करके निकाला जाता है। निकाली गई कंकाल की जानकारी को बाद में PoseC3D, एक 3D कनवॉल्यूशनल न्यूरल नेटवर्क (3D CNN) में फीड किया जाता है, जिसे विशेष रूप से कंकाल-आधारित मानव क्रिया पहचान के लिए डिज़ाइन किया गया है। इस मॉडल को क्षेत्र में अत्याधुनिक भी माना जाता है। इसके प्रदर्शन के अलावा, PoseC3D मॉडल कुशल निष्कर्ष क्षमताओं को प्रदर्शित करता है, जिसमें 7-सेकंड वीडियो क्लिप को संसाधित करने के लिए लगभग 3 सेकंड की आवश्यकता होती है।  कई कार्रवाइयों में सामना किए गए चुनौतीपूर्ण दृष्टिकोणों के कारण (उदाहरण के लिए विश्वसनीय पोज़ निकालना संभव नहीं है जो किसी मॉडल को ज़्यादातर समय   एक्शन की पहचान करने में मदद करेगा), कंकाल-आधारित मानव क्रिया पहचान को चुनिंदा रूप से नियोजित किया जाता है, विशेष रूप से क्रियाओं के एक सबसेट के लिए, जिसमें सेक्स पोजीशन भी शामिल है फिंगरिंग  ऑडियो इनपुट स्ट्रीम  ऑडियो इनपुट स्ट्रीम के लिए, ऑडियोविज़ुअल स्लोफ़ास्ट मॉडल से प्राप्त एक रेसनेट-आधारित आर्किटेक्चर कार्यरत है। यह दृष्टिकोण कंकाल-आधारित पद्धति की तुलना में कार्यों के एक छोटे समूह पर लागू होता है, मुख्य रूप से इस विशिष्ट डोमेन के भीतर विश्वसनीय रूप से पहचान करने के लिए एक ऑडियो परिप्रेक्ष्य से उपलब्ध सीमित जानकारी के कारण।  डेटासेट  इकट्ठे किए गए डेटासेट व्यापक और विषम हैं, जिसमें रिकॉर्डिंग प्रकारों की एक विस्तृत श्रृंखला शामिल है, जिसमें पॉइंट-ऑफ-व्यू (पीओवी), पेशेवर, शौकिया, एक समर्पित कैमरा ऑपरेटर के साथ या उसके बिना, और अलग-अलग पृष्ठभूमि के वातावरण, व्यक्ति और कैमरा दृष्टिकोण शामिल हैं। डेटासेट में 20 अलग-अलग श्रेणियों में फैले लगभग 100 घंटे का प्रशिक्षण डेटा शामिल है। हालाँकि, डेटासेट में कुछ श्रेणी के असंतुलन देखे गए थे। डेटासेट के भविष्य के पुनरावृत्तियों के लिए इन असंतुलनों को दूर करने के प्रयासों पर विचार किया जा रहा है।  वास्तुकला   ऊपर दिया गया उदाहरण हमारे सिस्टम में उपयोग की जाने वाली AI पाइपलाइन का अवलोकन प्रदान करता है।  प्रारंभ में, वीडियो के गैर-NSFW सेगमेंट की पहचान करने के लिए एक हल्का NSFW डिटेक्शन मॉडल कार्यरत है, जिससे हम उन सेक्शन के लिए शेष पाइपलाइन को बायपास कर सकते हैं। यह दृष्टिकोण न केवल समग्र वीडियो अनुमान समय को तेज करता है बल्कि झूठी सकारात्मकता को भी कम करता है। अप्रासंगिक फ़ुटेज, जैसे घर या कार पर क्रिया पहचान मॉडल चलाना अनावश्यक है क्योंकि उन्हें ऐसी सामग्री को पहचानने के लिए डिज़ाइन नहीं किया गया है।  इस प्रारंभिक चरण के बाद, हम एक तीव्र आरजीबी-आधारित क्रिया पहचान मॉडल को परिनियोजित करते हैं। इस मॉडल के शीर्ष दो परिणामों के आधार पर, हम निर्धारित करते हैं कि आरजीबी-आधारित स्थिति पहचान मॉडल, ऑडियो-आधारित क्रिया पहचान मॉडल, या कंकाल-आधारित क्रिया पहचान मॉडल निष्पादित करना है या नहीं। यदि आरजीबी-एक्शन रिकग्निशन मॉडल से शीर्ष दो भविष्यवाणियों में से एक स्थिति श्रेणी से मेल खाती है, तो हम आरजीबी-पोजिशन रिकग्निशन मॉडल के साथ विशिष्ट स्थिति की सटीक पहचान करने के लिए आगे बढ़ते हैं।  इसके बाद, हम मानव कंकाल को निकालने के लिए बाउंडिंग बॉक्स और 2डी पोज़ मॉडल का उपयोग करते हैं, जो तब कंकाल-आधारित स्थिति पहचान मॉडल में इनपुट होता है। आरजीबी-स्थिति मान्यता मॉडल और कंकाल-स्थिति पहचान मॉडल के परिणाम देर से संलयन के माध्यम से एकीकृत होते हैं।  यदि शीर्ष दो लेबल में ऑडियो समूह का पता लगाया जाता है, तो ऑडियो-आधारित क्रिया पहचान मॉडल निष्पादित किया जाता है। इसके परिणाम देर से फ्यूजन के माध्यम से आरजीबी-एक्शन रिकग्निशन मॉडल के साथ संयुक्त होते हैं।  अंत में, हम एक या दो अंतिम भविष्यवाणियों को उत्पन्न करते हुए, क्रिया और स्थिति मॉडल के परिणामों का विश्लेषण करते हैं। इस तरह की भविष्यवाणियों के उदाहरणों में एकल क्रियाएं (जैसे, मिस्सी *** ry), स्थिति और क्रिया संयोजन (जैसे, काउगर्ल और किसिंग या डॉगी और An*l), या दोहरी क्रियाएं (जैसे, Cunn***ngus & Fing**) शामिल हैं। * एनजी)।  अधिक जानकारी के लिए आप हमारे   पढ़ सकते हैं P-HAR API दस्तावेज़

 Let me introduce you to PHAR (Porno Human Action Recognition), a powerful self-service API that simplifies the process of tagging adult videos with precise information on the top 20 sexual acts and positions, along with their respective timing within the video. With PHAR, you can now automate the process of labeling adult content, streamlining your workflow and saving valuable time and effort.

यह ऑडियो कहानी की मूल भाषा में निर्मित है!

P-HAR: पोर्नोग्राफिक ह्यूमन एक्शन रिकॉग्निशन

About Author

टिप्पणियाँ

लेबल

इस लेख में चित्रित किया गया था

Related Stories

10 Reasons Why Publishing on HackerNoon Will Skyrocket Your Reach and Impact

हैकरनून कोडेड: शीर्ष 10 देश जहां हैकरनून सबसे अधिक सक्रिय है

अपने वर्कफ़्लो को 10 गुना बेहतर कैसे बनाएं: 17 ज़रूरी ऐप्स

फ़ोरम से फ़ीड तक: सोशल मीडिया एल्गोरिदम डिजिटल इंटरैक्शन को कैसे आकार देते हैं

10 Reasons Why Publishing on HackerNoon Will Skyrocket Your Reach and Impact

हैकरनून कोडेड: शीर्ष 10 देश जहां हैकरनून सबसे अधिक सक्रिय है

अपने वर्कफ़्लो को 10 गुना बेहतर कैसे बनाएं: 17 ज़रूरी ऐप्स

फ़ोरम से फ़ीड तक: सोशल मीडिया एल्गोरिदम डिजिटल इंटरैक्शन को कैसे आकार देते हैं

Light-Mode

Classic

Newspaper

Minty

Dark-Mode

Neon Noir

Minty

HN StartUps