लेखक:  (1) रुई डुआन यूनिवर्सिटी ऑफ साउथ फ्लोरिडा टाम्पा, यूएसए (ईमेल: ruiduan@usf.edu);  (2) झे क्वो सेंट्रल साउथ यूनिवर्सिटी चांग्शा, चीन (ईमेल: zhe_qu@csu.edu.cn);  (3) लिआ डिंग अमेरिकन यूनिवर्सिटी वाशिंगटन, डीसी, यूएसए (ईमेल: ding@american.edu);  (4) याओ लियू यूनिवर्सिटी ऑफ साउथ फ्लोरिडा टाम्पा, यूएसए (ईमेल: yliu@cse.usf.edu);  (5) याओ लियू यूनिवर्सिटी ऑफ साउथ फ्लोरिडा टाम्पा, यूएसए (ईमेल: yliu@cse.usf.edu)।  लिंक की तालिका   सार और परिचय   पृष्ठभूमि और प्रेरणा   तोता प्रशिक्षण: व्यवहार्यता और मूल्यांकन   पीटी-एई पीढ़ी: एक संयुक्त हस्तांतरणीयता और धारणा परिप्रेक्ष्य   अनुकूलित ब्लैक-बॉक्स पीटी-एई हमले   प्रायोगिक मूल्यांकन   संबंधित कार्य   निष्कर्ष और संदर्भ   अनुबंध  II. पृष्ठभूमि और प्रेरणा  इस अनुभाग में, हम सबसे पहले स्पीकर पहचान की पृष्ठभूमि का परिचय देंगे, फिर स्पीकर पहचान के विरुद्ध ऑडियो AEs बनाने के लिए ब्लैक-बॉक्स प्रतिकूल हमले के फॉर्मूलेशन का वर्णन करेंगे।   ए. स्पीकर पहचान  हाल के वर्षों में स्पीकर पहचान अधिक से अधिक लोकप्रिय हो गई है। यह मशीनों को किसी स्पीकर की व्यक्तिगत भाषण विशेषताओं के माध्यम से पहचानने की क्षमता प्रदान करता है, जो कॉलिंग और मैसेजिंग के लिए सुविधाजनक लॉगिन [4] और व्यक्तिगत अनुभव [1] जैसी व्यक्तिगत सेवाएँ प्रदान कर सकता है। आम तौर पर, स्पीकर पहचान कार्य में तीन चरण शामिल होते हैं: प्रशिक्षण, नामांकन और पहचान। यह उजागर करना महत्वपूर्ण है कि स्पीकर पहचान कार्य [29], [118], [113] या तो (i) कई-स्पीकर-आधारित स्पीकर पहचान (एसआई) या (ii) एकल-स्पीकर-आधारित स्पीकर सत्यापन (एसवी) हो सकते हैं। विशेष रूप से, एसआई को क्लोज-सेट आइडेंटिफिकेशन (सीएसआई) और ओपन-सेट आइडेंटिफिकेशन (ओएसआई) [39], [29] में विभाजित किया जा सकता है। हम परिशिष्ट ए में विस्तृत जानकारी प्रदान करते हैं।   बी. प्रतिकूल भाषण हमले  एक स्पीकर पहचान फ़ंक्शन f दिया गया है, जो मूल स्पीच सिग्नल x का इनपुट लेता है और स्पीकर के लेबल y को आउटपुट करता है, एक प्रतिकूल हमलावर एक छोटा गड़बड़ी सिग्नल δ ∈ Ω खोजने का लक्ष्य रखता है ताकि एक ऑडियो AE x + δ बनाया जा सके  f(x + δ) = yt, D(x, x + δ) ≤ ϵ, (1)  जहाँ yt ̸= y हमलावर का लक्ष्य लेबल है; Ω δ के लिए खोज स्थान है; D(x, x + δ) एक दूरी फ़ंक्शन है जो मूल भाषण x और परेशान भाषण x + δ के बीच अंतर को मापता है और यह Lp मानक आधारित दूरी [29], [118] या श्रवण सुविधा अंतर का एक उपाय हो सकता है (उदाहरण के लिए, qDev [44] और NISQA [113]); और ϵ x से x + δ तक परिवर्तन को सीमित करता है।  (1) को हल करने के लिए एक सामान्य व्हाइट-बॉक्स अटैक फॉर्मूलेशन [28], [72] के रूप में लिखा जा सकता है   जहाँ J (·, ·) इनपुट x + δ को लक्ष्य लेबल yt से संबद्ध करते समय क्लासिफायर f में पूर्वानुमान हानि है, जिसे हमलावर द्वारा ज्ञात माना जाता है; और c हमले की प्रभावशीलता और मूल भाषण में परिवर्तन को संतुलित करने वाला एक कारक है।  ब्लैक-बॉक्स अटैक को (2) में J (·, ·) का कोई ज्ञान नहीं होता है और इस प्रकार उसे क्लासिफायर f से प्राप्त होने वाली अन्य जानकारी के आधार पर एक अलग प्रकार का फॉर्मूलेशन अपनाना पड़ता है। यदि अटैक क्लासिफायर की जांच कर सकता है जो बाइनरी (स्वीकार या अस्वीकार) परिणाम देता है, तो अटैक [118], [74] को इस प्रकार तैयार किया जा सकता है   चूँकि (3) में f(x + δ) शामिल है, हमलावर को लगातार δ का एक अलग संस्करण उत्पन्न करने और f(x + δ) के परिणाम को मापने के लिए एक जांच रणनीति बनानी होगी जब तक कि वह सफल न हो जाए। तदनुसार, बड़ी संख्या में जांच (जैसे, 10,000 से अधिक [118]) की आवश्यकता होती है, जो वास्तविक दुनिया के हमलों को वाणिज्यिक स्पीकर पहचान मॉडल के खिलाफ कम व्यावहारिक बनाता है जो हवा पर भाषण संकेतों को स्वीकार करते हैं    सी. डिजाइन प्रेरणा  ब्लैकबॉक्स हमले की बोझिल जांच प्रक्रिया को दूर करने के लिए, हमारा लक्ष्य व्यावहारिक ब्लैक-बॉक्स हमले बनाने का एक वैकल्पिक तरीका खोजना है। इस तथ्य को देखते हुए कि क्लासिफायर की जांच या किसी भी ज्ञान के बिना ब्लैक-बॉक्स हमला संभव नहीं है, हम [118] में इस्तेमाल किए गए पूर्व ज्ञान की एक धारणा को अपनाते हैं कि हमलावर के पास लक्ष्य वक्ता का एक बहुत छोटा ऑडियो नमूना है (ध्यान दें कि [118] को इस ज्ञान के अलावा लक्ष्य मॉडल की जांच करनी है)। यह धारणा हमलावर को क्लासिफायर के आंतरिक भाग को जानने देने से अधिक व्यावहारिक है। इस सीमित ज्ञान को देखते हुए, हमारा लक्ष्य जांच प्रक्रिया को हटाना और प्रभावी एई बनाना है।   मौजूदा अध्ययनों ने ग्राउंड-ट्रुथ प्रशिक्षित एई (जीटी-एई) के संबंध में कई पहलुओं पर ध्यान केंद्रित किया है। तोता भाषण और तोता प्रशिक्षण की अवधारणाएं एक नए प्रकार के एई, तोता-प्रशिक्षित एई (पीटी-एई) बनाती हैं, और एक व्यावहारिक ब्लैक-बॉक्स हमले की दिशा में पीटी-एई की व्यवहार्यता और प्रभावशीलता के तीन प्रमुख प्रश्न भी उठाती हैं: (i) क्या एक पीटी मॉडल जीटी मॉडल का अनुमान लगा सकता है? (ii) क्या पीटी मॉडल पर निर्मित पीटी-एई ब्लैक-बॉक्स जीटी मॉडल के खिलाफ जीटी-एई के रूप में हस्तांतरणीय हैं? (iii) एक प्रभावी ब्लैक-बॉक्स हमले की दिशा में पीटी-एई की पीढ़ी को कैसे अनुकूलित करें? चित्र 1 एक नए, व्यावहारिक और गैर-जांच ब्लैक-बॉक्स हमले की दिशा में इन सवालों को संबोधित करने के लिए हमारे लिए समग्र प्रक्रिया दिखाता है: और (3) हम अनुभाग V में PT-AEs पर आधारित एक अनुकूलित ब्लैकबॉक्स हमले को तैयार करते हैं। फिर, हम अनुभाग VI में वाणिज्यिक ऑडियो सिस्टम पर प्रस्तावित हमले के प्रभाव को समझने के लिए व्यापक मूल्यांकन करते हैं।   D. खतरा मॉडल  इस पत्र में, हम एक हमलावर पर विचार करते हैं जो स्पीकर पहचान मॉडल को बेवकूफ बनाने के लिए एक ऑडियो एई बनाने का प्रयास करता है ताकि मॉडल एई को लक्षित स्पीकर की आवाज के रूप में पहचान सके। हम एक ब्लैक-बॉक्स हमले की धारणा को अपनाते हैं कि हमलावर को भाषण पहचान मॉडल में उपयोग की जाने वाली वास्तुकला, मापदंडों और प्रशिक्षण डेटा के बारे में कोई जानकारी नहीं है। हम मानते हैं कि हमलावर के पास लक्षित स्पीकर का एक बहुत ही छोटा भाषण नमूना (हमारे मूल्यांकन में कुछ सेकंड) है, जिसे सार्वजनिक सेटिंग्स [118] में एकत्र किया जा सकता है, लेकिन नमूना का उपयोग लक्ष्य मॉडल में प्रशिक्षण के लिए आवश्यक रूप से नहीं किया जाता है। हम अधिक यथार्थवादी परिदृश्य पर ध्यान केंद्रित करते हैं जहां हमलावर मॉडल की जांच नहीं करता है, जो कि अधिकांश ब्लैक-बॉक्स हमले अध्ययनों [113], [29], [118] से अलग है, जिनमें कई जांच की आवश्यकता होती है।  यह पेपर CC0 1.0 DEED लाइसेंस के अंतर्गत   है। arxiv पर उपलब्ध

Part of HackerNoon's growing list of open-source research papers, promoting free access to academic material.

Read My Stories

BotBeat is an AI Research Goldmine - said real person talking to a bot on Twitter/X/Gronk/WhateverWeAreCallingIt

BotBeat's Blog

यह ऑडियो कहानी की मूल भाषा में निर्मित है!

स्पीकर पहचान और प्रतिकूल भाषण हमलों को समझना

About Author

टिप्पणियाँ

लेबल

इस लेख में चित्रित किया गया था

Related Stories

State of the Noonion: Green Clock Strikes Noon

फ्लोकी का वल्लाह भारत के श्रीलंका दौरे के लिए सहयोगी प्रायोजक के रूप में शामिल हुआ

10 Reasons Why Publishing on HackerNoon Will Skyrocket Your Reach and Impact

क्लाउड सॉनेट 3.5 सिस्टम प्रॉम्प्ट लीक: एक फोरेंसिक विश्लेषण

State of the Noonion: Green Clock Strikes Noon

फ्लोकी का वल्लाह भारत के श्रीलंका दौरे के लिए सहयोगी प्रायोजक के रूप में शामिल हुआ

10 Reasons Why Publishing on HackerNoon Will Skyrocket Your Reach and Impact

क्लाउड सॉनेट 3.5 सिस्टम प्रॉम्प्ट लीक: एक फोरेंसिक विश्लेषण

Light-Mode

Classic

Newspaper

Minty

Dark-Mode

Neon Noir

Minty

HN StartUps