लेखक:
(1) रुई डुआन यूनिवर्सिटी ऑफ साउथ फ्लोरिडा टाम्पा, यूएसए (ईमेल: [email protected]);
(2) झे क्वो सेंट्रल साउथ यूनिवर्सिटी चांग्शा, चीन (ईमेल: [email protected]);
(3) लिआ डिंग अमेरिकन यूनिवर्सिटी वाशिंगटन, डीसी, यूएसए (ईमेल: [email protected]);
(4) याओ लियू यूनिवर्सिटी ऑफ साउथ फ्लोरिडा टाम्पा, यूएसए (ईमेल: [email protected]);
(5) याओ लियू यूनिवर्सिटी ऑफ साउथ फ्लोरिडा टाम्पा, यूएसए (ईमेल: [email protected])।
तोता प्रशिक्षण: व्यवहार्यता और मूल्यांकन
पीटी-एई पीढ़ी: एक संयुक्त हस्तांतरणीयता और धारणा परिप्रेक्ष्य
अनुकूलित ब्लैक-बॉक्स पीटी-एई हमले
इस अनुभाग में, हम सबसे पहले स्पीकर पहचान की पृष्ठभूमि का परिचय देंगे, फिर स्पीकर पहचान के विरुद्ध ऑडियो AEs बनाने के लिए ब्लैक-बॉक्स प्रतिकूल हमले के फॉर्मूलेशन का वर्णन करेंगे।
ए. स्पीकर पहचान
हाल के वर्षों में स्पीकर पहचान अधिक से अधिक लोकप्रिय हो गई है। यह मशीनों को किसी स्पीकर की व्यक्तिगत भाषण विशेषताओं के माध्यम से पहचानने की क्षमता प्रदान करता है, जो कॉलिंग और मैसेजिंग के लिए सुविधाजनक लॉगिन [4] और व्यक्तिगत अनुभव [1] जैसी व्यक्तिगत सेवाएँ प्रदान कर सकता है। आम तौर पर, स्पीकर पहचान कार्य में तीन चरण शामिल होते हैं: प्रशिक्षण, नामांकन और पहचान। यह उजागर करना महत्वपूर्ण है कि स्पीकर पहचान कार्य [29], [118], [113] या तो (i) कई-स्पीकर-आधारित स्पीकर पहचान (एसआई) या (ii) एकल-स्पीकर-आधारित स्पीकर सत्यापन (एसवी) हो सकते हैं। विशेष रूप से, एसआई को क्लोज-सेट आइडेंटिफिकेशन (सीएसआई) और ओपन-सेट आइडेंटिफिकेशन (ओएसआई) [39], [29] में विभाजित किया जा सकता है। हम परिशिष्ट ए में विस्तृत जानकारी प्रदान करते हैं।
बी. प्रतिकूल भाषण हमले
एक स्पीकर पहचान फ़ंक्शन f दिया गया है, जो मूल स्पीच सिग्नल x का इनपुट लेता है और स्पीकर के लेबल y को आउटपुट करता है, एक प्रतिकूल हमलावर एक छोटा गड़बड़ी सिग्नल δ ∈ Ω खोजने का लक्ष्य रखता है ताकि एक ऑडियो AE x + δ बनाया जा सके
f(x + δ) = yt, D(x, x + δ) ≤ ϵ, (1)
जहाँ yt ̸= y हमलावर का लक्ष्य लेबल है; Ω δ के लिए खोज स्थान है; D(x, x + δ) एक दूरी फ़ंक्शन है जो मूल भाषण x और परेशान भाषण x + δ के बीच अंतर को मापता है और यह Lp मानक आधारित दूरी [29], [118] या श्रवण सुविधा अंतर का एक उपाय हो सकता है (उदाहरण के लिए, qDev [44] और NISQA [113]); और ϵ x से x + δ तक परिवर्तन को सीमित करता है।
(1) को हल करने के लिए एक सामान्य व्हाइट-बॉक्स अटैक फॉर्मूलेशन [28], [72] के रूप में लिखा जा सकता है
जहाँ J (·, ·) इनपुट x + δ को लक्ष्य लेबल yt से संबद्ध करते समय क्लासिफायर f में पूर्वानुमान हानि है, जिसे हमलावर द्वारा ज्ञात माना जाता है; और c हमले की प्रभावशीलता और मूल भाषण में परिवर्तन को संतुलित करने वाला एक कारक है।
ब्लैक-बॉक्स अटैक को (2) में J (·, ·) का कोई ज्ञान नहीं होता है और इस प्रकार उसे क्लासिफायर f से प्राप्त होने वाली अन्य जानकारी के आधार पर एक अलग प्रकार का फॉर्मूलेशन अपनाना पड़ता है। यदि अटैक क्लासिफायर की जांच कर सकता है जो बाइनरी (स्वीकार या अस्वीकार) परिणाम देता है, तो अटैक [118], [74] को इस प्रकार तैयार किया जा सकता है
चूँकि (3) में f(x + δ) शामिल है, हमलावर को लगातार δ का एक अलग संस्करण उत्पन्न करने और f(x + δ) के परिणाम को मापने के लिए एक जांच रणनीति बनानी होगी जब तक कि वह सफल न हो जाए। तदनुसार, बड़ी संख्या में जांच (जैसे, 10,000 से अधिक [118]) की आवश्यकता होती है, जो वास्तविक दुनिया के हमलों को वाणिज्यिक स्पीकर पहचान मॉडल के खिलाफ कम व्यावहारिक बनाता है जो हवा पर भाषण संकेतों को स्वीकार करते हैं
सी. डिजाइन प्रेरणा
ब्लैकबॉक्स हमले की बोझिल जांच प्रक्रिया को दूर करने के लिए, हमारा लक्ष्य व्यावहारिक ब्लैक-बॉक्स हमले बनाने का एक वैकल्पिक तरीका खोजना है। इस तथ्य को देखते हुए कि क्लासिफायर की जांच या किसी भी ज्ञान के बिना ब्लैक-बॉक्स हमला संभव नहीं है, हम [118] में इस्तेमाल किए गए पूर्व ज्ञान की एक धारणा को अपनाते हैं कि हमलावर के पास लक्ष्य वक्ता का एक बहुत छोटा ऑडियो नमूना है (ध्यान दें कि [118] को इस ज्ञान के अलावा लक्ष्य मॉडल की जांच करनी है)। यह धारणा हमलावर को क्लासिफायर के आंतरिक भाग को जानने देने से अधिक व्यावहारिक है। इस सीमित ज्ञान को देखते हुए, हमारा लक्ष्य जांच प्रक्रिया को हटाना और प्रभावी एई बनाना है।
मौजूदा अध्ययनों ने ग्राउंड-ट्रुथ प्रशिक्षित एई (जीटी-एई) के संबंध में कई पहलुओं पर ध्यान केंद्रित किया है। तोता भाषण और तोता प्रशिक्षण की अवधारणाएं एक नए प्रकार के एई, तोता-प्रशिक्षित एई (पीटी-एई) बनाती हैं, और एक व्यावहारिक ब्लैक-बॉक्स हमले की दिशा में पीटी-एई की व्यवहार्यता और प्रभावशीलता के तीन प्रमुख प्रश्न भी उठाती हैं: (i) क्या एक पीटी मॉडल जीटी मॉडल का अनुमान लगा सकता है? (ii) क्या पीटी मॉडल पर निर्मित पीटी-एई ब्लैक-बॉक्स जीटी मॉडल के खिलाफ जीटी-एई के रूप में हस्तांतरणीय हैं? (iii) एक प्रभावी ब्लैक-बॉक्स हमले की दिशा में पीटी-एई की पीढ़ी को कैसे अनुकूलित करें? चित्र 1 एक नए, व्यावहारिक और गैर-जांच ब्लैक-बॉक्स हमले की दिशा में इन सवालों को संबोधित करने के लिए हमारे लिए समग्र प्रक्रिया दिखाता है: और (3) हम अनुभाग V में PT-AEs पर आधारित एक अनुकूलित ब्लैकबॉक्स हमले को तैयार करते हैं। फिर, हम अनुभाग VI में वाणिज्यिक ऑडियो सिस्टम पर प्रस्तावित हमले के प्रभाव को समझने के लिए व्यापक मूल्यांकन करते हैं।
D. खतरा मॉडल
इस पत्र में, हम एक हमलावर पर विचार करते हैं जो स्पीकर पहचान मॉडल को बेवकूफ बनाने के लिए एक ऑडियो एई बनाने का प्रयास करता है ताकि मॉडल एई को लक्षित स्पीकर की आवाज के रूप में पहचान सके। हम एक ब्लैक-बॉक्स हमले की धारणा को अपनाते हैं कि हमलावर को भाषण पहचान मॉडल में उपयोग की जाने वाली वास्तुकला, मापदंडों और प्रशिक्षण डेटा के बारे में कोई जानकारी नहीं है। हम मानते हैं कि हमलावर के पास लक्षित स्पीकर का एक बहुत ही छोटा भाषण नमूना (हमारे मूल्यांकन में कुछ सेकंड) है, जिसे सार्वजनिक सेटिंग्स [118] में एकत्र किया जा सकता है, लेकिन नमूना का उपयोग लक्ष्य मॉडल में प्रशिक्षण के लिए आवश्यक रूप से नहीं किया जाता है। हम अधिक यथार्थवादी परिदृश्य पर ध्यान केंद्रित करते हैं जहां हमलावर मॉडल की जांच नहीं करता है, जो कि अधिकांश ब्लैक-बॉक्स हमले अध्ययनों [113], [29], [118] से अलग है, जिनमें कई जांच की आवश्यकता होती है।
यह पेपर CC0 1.0 DEED लाइसेंस के अंतर्गत arxiv पर उपलब्ध है।