paint-brush
स्पीकर पहचान मॉडल के विरुद्ध ब्लैक-बॉक्स ऑडियो हमलों की व्यावहारिकता को आगे बढ़ानाद्वारा@botbeat
136 रीडिंग

स्पीकर पहचान मॉडल के विरुद्ध ब्लैक-बॉक्स ऑडियो हमलों की व्यावहारिकता को आगे बढ़ाना

द्वारा BotBeat.Tech: Trusted Generative AI Research Firm
BotBeat.Tech: Trusted Generative AI Research Firm HackerNoon profile picture

BotBeat.Tech: Trusted Generative AI Research Firm

@botbeat

"BotBeat is an AI Research Goldmine" - said real person...

7 मिनट read2024/06/11
Read on Terminal Reader
Read this story in a terminal
Print this story

बहुत लंबा; पढ़ने के लिए

तोता प्रशिक्षण में न्यूनतम ज्ञान का उपयोग किया जाता है - एक संक्षिप्त भाषण नमूना - प्रभावी ऑडियो प्रतिकूल उदाहरण उत्पन्न करने के लिए, स्पीकर पहचान प्रणालियों के खिलाफ ब्लैक-बॉक्स हमलों में उच्च सफलता दर प्राप्त करना।
featured image - स्पीकर पहचान मॉडल के विरुद्ध ब्लैक-बॉक्स ऑडियो हमलों की व्यावहारिकता को आगे बढ़ाना
BotBeat.Tech: Trusted Generative AI Research Firm HackerNoon profile picture
BotBeat.Tech: Trusted Generative AI Research Firm

BotBeat.Tech: Trusted Generative AI Research Firm

@botbeat

"BotBeat is an AI Research Goldmine" - said real person talking to a bot on Twitter/X/Gronk/WhateverWeAreCallingIt

0-item

STORY’S CREDIBILITY

Academic Research Paper

Academic Research Paper

Part of HackerNoon's growing list of open-source research papers, promoting free access to academic material.

लेखक:

(1) रुई डुआन यूनिवर्सिटी ऑफ साउथ फ्लोरिडा टाम्पा, यूएसए (ईमेल: ruiduan@usf.edu);

(2) झे क्वो सेंट्रल साउथ यूनिवर्सिटी चांग्शा, चीन (ईमेल: zhe_qu@csu.edu.cn);

(3) लिआ डिंग अमेरिकन यूनिवर्सिटी वाशिंगटन, डीसी, यूएसए (ईमेल: ding@american.edu);

(4) याओ लियू यूनिवर्सिटी ऑफ साउथ फ्लोरिडा टाम्पा, यूएसए (ईमेल: yliu@cse.usf.edu);

(5) याओ लियू यूनिवर्सिटी ऑफ साउथ फ्लोरिडा टाम्पा, यूएसए (ईमेल: yliu@cse.usf.edu)।

लिंक की तालिका

सार और परिचय

पृष्ठभूमि और प्रेरणा

तोता प्रशिक्षण: व्यवहार्यता और मूल्यांकन

पीटी-एई पीढ़ी: एक संयुक्त हस्तांतरणीयता और धारणा परिप्रेक्ष्य

अनुकूलित ब्लैक-बॉक्स पीटी-एई हमले

प्रायोगिक मूल्यांकन

संबंधित कार्य

निष्कर्ष और संदर्भ

अनुबंध


सार - ऑडियो प्रतिकूल उदाहरणों (AEs) ने वास्तविक दुनिया के स्पीकर पहचान प्रणालियों के लिए महत्वपूर्ण सुरक्षा चुनौतियाँ पेश की हैं। अधिकांश ब्लैक-बॉक्स हमलों को प्रभावी होने के लिए अभी भी स्पीकर पहचान मॉडल से कुछ जानकारी की आवश्यकता होती है (उदाहरण के लिए, जांच जारी रखना और समानता स्कोर के ज्ञान की आवश्यकता होती है)। इस कार्य का उद्देश्य हमलावर के लक्षित स्पीकर पहचान मॉडल के बारे में ज्ञान को कम करके ब्लैक-बॉक्स हमलों की व्यावहारिकता को आगे बढ़ाना है। हालाँकि हमलावर के लिए पूरी तरह से शून्य ज्ञान के साथ सफल होना संभव नहीं है, हम मानते हैं कि हमलावर को लक्षित स्पीकर का केवल एक छोटा (या कुछ सेकंड) भाषण नमूना पता है। लक्ष्य मॉडल के बारे में और अधिक जानकारी प्राप्त करने के लिए किसी भी जांच के बिना, हम लक्ष्य मॉडल के विरुद्ध AEs उत्पन्न करने के लिए तोता प्रशिक्षण नामक एक नया तंत्र प्रस्तावित करते हैं। वॉयस कन्वर्जन (VC) में हाल की प्रगति से प्रेरित होकर, हम एक छोटे वाक्य के ज्ञान का उपयोग करके अधिक सिंथेटिक भाषण नमूने उत्पन्न करने का प्रस्ताव करते हैं जो लक्ष्य स्पीकर की तरह लगते हैं, जिन्हें तोता भाषण कहा जाता है। फिर, हम हमलावर के लिए तोता-प्रशिक्षित (PT) सरोगेट मॉडल को प्रशिक्षित करने के लिए इन तोता भाषण नमूनों का उपयोग करते हैं। संयुक्त हस्तांतरणीयता और धारणा ढांचे के तहत, हम पीटी मॉडल (जिसे पीटी-एई कहा जाता है) पर एई उत्पन्न करने के विभिन्न तरीकों की जांच करते हैं ताकि यह सुनिश्चित किया जा सके कि पीटी-एई को अच्छी मानवीय अवधारणात्मक गुणवत्ता वाले ब्लैक-बॉक्स लक्ष्य मॉडल में उच्च हस्तांतरणीयता के साथ उत्पन्न किया जा सके। वास्तविक दुनिया के प्रयोगों से पता चलता है कि परिणामी पीटी-एई डिजिटल-लाइन परिदृश्य में ओपन-सोर्स मॉडल के खिलाफ 45.8%-80.8% की हमले की सफलता दर प्राप्त करते हैं और ओवर-द-एयर परिदृश्य में ऐप्पल होमपॉड (सिरी), अमेज़ॅन इको और गूगल होम सहित स्मार्ट डिवाइस के खिलाफ 47.9%-58.3% की सफलता दर प्राप्त करते हैं[1]।

I. प्रस्तावना

वाक् पहचान [28], [114], [72], [101], [105], [32], [43], [118] और वक्ता पहचान [43], [29], [118] के खिलाफ़ प्रतिकूल वाक् हमले कंप्यूटर ऑडियो सुरक्षा में मशीन लर्निंग के सबसे सक्रिय शोध क्षेत्रों में से एक बन गए हैं। ये हमले ऑडियो प्रतिकूल उदाहरण (AE) तैयार करते हैं जो व्हाइट-बॉक्स [28], [114], [72], [52] या ब्लैक-बॉक्स सेटिंग [105], [32], [43], [118], [29], [74], [17] में वाक् क्लासिफायर को खराब कर सकते हैं। व्हाइट-बॉक्स हमलों की तुलना में, जिनके लिए लक्ष्य ऑडियो वर्गीकरण मॉडल के पूर्ण ज्ञान की आवश्यकता होती है, ब्लैकबॉक्स हमले पूर्ण ज्ञान नहीं मानते हैं और विभिन्न हमले परिदृश्यों [29], [118] के तहत साहित्य में उनकी जांच की गई है। ब्लैकबॉक्स हमलों की डिजाइनिंग में पर्याप्त प्रगति के बावजूद, वास्तविक दुनिया के परिदृश्यों में इन्हें लॉन्च करना अभी भी चुनौतीपूर्ण हो सकता है, क्योंकि हमलावर को अभी भी लक्ष्य मॉडल से जानकारी प्राप्त करने की आवश्यकता होती है।


आम तौर पर, हमलावर लक्ष्य मॉडल को धीरे-धीरे जानने के लिए एक क्वेरी (या जांच) प्रक्रिया का उपयोग कर सकता है: बार-बार लक्ष्य मॉडल को एक भाषण संकेत भेजना, फिर या तो विश्वास स्तर/भविष्यवाणी स्कोर [32], [43], [29] या क्लासिफायर के अंतिम आउटपुट परिणाम [118], [113] को मापना। जांच प्रक्रिया में आमतौर पर बड़ी संख्या में इंटरैक्शन की आवश्यकता होती है (उदाहरण के लिए, 1000 से अधिक क्वेरीज़ [113]), जिसमें पर्याप्त श्रम और समय खर्च हो सकता है। यह डिजिटल लाइन में काम कर सकता है, जैसे कि स्थानीय मशीन लर्निंग मॉडल (उदाहरण के लिए, काल्डी टूलकिट [93]) या ऑनलाइन वाणिज्यिक प्लेटफ़ॉर्म (उदाहरण के लिए, माइक्रोसॉफ्ट एज़्योर [12]) के साथ बातचीत करना। हालांकि, भौतिक उपकरणों की जांच करना, यदि संभव न हो तो, और भी अधिक बोझिल हो सकता है दो हालिया अध्ययनों ने हमलावर के ज्ञान को और सीमित कर दिया है (i) [118] केवल लक्ष्य वक्ता के एक-वाक्य भाषण को जानना [118] और लक्ष्य मॉडल के हार्ड-लेबल (स्वीकार या अस्वीकार) परिणाम (जैसे, 10,000 से अधिक बार) प्राप्त करने के लिए जांच की आवश्यकता होती है और (ii) [30] लक्ष्य मॉडल में नामांकित प्रत्येक वक्ता के लिए केवल एक-वाक्य भाषण जानना।


इस शोधपत्र में, हम स्पीकर पहचान के विरुद्ध ब्लैक-बॉक्स हमलों के लिए एक नया, और भी अधिक व्यावहारिक परिप्रेक्ष्य प्रस्तुत करते हैं। हम सबसे पहले ध्यान देते हैं कि सबसे व्यावहारिक हमला धारणा हमलावर को लक्ष्य मॉडल के बारे में कुछ भी नहीं जानने देना और मॉडल की कभी जांच नहीं करना है। हालाँकि, हमलावर के लिए इस तरह का बिलकुल भी ज्ञान प्रभावी ऑडियो एई की ओर नहीं ले जाता है। हमें कुछ ज्ञान मानना होगा लेकिन हमले की व्यावहारिकता के लिए इसे न्यूनतम स्तर पर रखना होगा। हमारा काम हमलावर के ज्ञान को लक्ष्य मॉडल के बारे में कोई अन्य जानकारी जाने बिना उसके लक्ष्य वक्ता के केवल एक-वाक्य (या कुछ सेकंड) भाषण नमूने तक सीमित करता है। हमलावर को लक्ष्य मॉडल के आंतरिक भाग के बारे में न तो जानकारी है और न ही उस तक उसकी पहुँच है। इसके अलावा, वह क्लासिफायर की जांच नहीं करती है और उसे वर्गीकरण परिणामों (या तो सॉफ्ट या हार्ड लेबल) के अवलोकन की आवश्यकता नहीं है। हमारे सर्वोत्तम ज्ञान के अनुसार, हमलावर के ज्ञान की हमारी धारणा पिछले काम (विशेष रूप से दो हालिया हमलों [118], [30]) की तुलना में सबसे अधिक प्रतिबंधित है।


लक्ष्य वक्ता के इस एक-वाक्य के ज्ञान के आसपास केंद्रित, हमारा बुनियादी हमला ढांचा है (i) एक नई प्रशिक्षण प्रक्रिया का प्रस्ताव करना, जिसे तोता प्रशिक्षण कहा जाता है, जो लक्ष्य वक्ता के पर्याप्त संख्या में सिंथेटिक भाषण नमूने उत्पन्न करता है और उन्हें आगे के स्थानांतरण हमले के लिए तोता-प्रशिक्षित (पीटी) मॉडल का निर्माण करने के लिए उपयोग करता है, और (ii) विभिन्न एई पीढ़ी तंत्रों की स्थानांतरणीयता और धारणा का व्यवस्थित रूप से मूल्यांकन करना और उच्च हमले की सफलता दर और अच्छी ऑडियो गुणवत्ता के लिए पीटी-मॉडल आधारित एई (पीटी-एई) बनाना।


तोते के प्रशिक्षण के पीछे हमारी प्रेरणा यह है कि आवाज़ रूपांतरण (वीसी) डोमेन में हाल की प्रगति ने दिखाया है कि वन-शॉट भाषण विधियाँ [34], [77], [110], [31] भाषण के नमूने उत्पन्न करने के लिए अर्थपूर्ण मानव भाषण सुविधाओं का लाभ उठाने में सक्षम हैं जो विभिन्न भाषाई सामग्री में लक्ष्य वक्ता की आवाज़ की तरह लगते हैं। हमलावर के एक वाक्य के ज्ञान के आधार पर, हमें उसके लक्ष्य वक्ता के विभिन्न सिंथेटिक भाषण नमूने उत्पन्न करने और स्पीकर पहचान के लिए पीटी मॉडल बनाने के लिए उनका उपयोग करने में सक्षम होना चाहिए। हमारे व्यवहार्यता मूल्यांकन से पता चलता है कि एक पीटी मॉडल एक ग्राउंड-ट्रुथ प्रशिक्षित (जीटी) मॉडल के समान प्रदर्शन कर सकता है जो लक्ष्य वक्ता के वास्तविक भाषण नमूनों का उपयोग करता है।


पीटी और जीटी मॉडल के बीच समानता हस्तांतरणीयता का एक नया, दिलचस्प सवाल पैदा करती है: यदि हम पीटी मॉडल से पीटी-एई बनाते हैं, तो क्या यह जीटी मॉडल (जीटी-एई) से उत्पन्न एई के समान प्रदर्शन कर सकता है और ब्लैक-बॉक्स लक्ष्य जीटी मॉडल में स्थानांतरित हो सकता है? प्रतिकूल मशीन लर्निंग में हस्तांतरणीयता पहले से ही एक पेचीदा अवधारणा है। यह देखा गया है कि हस्तांतरणीयता कई पहलुओं पर निर्भर करती है, जैसे मॉडल आर्किटेक्चर, मॉडल पैरामीटर, प्रशिक्षण डेटासेट और हमलावर एल्गोरिदम [79], [76]। मौजूदा एई मूल्यांकन मुख्य रूप से सिंथेटिक डेटा को शामिल किए बिना जीटी मॉडल पर जीटी-एई पर केंद्रित रहे हैं। नतीजतन, हम उनकी पीढ़ी और गुणवत्ता के संदर्भ में पीटी-एई पर एक व्यापक अध्ययन करते हैं।


image


• गुणवत्ता: हमें सबसे पहले यह निर्धारित करने के लिए एक गुणवत्ता मीट्रिक को परिभाषित करने की आवश्यकता है कि क्या पीटी-एई अच्छा है या नहीं। पीटी-एई के दो महत्वपूर्ण कारक हैं: (i) ब्लैकबॉक्स लक्ष्य मॉडल में पीटी-एई की स्थानांतरणीयता। स्थानांतरणीयता को मापने के लिए हम मिलान दर को अपनाते हैं, जिसका छवि डोमेन [79] में व्यापक रूप से अध्ययन किया गया है। मिलान दर को पीटी-एई के प्रतिशत के रूप में परिभाषित किया गया है जिसे अभी भी ब्लैक-बॉक्स जीटी मॉडल पर समान लक्ष्य लेबल के रूप में गलत वर्गीकृत किया जा सकता है। (ii) ऑडियो एई की धारणा गुणवत्ता। हम मानव प्रतिभागियों को विभिन्न प्रकार के वाहकों के साथ एई की भाषण गुणवत्ता को 1 (सबसे खराब) से 7 (सबसे अच्छा) तक की धारणा स्कोर के एकीकृत पैमाने पर रेट करने के लिए एक मानव अध्ययन करते हैं, जिसका आमतौर पर भाषण मूल्यांकन अध्ययनों में उपयोग किया जाता है हालांकि, ये दोनों कारक आम तौर पर विरोधाभासी हैं, क्योंकि उच्च स्तर की हस्तांतरणीयता के परिणामस्वरूप खराब धारणा गुणवत्ता की संभावना होती है। फिर हम एक विशिष्ट प्रकार के वाहकों का उपयोग करके उत्पन्न PT-AE के लिए हस्तांतरणीयता-धारणा अनुपात (TPR) नामक एक नया मीट्रिक परिभाषित करते हैं। यह मीट्रिक उनकी मिलान दर और औसत धारणा स्कोर पर आधारित है, और यह हस्तांतरणीयता के स्तर को मापता है जो एक वाहक प्रकार मानव धारणा के एक इकाई स्कोर को कम करने में प्राप्त कर सकता है। एक उच्च TPR की व्याख्या धारणा गिरावट की अपेक्षाकृत कम लागत से प्राप्त उच्च हस्तांतरणीयता के रूप में की जा सकती है।


(i) क्वेरीज़: ब्लैकबॉक्स लक्ष्य मॉडल के साथ बातचीत करने के लिए जांच की सामान्य संख्या को इंगित करना। (ii) सॉफ्ट लेवल: लक्ष्य मॉडल से विश्वास स्कोर [32] या भविष्यवाणी स्कोर [101], [105], [32], [29], [113]। (iii) हार्ड लेबल: लक्ष्य मॉडल से परिणाम [118], [74] को स्वीकार या अस्वीकार करें। (iv) QFA2SR [30] को लक्ष्य मॉडल में प्रत्येक नामांकित वक्ता के भाषण नमूने की आवश्यकता होती है। (v) मानव धारणा का अर्थ है एई पीढ़ी में मानव धारणा कारक को एकीकृत करना।

(i) क्वेरीज़: ब्लैकबॉक्स लक्ष्य मॉडल के साथ बातचीत करने के लिए जांच की सामान्य संख्या को इंगित करना। (ii) सॉफ्ट लेवल: लक्ष्य मॉडल से विश्वास स्कोर [32] या भविष्यवाणी स्कोर [101], [105], [32], [29], [113]। (iii) हार्ड लेबल: लक्ष्य मॉडल से परिणाम [118], [74] को स्वीकार या अस्वीकार करें। (iv) QFA2SR [30] को लक्ष्य मॉडल में प्रत्येक नामांकित वक्ता के भाषण नमूने की आवश्यकता होती है। (v) मानव धारणा का अर्थ है एई पीढ़ी में मानव धारणा कारक को एकीकृत करना।


टीपीआर ढांचे के तहत, हम दो-चरणीय पीटीएई हमला तैयार करते हैं जिसे ब्लैक-बॉक्स लक्ष्य मॉडल के खिलाफ हवा में लॉन्च किया जा सकता है। पहले चरण में, हम वाहकों के एक पूरे सेट से हमलावर के लक्षित वक्ता के लिए उच्च टीपीआर वाले उम्मीदवारों के एक उपसमूह तक सीमित हो जाते हैं। दूसरे चरण में, हम एक समूह सीखने-आधारित सूत्रीकरण [76] को अपनाते हैं जो पहले चरण से सर्वश्रेष्ठ वाहक उम्मीदवारों का चयन करता है और हमले की प्रभावशीलता और मानव धारणा के संयुक्त नुकसान उद्देश्य को कम करने के लिए उनकी श्रवण विशेषताओं में हेरफेर करता है। वास्तविक दुनिया के प्रयोगों से पता चलता है कि प्रस्तावित पीटी-एई हमला डिजिटल-लाइन परिदृश्य में ओपन-सोर्स मॉडल के खिलाफ 45.8% -80.8% की सफलता दर प्राप्त करता है और ओवर-द-एयर परिदृश्य में ऐप्पल होमपॉड (सिरी), अमेज़ॅन इको और Google होम सहित स्मार्ट उपकरणों के खिलाफ 47.9% -58.3% है। दो हालिया हमले की रणनीतियों स्मैक [113] और क्यूएफए2एसआर [30] की तुलना में, हमारी रणनीति स्मैक पर 263.7% (हमले की सफलता) और 10.7% (मानव धारणा स्कोर) और क्यूएफए2एसआर पर 95.9% (हमले की सफलता) और 44.9% (मानव धारणा स्कोर) का सुधार हासिल करती है। तालिका I प्रस्तावित पीटी-एई हमले और मौजूदा रणनीतियों के बीच आवश्यक ज्ञान की तुलना प्रदान करती है।


हमारे प्रमुख योगदान को संक्षेप में इस प्रकार बताया जा सकता है। (i) हम पीटी मॉडल की एक नई अवधारणा का प्रस्ताव करते हैं और लक्षित वक्ता के केवल एक वाक्य के भाषण के ज्ञान के साथ हमलावर के लिए एक सरोगेट मॉडल बनाने के लिए तोता भाषण के नमूने उत्पन्न करने के लिए अत्याधुनिक वीसी विधियों की जांच करते हैं। (ii) हम विभिन्न प्रकार के वाहकों के साथ पीटी-एई पीढ़ियों के लिए हस्तांतरणीयता और अवधारणात्मक गुणवत्ता का संयुक्त रूप से मूल्यांकन करने के लिए एक नया टीपीआर ढांचा प्रस्तावित करते हैं। (iii) हम एक दो-चरणीय पीटी-एई हमला रणनीति बनाते हैं जो मौजूदा हमले की रणनीतियों की तुलना में अधिक प्रभावी साबित हुई है, जबकि हमलावर के ज्ञान के न्यूनतम स्तर की आवश्यकता होती है।


यह पेपर CC0 1.0 DEED लाइसेंस के अंतर्गत arxiv पर उपलब्ध है।


[1] हमारा हमला डेमो यहां पाया जा सकता है: https://sites.google.com/view/pt-attack-demo

L O A D I N G
. . . comments & more!

About Author

BotBeat.Tech: Trusted Generative AI Research Firm HackerNoon profile picture
BotBeat.Tech: Trusted Generative AI Research Firm@botbeat
"BotBeat is an AI Research Goldmine" - said real person talking to a bot on Twitter/X/Gronk/WhateverWeAreCallingIt

लेबल

इस लेख में चित्रित किया गया था...

Read on Terminal Reader
Read this story in a terminal
 Terminal
Read this story w/o Javascript
Read this story w/o Javascript
 Lite
Also published here
X REMOVE AD