লেখক:  (1) Rui Duan University of South Florida Tampa, USA (ইমেল: ruiduan@usf.edu);  (2) Zhe Qu Central South University Changsha, China (ইমেইল: zhe_qu@csu.edu.cn);  (3) Leah Ding American University Washington, DC, USA (ইমেইল: ding@american.edu);  (4) ইয়াও লিউ ইউনিভার্সিটি অফ সাউথ ফ্লোরিডা টাম্পা, ইউএসএ (ইমেল: yliu@cse.usf.edu);  (5) Yao Liu University of South Florida Tampa, USA (ইমেল: yliu@cse.usf.edu)।  লিঙ্কের টেবিল   বিমূর্ত এবং ভূমিকা   পটভূমি এবং প্রেরণা   তোতা প্রশিক্ষণ: সম্ভাব্যতা এবং মূল্যায়ন   PT-AE জেনারেশন: একটি যৌথ স্থানান্তরযোগ্যতা এবং উপলব্ধি দৃষ্টিকোণ   অপ্টিমাইজ করা ব্ল্যাক-বক্স PT-AE আক্রমণ   পরীক্ষামূলক মূল্যায়ন   সম্পর্কিত কাজ   উপসংহার এবং রেফারেন্স   পরিশিষ্ট  ২. পটভূমি এবং প্রেরণা  এই বিভাগে, আমরা প্রথমে স্পিকার স্বীকৃতির পটভূমির পরিচয় করিয়ে দিই, তারপর স্পিকার স্বীকৃতির বিরুদ্ধে অডিও AE তৈরি করতে ব্ল্যাক-বক্সের প্রতিপক্ষ আক্রমণের সূত্রগুলি বর্ণনা করি।   উ: স্পিকার স্বীকৃতি  সাম্প্রতিক বছরগুলিতে স্পিকার স্বীকৃতি আরও বেশি জনপ্রিয় হয়ে উঠেছে। এটি মেশিনগুলিকে তার ব্যক্তিগত বক্তৃতা বৈশিষ্ট্যের মাধ্যমে একজন স্পিকারকে সনাক্ত করার ক্ষমতা নিয়ে আসে, যা কলিং এবং মেসেজিংয়ের জন্য সুবিধাজনক লগইন [4] এবং ব্যক্তিগতকৃত অভিজ্ঞতা [1] এর মতো ব্যক্তিগতকৃত পরিষেবা সরবরাহ করতে পারে। সাধারণত, স্পিকার স্বীকৃতির কাজটি তিনটি পর্যায় অন্তর্ভুক্ত করে: প্রশিক্ষণ, তালিকাভুক্তি এবং স্বীকৃতি। এটি হাইলাইট করা গুরুত্বপূর্ণ যে স্পিকার স্বীকৃতির কাজগুলি [29], [118], [113] হতে পারে (i) একাধিক-স্পীকার-ভিত্তিক স্পিকার সনাক্তকরণ (SI) বা (ii) একক-স্পীকার-ভিত্তিক স্পিকার যাচাইকরণ (SV) . বিশেষ করে, এসআইকে ক্লোজ-সেট আইডেন্টিফিকেশন (সিএসআই) এবং ওপেন-সেট আইডেন্টিফিকেশন (ওএসআই) [৩৯], [২৯] এ ভাগ করা যায়। আমরা পরিশিষ্ট A-তে বিস্তারিত তথ্য প্রদান করি।   B. প্রতিপক্ষের বক্তৃতা আক্রমণ  একটি স্পিকার স্বীকৃতি ফাংশন দেওয়া f, যা মূল স্পিচ সিগন্যাল x এর একটি ইনপুট নেয় এবং একটি স্পিকারের লেবেল y আউটপুট করে, একজন প্রতিপক্ষ আক্রমণকারী একটি অডিও AE x + δ তৈরি করার জন্য একটি ছোট বিভ্রান্তি সংকেত δ ∈ Ω খুঁজে বের করার লক্ষ্য রাখে  f(x + δ) = yt, D(x, x + δ) ≤ ϵ, (1)  যেখানে yt ̸= y হল আক্রমণকারীর টার্গেট লেবেল; Ω হল δ এর জন্য অনুসন্ধান স্থান; D(x, x + δ) একটি দূরত্ব ফাংশন যা মূল বক্তৃতা x এবং বিরক্তিকর বক্তৃতা x+δ এর মধ্যে পার্থক্য পরিমাপ করে এবং Lp আদর্শ ভিত্তিক দূরত্ব [29], [118] বা শ্রবণ বৈশিষ্ট্য পার্থক্যের একটি পরিমাপ হতে পারে (যেমন, qDev [44] এবং NISQA [113]); এবং ϵ x থেকে x + δ পরিবর্তনকে সীমাবদ্ধ করে।  একটি সাধারণ সাদা-বক্স আক্রমণ ফর্মুলেশন [28], [72] সমাধান করার জন্য (1) হিসাবে লেখা যেতে পারে   যেখানে J (·, ·) হল শ্রেণীবদ্ধকারী f-এর পূর্বাভাস ক্ষতি যখন লক্ষ্য লেবেল yt-এর সাথে ইনপুট x + δ যুক্ত করা হয়, যা আক্রমণকারীর দ্বারা পরিচিত বলে ধরে নেওয়া হয়; এবং c হল আক্রমণের কার্যকারিতা এবং মূল বক্তৃতার পরিবর্তনের ভারসাম্য বজায় রাখার একটি ফ্যাক্টর।  একটি ব্ল্যাক-বক্স আক্রমণের (2) মধ্যে J (·, ·) সম্পর্কে কোনো জ্ঞান থাকে না এবং এইভাবে শ্রেণীবিন্যাসকারী f থেকে অন্য কী তথ্য পেতে পারে তার উপর নির্ভর করে একটি ভিন্ন ধরনের ফর্মুলেশন গ্রহণ করতে হয়। যদি আক্রমণটি একটি বাইনারি (স্বীকার বা প্রত্যাখ্যান) ফলাফল দেয় এমন শ্রেণীবিভাগকে তদন্ত করতে পারে তবে আক্রমণ [118], [74] হিসাবে প্রণয়ন করা যেতে পারে   যেহেতু (3) f(x + δ) ধারণ করে, আক্রমণকারীকে ক্রমাগত δ এর একটি ভিন্ন সংস্করণ তৈরি করতে এবং সফল না হওয়া পর্যন্ত f(x + δ) এর ফলাফল পরিমাপ করার জন্য একটি অনুসন্ধানী কৌশল তৈরি করতে হবে। তদনুসারে, প্রচুর সংখ্যক প্রোবের (যেমন, 10,000 টিরও বেশি [118]) প্রয়োজন, যা বায়ুতে বক্তৃতা সংকেত গ্রহণকারী বাণিজ্যিক স্পিকার স্বীকৃতি মডেলগুলির বিরুদ্ধে বাস্তব-বিশ্বের আক্রমণগুলিকে কম ব্যবহারিক করে তোলে।    গ. ডিজাইন মোটিভেশন  একটি ব্ল্যাকবক্স আক্রমণের জটিল অনুসন্ধান প্রক্রিয়াকে অতিক্রম করতে, আমরা ব্যবহারিক ব্ল্যাক-বক্স আক্রমণ তৈরি করার বিকল্প উপায় খুঁজে বের করার লক্ষ্য রাখি। একটি ব্ল্যাক-বক্স আক্রমণ একটি শ্রেণীবিভাগের কোনো জ্ঞান অনুসন্ধান বা জানা ছাড়া সম্ভব নয় এই বিষয়টির পরিপ্রেক্ষিতে, আমরা [118] এ ব্যবহৃত পূর্বের জ্ঞানের একটি অনুমান গ্রহণ করি যে আক্রমণকারীর লক্ষ্য স্পিকারের একটি খুব ছোট অডিও নমুনা রয়েছে (উল্লেখ্য যে [118] এই জ্ঞান ছাড়াও লক্ষ্য মডেল তদন্ত করতে হবে)। এই অনুমান আক্রমণকারীকে শ্রেণীবদ্ধকারীর অভ্যন্তরীণ জানার চেয়ে বেশি ব্যবহারিক। এই সীমিত জ্ঞানের পরিপ্রেক্ষিতে, আমরা অনুসন্ধান প্রক্রিয়া অপসারণ এবং কার্যকর AE তৈরি করার লক্ষ্য রাখি।   বিদ্যমান অধ্যয়নগুলি গ্রাউন্ড-ট্রুথ প্রশিক্ষিত AEs (GT-AEs) সম্পর্কিত বিস্তৃত দিকের উপর দৃষ্টি নিবদ্ধ করেছে। তোতাপাখির বক্তৃতা এবং তোতা প্রশিক্ষণের ধারণাগুলি একটি নতুন ধরণের AE, তোতা-প্রশিক্ষিত AEs (PT-AEs) তৈরি করে এবং একটি ব্যবহারিক ব্ল্যাক-বক্স আক্রমণের দিকে PT-AE-এর সম্ভাব্যতা এবং কার্যকারিতার তিনটি প্রধান প্রশ্নও উত্থাপন করে: (i ) একটি PT মডেল একটি GT মডেল আনুমানিক হতে পারে? (ii) PT-AEs কি একটি PT মডেলের উপর নির্মিত ব্ল্যাক-বক্স GT মডেলের বিপরীতে GT-AEs হিসাবে স্থানান্তরযোগ্য? (iii) একটি কার্যকর ব্ল্যাক-বক্স আক্রমণের দিকে PT-AE-এর প্রজন্মকে কীভাবে অপ্টিমাইজ করা যায়? চিত্র 1 একটি নতুন, ব্যবহারিক এবং ননপ্রবিং ব্ল্যাক-বক্স আক্রমণের দিকে এই প্রশ্নগুলি মোকাবেলা করার জন্য আমাদের জন্য সামগ্রিক পদ্ধতি দেখায়: (1) আমরা বিভাগ III-তে তোতাপাখি প্রশিক্ষণের জন্য তোতা স্পিচ তৈরি করার জন্য একটি দুই-পদক্ষেপের এক-শট রূপান্তর পদ্ধতির প্রস্তাব করি; (2) আমরা বিভাগ IV-তে তাদের স্থানান্তরযোগ্যতা এবং উপলব্ধি গুণমানের বিষয়ে একটি PT মডেল থেকে বিভিন্ন ধরনের PT-AE প্রজন্মের অধ্যয়ন করি; এবং (3) আমরা বিভাগ V-এ PT-AE-এর উপর ভিত্তি করে একটি অপ্টিমাইজড ব্ল্যাকবক্স আক্রমণ তৈরি করি। তারপর, বিভাগ VI-তে বাণিজ্যিক অডিও সিস্টেমের উপর প্রস্তাবিত আক্রমণের প্রভাব বোঝার জন্য আমরা ব্যাপক মূল্যায়ন করি।   D. হুমকি মডেল  এই কাগজে, আমরা একজন আক্রমণকারীকে বিবেচনা করি যে একটি অডিও AE তৈরি করার চেষ্টা করে একটি স্পিকার স্বীকৃতি মডেলকে বোকা বানানোর জন্য যাতে মডেলটি AE কে লক্ষ্য স্পিকারের ভয়েস হিসাবে স্বীকৃতি দেয়। আমরা একটি ব্ল্যাক-বক্স আক্রমণ অনুমান গ্রহণ করি যে আক্রমণকারীর স্পিচ রিকগনিশন মডেলে ব্যবহৃত আর্কিটেকচার, প্যারামিটার এবং প্রশিক্ষণের ডেটা সম্পর্কে কোন জ্ঞান নেই। আমরা অনুমান করি যে আক্রমণকারীর লক্ষ্য স্পিকারের একটি খুব সংক্ষিপ্ত বক্তৃতা নমুনা (আমাদের মূল্যায়নে কয়েক সেকেন্ড) রয়েছে, যা সর্বজনীন সেটিংসে সংগ্রহ করা যেতে পারে [118], তবে নমুনাটি লক্ষ্য মডেলের প্রশিক্ষণের জন্য অগত্যা ব্যবহার করা হয় না। আমরা একটি আরও বাস্তবসম্মত দৃশ্যের উপর ফোকাস করি যেখানে আক্রমণকারী মডেলটি তদন্ত করে না, যা বেশিরভাগ ব্ল্যাক-বক্স আক্রমণ গবেষণা থেকে আলাদা [১১৩], [২৯], [১১৮] যার জন্য অনেক অনুসন্ধানের প্রয়োজন হয়। আমরা অনুমান করি যে আক্রমণকারীকে মডেলের বিরুদ্ধে ওভার-দ্য-এয়ার ইনজেকশন চালু করতে হবে (যেমন, Amazon Echo, Apple HomePod, এবং Google Assistant)।  এই কাগজটি CC0 1.0 DEED লাইসেন্সের অধীনে   । arxiv-এ উপলব্ধ

Part of HackerNoon's growing list of open-source research papers, promoting free access to academic material.

Read My Stories

BotBeat is an AI Research Goldmine - said real person talking to a bot on Twitter/X/Gronk/WhateverWeAreCallingIt

BotBeat's Blog

গল্পের মূল ভাষায় এই অডিও তৈরি!

স্পিকার স্বীকৃতি এবং প্রতিপক্ষের বক্তৃতা আক্রমণ বোঝা

About Author

মন্তব্য

আসে ট্যাগ

এই নিবন্ধটি উপস্থাপন করা হয়েছে

Related Stories

বোল্টজম্যান ব্রেন থিওরির একটি সংক্ষিপ্ত ভূমিকা

এই 18টি ডেভেলপার টুল 🚀🔥 দিয়ে আপনার উৎপাদনশীলতা বাড়ান

বিটকয়েন UTXO এর মডেল, একটি অনন্য ইকোসিস্টেমকে শক্তিশালী করে

অদেখা স্তরগুলি: কেন ব্যবহারকারীর সাক্ষাত্কারগুলি একটি অপরিবর্তনীয় সম্পদ

বোল্টজম্যান ব্রেন থিওরির একটি সংক্ষিপ্ত ভূমিকা

এই 18টি ডেভেলপার টুল 🚀🔥 দিয়ে আপনার উৎপাদনশীলতা বাড়ান

বিটকয়েন UTXO এর মডেল, একটি অনন্য ইকোসিস্টেমকে শক্তিশালী করে

অদেখা স্তরগুলি: কেন ব্যবহারকারীর সাক্ষাত্কারগুলি একটি অপরিবর্তনীয় সম্পদ

Light-Mode

Classic

Newspaper

Minty

Dark-Mode

Neon Noir

Minty

HN StartUps