paint-brush
Konuşmacının Tanınmasını ve Tartışmalı Konuşma Saldırılarını Anlamakile@botbeat
286 okumalar

Konuşmacının Tanınmasını ve Tartışmalı Konuşma Saldırılarını Anlamak

ile BotBeat.Tech: Trusted Generative AI Research Firm
BotBeat.Tech: Trusted Generative AI Research Firm HackerNoon profile picture

BotBeat.Tech: Trusted Generative AI Research Firm

@botbeat

"BotBeat is an AI Research Goldmine" - said real person...

5 dk. read2024/06/11
Read on Terminal Reader
Read this story in a terminal
Print this story

Çok uzun; Okumak

Papağan eğitimi, minimum düzeyde bilgi kullanarak ve araştırma ihtiyacını ortadan kaldırarak, konuşmacı tanıma sistemlerine yönelik kara kutu ses saldırılarına karşı pratik bir yaklaşım sunar. Bu yöntem, yüksek aktarılabilirliğe ve iyi algı kalitesine sahip, etkili ses karşıt örnekleri oluşturmak için kısa bir konuşma örneğinden yararlanır.
featured image - Konuşmacının Tanınmasını ve Tartışmalı Konuşma Saldırılarını Anlamak
BotBeat.Tech: Trusted Generative AI Research Firm HackerNoon profile picture
BotBeat.Tech: Trusted Generative AI Research Firm

BotBeat.Tech: Trusted Generative AI Research Firm

@botbeat

"BotBeat is an AI Research Goldmine" - said real person talking to a bot on Twitter/X/Gronk/WhateverWeAreCallingIt

0-item

STORY’S CREDIBILITY

Academic Research Paper

Academic Research Paper

Part of HackerNoon's growing list of open-source research papers, promoting free access to academic material.

Yazarlar:

(1) Rui Duan Üniversitesi, Güney Florida Tampa, ABD (e-posta: ruiduan@usf.edu);

(2) Zhe Qu Merkez Güney Üniversitesi Changsha, Çin (e-posta: zhe_qu@csu.edu.cn);

(3) Leah Ding Amerikan Üniversitesi Washington, DC, ABD (e-posta: ding@american.edu);

(4) Güney Florida Tampa Yao Liu Üniversitesi, ABD (e-posta: yliu@cse.usf.edu);

(5) Güney Florida Tampa Yao Liu Üniversitesi, ABD (e-posta: yliu@cse.usf.edu).

Bağlantı Tablosu

Özet ve Giriş

Arka Plan ve Motivasyon

Papağan Eğitimi: Fizibilite ve Değerlendirme

PT-AE Üretimi: Ortak Aktarılabilirlik ve Algı Perspektifi

Optimize Edilmiş Kara Kutu PT-AE Saldırıları

Deneysel Değerlendirmeler

Alakalı iş

Sonuç ve Referanslar

Ek

II. ARKA PLAN VE MOTİVASYON

Bu bölümde, öncelikle konuşmacı tanımanın arka planını tanıtacağız, ardından konuşmacı tanımaya karşı ses AE'leri oluşturmak için kara kutuya yönelik saldırı formülasyonlarını açıklayacağız.


A. Konuşmacının Tanınması


Konuşmacı tanıma son yıllarda giderek daha popüler hale geliyor. Makinelere, arama ve mesajlaşma için uygun oturum açma [4] ve kişiselleştirilmiş deneyim [1] gibi kişiselleştirilmiş hizmetler sağlayabilen, konuşmacıyı kişisel konuşma özellikleri aracılığıyla tanımlama yeteneği kazandırır. Genellikle konuşmacı tanıma görevi üç aşamadan oluşur: eğitim, kayıt ve tanınma. Konuşmacı tanıma görevlerinin [29], [118], [113] (i) çoklu konuşmacı tabanlı konuşmacı tanımlama (SI) veya (ii) tek konuşmacı tabanlı konuşmacı doğrulama (SV) olabileceğini vurgulamak önemlidir. . Özellikle SI, yakın küme tanımlama (CSI) ve açık küme tanımlama (OSI) olarak ikiye ayrılabilir [39], [29]. Ek A'da ayrıntılı bilgi veriyoruz.


B. Düşmanca Konuşma Saldırıları


Orijinal konuşma sinyali x'in girdisini alan ve konuşmacının etiketi y'yi çıkaran bir konuşmacı tanıma fonksiyonu f verildiğinde, saldırgan bir saldırgan, bir ses AE x + δ oluşturmak için küçük bir pertürbasyon sinyali δ ∈ Ω bulmayı hedefler.


f(x + δ) = yt, D(x, x + δ) ≤ ϵ, (1)


burada yt ̸= y saldırganın hedef etiketidir; Ω, δ'nın arama alanıdır; D(x, x + δ), orijinal konuşma x ile bozulmuş konuşma x+δ arasındaki farkı ölçen bir mesafe fonksiyonudur ve Lp normuna dayalı mesafe [29], [118] veya işitsel özellik farkının bir ölçüsü olabilir (örneğin, qDev [44] ve NISQA [113]); ve ϵ, x'ten x + δ'ya değişimi sınırlar.


(1)’i çözmek için yaygın bir beyaz kutu saldırı formülasyonu [28], [72] şu şekilde yazılabilir:


image


burada J(·, ·), saldırgan tarafından bilindiği varsayılan, x + δ girdisini yt hedef etiketiyle ilişkilendirirken f sınıflandırıcısındaki tahmin kaybıdır; ve c, saldırı etkinliğini ve orijinal konuşmanın değişimini dengeleyen bir faktördür.


Bir kara kutu saldırısı (2)'deki J (·, ·) bilgisine sahip değildir ve bu nedenle f sınıflandırıcısından elde edebileceği diğer bilgilere bağlı olarak farklı türde bir formülasyon benimsemek zorundadır. Eğer saldırı, ikili (kabul veya red) sonucu veren sınıflandırıcıyı araştırabiliyorsa, saldırı [118], [74] şu şekilde formüle edilebilir:


image


(3) f(x + δ) içerdiğinden, saldırganın sürekli olarak farklı bir δ versiyonunu oluşturmak ve başarılı olana kadar f(x + δ) sonucunu ölçmek için bir araştırma stratejisi oluşturması gerekir. Buna göre, çok sayıda sonda (örneğin 10.000'in üzerinde [118]) gereklidir, bu da gerçek dünyadaki saldırıları, havadan konuşma sinyallerini kabul eden ticari konuşmacı tanıma modellerine karşı daha az pratik hale getirir.


Şekil 1: Kara kutu saldırısına dayalı papağan eğitimi prosedürü.

Şekil 1: Kara kutu saldırısına dayalı papağan eğitimi prosedürü.


C. Tasarım Motivasyonu


Kara kutu saldırısının hantal araştırma sürecinin üstesinden gelmek için, pratik kara kutu saldırıları oluşturmanın alternatif bir yolunu bulmayı hedefliyoruz. Bir sınıflandırıcının herhangi bir bilgisini araştırmadan veya bilmeden bir kara kutu saldırısının mümkün olmadığı gerçeği göz önüne alındığında, saldırganın hedef konuşmacının çok kısa bir ses örneğine sahip olduğu yönünde [118]'de kullanılan bir ön bilgi varsayımını benimsiyoruz (not edin: [118] bu bilgiye ek olarak hedef modeli araştırmalıdır). Bu varsayım, saldırganın sınıflandırıcının iç bilgilerini bilmesini sağlamaktan daha pratiktir. Bu sınırlı bilgi göz önüne alındığında, araştırma sürecini ortadan kaldırmayı ve etkili AE'ler oluşturmayı hedefliyoruz.


image


image


Mevcut çalışmalar, temel gerçek eğitimli AE'ler (GT-AE'ler) ile ilgili çok çeşitli yönlere odaklanmıştır. Papağan konuşması ve papağan eğitimi kavramları, yeni bir tür AE'ler, papağan eğitimli AE'ler (PT-AE'ler) yaratır ve ayrıca PT-AE'lerin pratik bir kara kutu saldırısına yönelik fizibilitesine ve etkinliğine ilişkin üç ana soruyu gündeme getirir: (i) ) Bir PT modeli GT modeline yaklaşabilir mi? (ii) PT modeli üzerine kurulu PT-AE'ler, kara kutu GT modeline karşı GT-AE'ler kadar aktarılabilir mi? (iii) Etkili bir kara kutu saldırısına yönelik PT-AE'lerin üretimi nasıl optimize edilir? Şekil 1, bu soruları yeni, pratik ve araştırma gerektirmeyen bir kara kutu saldırısına yönelik olarak ele almamız için genel prosedürü göstermektedir: (1) Bölüm III'te papağan eğitimi için papağan konuşması oluşturmak amacıyla iki adımlı tek seferlik bir dönüştürme yöntemi öneriyoruz; (2) Bölüm IV'te aktarılabilirlikleri ve algı kaliteleri açısından bir PT modelinden farklı PT-AE nesillerini inceliyoruz; ve (3) Bölüm V'te PT-AE'lere dayalı olarak optimize edilmiş bir kara kutu saldırısı formüle ediyoruz. Ardından, Bölüm VI'da önerilen saldırının ticari ses sistemleri üzerindeki etkisini anlamak için kapsamlı değerlendirmeler gerçekleştiriyoruz.


D. Tehdit Modeli


Bu yazıda, modelin AE'yi hedef konuşmacının sesi olarak tanıyacağı şekilde konuşmacı tanıma modelini kandırmak için ses AE oluşturmaya çalışan bir saldırganı ele alıyoruz. Saldırganın konuşma tanıma modelinde kullanılan mimari, parametreler ve eğitim verileri hakkında hiçbir bilgiye sahip olmadığı varsayımını kara kutu saldırısı olarak kabul ediyoruz. Saldırganın, hedef konuşmacının halka açık ortamlarda toplanabilecek çok kısa bir konuşma örneğine (değerlendirmelerimizde birkaç saniye) sahip olduğunu varsayıyoruz [118], ancak örneğin hedef modelde eğitim için kullanılması zorunlu değildir. Birçok araştırma gerektiren kara kutu saldırı çalışmalarından [113], [29], [118] farklı olarak, saldırganın modeli araştırmadığı daha gerçekçi bir senaryoya odaklanıyoruz. Saldırganın modele (örneğin, Amazon Echo, Apple HomePod ve Google Assistant) kablosuz enjeksiyonu başlatması gerektiğini varsayıyoruz.



L O A D I N G
. . . comments & more!

About Author

BotBeat.Tech: Trusted Generative AI Research Firm HackerNoon profile picture
BotBeat.Tech: Trusted Generative AI Research Firm@botbeat
"BotBeat is an AI Research Goldmine" - said real person talking to a bot on Twitter/X/Gronk/WhateverWeAreCallingIt

ETİKETLERİ ASIN

BU YAZI...

Read on Terminal Reader
Read this story in a terminal
 Terminal
Read this story w/o Javascript
Read this story w/o Javascript
 Lite
Also published here
X REMOVE AD