Tabelul din stânga Abstract and Introduction Background & Related Work 2.1 Text-to-Image Diffusion Model 2.2 Watermarking Techniques 2.3 Preliminary 2.3.1 [Problem Statement](https://hackernoon.com/preview/2x1yHRqHVmhjmOG0ig2c) 2.3.2 [Assumptions](https://hackernoon.com/preview/2x1yHRqHVmhjmOG0ig2c) 2.4 Methodology 2.4.1 [Research Problem](https://hackernoon.com/preview/2x1yHRqHVmhjmOG0ig2c) 2.4.2 [Design Overview](https://hackernoon.com/preview/2x1yHRqHVmhjmOG0ig2c) 2.4.3 [Instance-level Solution](https://hackernoon.com/preview/2x1yHRqHVmhjmOG0ig2c) 2.5 Statistical-level Solution Experimental Evaluation 3.1 Settings 3.2 Main Results 3.3 Ablation Studies 3.4 Conclusion & References 2 Fundal și lucrări conexe 2.1 Modelul de difuzie text-imagine În general, un model de date text-to-imagine este un tip de model generativ condiționat care urmărește să creeze imagini bazate pe descrieri text prin modele generative. Acestea sunt instruite cu date sub formă de perechi de imagini-text. În acest document, luăm modelul text-to-imagine de stat-of-theart, adică Modulul Stable Diffusion (SD) [17], pentru a prototipa metoda noastră. Cu toate acestea, rețineți că abordarea noastră poate fi aplicată pentru a proteja alte tipuri de modele. Difuzia stabilă (SD) [17] este un model tipic de difuzie latentă (LDM). SD conține în principal trei module: (1) Modulul de codificare a textului W : ia o promptă text P, și o codifică în modelul corespunz Obiectivul pentru învățarea unui astfel de model de difuzie condiționată (pe baza perechilor de formare imagine-condiție (x, c)) este după cum urmează: După denotizare, reprezentarea latentă z este decodificată într-o imagine de către D. 2.2 Tehnici de marcare a apei Studiile recente sugerează utilizarea tehnicilor de marcare a apei ca o apărare împotriva utilizării necorespunzătoare a datelor generate. Aceste tehnici ajută la identificarea modelelor copie-paste [11, 28] sau a modelelor supuse atacurilor de extracție [8, 13]. De obicei, aceste watermarks sunt încorporate fie în model în timpul fazei de formare, fie în ieșire în timpul fazei de generare. O abordare comună implică utilizarea declanșatoarelor din spate ca semnalizatoare de apă. Acest lucru ajută la identificarea modelelor care reutilizează direct greutățile modelului sursă [1]. Studii recente au arătat, de asemenea, că modelele de difuzie text-imagine pot fi vulnerabile la atacuri din spate [4, 5, 11, 24, 28]. Cu toate acestea, aceste semnalizatoare de apă bazate pe declanșatoare pot fi ușor eliminate în timpul atacurilor de extracție a modelului datorită greutății scurte și ascunderii ușii din spate. Pentru a combate acest lucru, Jia et al. [8] au sugerat intertwining reprezentări extrase din datele de instruire cu semnalizatoare de apă. Lv et al. [13] au avansat această idee pentru modelele de învățare auto- Watermarking during the training phase. Aceasta implică modificarea ieșirilor modelului pentru a încorpora semnele de apă unice ale proprietarului modelului. Pentru modelele de generare a codului bazate pe LLM, Li et al. [10] au proiectat semnele de apă speciale prin înlocuirea tokenilor din codul generat cu alternative sinonime din limba de programare. Watermarking during generation phase. În prezent, tehnicile de marcare a apei nu au fost încă explorate pentru potențialul lor de a aborda sarcina de atribuire a datelor de instruire (a se vedea secțiunea 4.1). În plus, aplicarea acestor tehnici poate duce la o scădere a calității datelor generate de model [28]. Mai mult, aceste tehnici ar putea reduce calitatea datelor generate de model [28], și de multe ori necesită cunoștințe de securitate specializate pentru implementare în timpul dezvoltării modelului. 2.3 Preliminare 2.3.1 Declarația de problemă Denotăm modelul sursă text-to-image bine instruit ca MS. Modelul sursă este instruit cu un număr mare de perechi de „text-imagine” de înaltă calitate, denotate ca {TXTt, IMGt }. În timpul fazei de inferență, acesta poate genera un img, dat fiind un text prompt txt, adică, Model de sursă. Un adversar agresiv ar putea încerca să-și antreneze modelul text-to-image pentru a oferi servicii online pentru câștiguri economice. Adversarul poate obține cu ușurință o arhitectură de model open-source, care poate fi aceeași cu modelul sursă sau nu poate fi. Adversarul nu are suficiente perechi de "text-imagine" de înaltă calitate pentru a instrui un model satisfăcător. El poate pregăti setul de date de instruire în felul următor. Adversarul pregătește un set de texte TXTA și solicită MS cu setul de text și colectează IMGA corespunzător generat de MS. Apoi, adversarul își pregătește modelul MA cu perechii de date generate. Model de încălcare agresivă adversarul abuzează de datele generate, iar dreptul modelului sursă este încălcat. Rețineți că atunci când ρ este egal cu 1, adversarul neobservabil devine adversarul agresiv. Prin urmare, pentru simplitate, folosim următoarele notații pentru a reprezenta aceste două tipuri de adversari, adică, Pentru o relatare riguroasă, definim un model nevinovat, denumit MIn, care oferă servicii similare cu modelul sursă, dar datele sale de instruire nu au nicio legătură cu datele generate de MS. Un model nevinovat. 2.2 Presupuneri Aici facem câteva ipoteze rezonabile pentru a ilustra mai bine scenariul nostru de lucru. Arhitectura modelului și algoritmul de instruire al modelului MS pot fi open-source. Proprietarul modelului sursă MS nu are nici o cunoaștere de securitate, astfel încât nici nu watermarks orice date de instruire în timpul modelului de instruire și nici nu modifică modelul de ieșire în faza de inferență pentru scopuri de watermarking. Întrebarea cea mai mare preocupare pentru proprietarul modelului, așa cum se arată în Figura 2 este dacă datele generate de MS au fost folosite pentru a instrui un alt model. About the source model and its owner. Ipotezăm că procesul de formare a modelului sursă ar putea implica atât date accesibile publicului, cât și date private. Acest document discută atribuirea datelor generate relevante pentru datele private. Modelul suspect M se află într-o cutie neagră. Modelul suspect poate împărtăși aceeași arhitectură de model ca și modelul sursă. Funcționalitatea modelului suspect este, de asemenea, furnizată, ceea ce este necesar pentru ca un utilizator obișnuit să utilizeze modelul suspect. Acesta oferă doar o interfață de interogare pentru utilizatori pentru a efectua ancheta. About the suspicious model. 2.4 Metodologie 4.1 Probleme de cercetare Definim sarcina de a "determina dacă o bucată de date este generată de un anumit model" ca o atribuire a datelor cu un singur salt. Această idee este ilustrată în Figura 3. Atribuirea datelor cu un singur salt câștigă atenție atât în mediul academic [11, 28] cât și în cercurile din industrie [16, 17]. Verificarea prezenței unui anumit semn de apă pe datele generate este o procedură comună de atribuire a datelor cu un singur salt. Lucrarea noastră se concentrează pe atribuirea cu două lovituri, adică scopul nostru este de a determina dacă Modelul B a fost antrenat utilizând datele generate de Modelul A. În această setare, datele generate de Modelul A nu pot fi enumerate, iar datele generate nu sunt încorporate cu watermarks. În comparație cu eforturile existente, lucrarea noastră abordează o sarcină mai dificilă în cadrul unui scenariu de generare din lumea reală. În primul rând, investigăm un model de amenințare mai realist. Considerăm nu numai modelul agresiv de încălcare, ci și o setare imperceptibilă. Argumentăm că setarea imperceptibilă este mai răspândită, mai ales atunci când mulți dezvoltatori pot colecta doar o cantitate mică de date pentru a-și ajusta modelele în loc de formare de la zero. În al doilea rând, examinăm subiecte mai complexe. Studiile anterioare au explorat modele sursă cu rețele simple GAN, iar modelul suspect a fost un model de clasificare cu vocabular închis. Cu toate acestea, în studiul nostru, atât modelul s 2.4.2 Prezentare generală a designului După cum este ilustrat în Figura 3, în contextul de atribuire cu două lovituri, datele generate utilizate pentru a instrui Modelul B sunt agnostice. Prin urmare, pentru a rezolva atribuirea datelor cu două lovituri, trebuie să stabilim o conexiune între Modelul B și Modelul A. Acest lucru este similar cu lucrările din domeniul atacurilor de extracție a modelului [12, 19, 27]. unde x ∼ X este orice intrare din distribuția X, iar ε este un număr mic pozitiv, indicând eroarea de extracție. Inspirat de sarcinile de extragere a modelului, descriem sarcina de atribuire cu două lovituri din Figura 4.Un model care încalcă poate fie complet (adică setare agresivă) fie parțial (adică setare neobservabilă) să dupliceze distribuția modelului sursă.Înțelegerea noastră primară în abordarea acestei preocupări este de a identifica distribuția extrasă prezentă în modelul suspect.Pentru a realiza acest lucru, evaluăm relația dintre comportamentul sursă și modelele suspecte, atât la nivel de exemplu, cât și statistic. , ne propunem să identificăm un model care încalcă prin măsurarea încrederii atribuirii pe un set de instanțe. Ghidat de ecuație 5, folosim un set de mostre cheie pentru a interoga atât sursa, cât și modelele suspecte, măsurând ulterior similitudinea răspunsurilor lor. Provocarea constă în selectarea mostrelor cheie. At instance level , ne propunem să măsurăm diferențele de comportament dintre modelul nevinovat și modelul care încalcă. Ipotezăm că, având în vedere inputurile din distribuția modelului sursă, va exista o diferență semnificativă de performanță între modelele nevinovate și cele nevinovate. Provocarea este de a dezvolta o tehnică care să măsoare cu precizie această diferență. At statistical level Performanța soluției la nivel de instanță se bazează pe capacitatea de a găsi eșantioane care pot descrie cu precizie distribuția datelor de instruire ale modelelor sursă. are interpretabilitate superioară. În timp ce soluția la nivel statistic scade în interpretabilitate, permite o atribuire mai cuprinzătoare și, prin urmare, o precizie superioară. 2.4.3 Soluția la nivel de instanță În acest context, folosim {X1, . . , Xn} pentru a denota sub-distribuțiile modelului sursă. Sub-distribuțiile modelului suspect, care sunt împărtășite cu modelul sursă, sunt reprezentate ca {X1, . . , Xm}. Este important să rețineți că atunci cândm este egal cu n, modelul suspect este considerat un model de încălcare agresiv. Dacă m este mai mic de n, înseamnă un model de încălcare neobservabil. În schimb, dacă m este egal cu 0, implicând modelul suspect nu are nicio sub-distribuție cu modelul sursă, este considerat un model nevinovat. După cum se presupune în Secțiunea 3.2, datele de instruire ale sursei modelul este privat pentru proprietarul modelului, ceea ce înseamnă că alții nu pot accesa aceste date sau orice date din aceeași distribuție prin mijloace legitime. Soluția la nivel de instanță poate fi formalizată după cum urmează: Formularea indică două probleme: 1) cum se pregătește intrarea x, deoarece eșantionarea din distribuția Xi nu poate fi exhaustivă. 2) cum se proiectează metrica de atribuire f. În continuare, introducem două strategii pentru pregătirea intrării de atribuire și proiectarea detaliată a metrică de atribuire. Ideea din spatele pregătirii datelor de intrare este dacă un set de instanțe X poate minimiza eroarea de generare a modelului sursă MS, atunci aceste instanțe X sunt cel mai probabil să aparțină unei sub-distribuții învățate de MS . Prin urmare, dacă aceste instanțe X minimizează și eroarea de generare pe un model suspect, sugerează că acest model a fost, de asemenea, instruit pe aceeași sub-distribuție. Acest lucru duce la concluzia că modelul suspect încalcă modelul sursă, deoarece presupunem că numai proprietarul modelului sursă deține date în această sub-distribuție. Această presupunere este rezonabilă și practică. Dacă o instanță este ușor obținută dintr-o distribuție publică și nu privată pentru proprietarul MS, nu există nici o motivație puternică Atribuirea intrării Pregătire Dezvoltăm două strategii pentru a pregăti eșantioane cheie, și anume o strategie bazată pe detectare și o strategie bazată pe generație. Aceste două strategii sunt ilustrate în Figura 5. Strategia bazată pe detectare urmărește să identifice un set de bază în cadrul setului de date de instruire MS care minimizează eroarea de generare, care servește ca eșantioane reprezentative ale distribuției modelului. Această strategie este rapidă și nu necesită nici o pregătire. Strategia bazată pe generație se concentrează pe crearea de eșantioane din modelul sursă MS care poate minimiza eroarea de generare. care poate minimiza eroarea de generare. Această strategie oferă un spațiu de eșantionare mai larg și o precizie superioară în comparație cu strategia bazată În această strategie, începem prin alimentarea tuturor îndemnurilor de text TXT din setul de date de instruire al modelului sursă în modelul sursă MS. Din aceasta, generăm imagini IMGgen. În continuare, folosim scorul SSCD [15] pentru a compara similitudinea dintre IMGgen și imaginile lor de bază IMGgt. Scorul SSCD este măsurarea de ultimă oră a similitudinii imaginii utilizată pe scară largă în detectarea copiilor de imagini[22, 23]. Selectăm instanțele N cu cele mai mari puncte de similitudine ca mostre cheie: Detection-based strategy Într-un model text-to-image, există două componente: codificatorul de text și decodificatorul de imagine. Pentru această strategie specifică, începem prin selectarea aleatorie a unui grup de prompturi de text din setul de date de formare al modelului sursă. Ne referim la acestea ca prompturi de semințe. Fiecare intrare de text selectată (pe care o denumim ca txt) este compusă din n tokenuri, adică txt = [tok1, tok2, . . . , tokn]. Următorul pas este de a utiliza codificatorul de text al modelului sursă pentru a converti fiecare token de txt într-o formă încorporată, producând c = [c1, c2, ..., cn]. După această fază de încorporare, optimizăm c peste iterări pentru a ob Generation-based strategy Atunci când ajungem la convergență, transformăm integrarea optimizată a textului continuu c ′ înapoi în integrările de token discrete. Pentru a face acest lucru, găsim cea mai apropiată integrare a cuvântului (denumită c ∗ în vocabular. Cu toate acestea, deoarece efectuăm optimizarea la nivelul cuvântului, unele dintre integrările optimizate rezultate nu pot avea sens. Pentru a contracara această problemă, aplicăm post-procesarea încorporărilor identificate. Calculăm distanța de ham între integrarea localizată c ∗ și integrarea semințelor corespunzătoare c. Apoi păstrăm integrările top-N găsite, cele cu cele mai mici distanțe de ham. În cele din urmă, folosind cartografierea unu-la-unu între integrarea cuvântului și tokenul din vocabular Acum folosim asemănarea dintre ieșirea sursei și modelul suspect condiționat de eșantioanele cheie pentru a instanța metrică f în ecuație 6. Atribuirea metrică pentru soluția la nivel de instanță. 2.5 Soluții statistice Utilizăm tehnica modelului de umbră din atacul de inferență a membrilor [21] pentru a colecta datele de formare etichetate pentru fD. Aceasta implică următoarele etape: Autorii : 1) Lichun Zhang b) să aibă o 3) Lingcui Zhang 4) Fengyuan Xu c) din punct de vedere tehnic; 6) Fenghua Li (7) Ben Niu . Authors: 1) Lichun Zhang b) să aibă o 3) Lingcui Zhang 4) Fengyuan Xu c) din punct de vedere tehnic; 6) Fenghua Li (7) Ben Niu . Acest document este disponibil în arhivă sub licența CC BY 4.0. Acest document este disponibil în arhivă sub licența CC BY 4.0.