Tabelul din stânga Abstract and Introduction Background & Related Work 2.1 Text-to-Image Diffusion Model 2.2 Watermarking Techniques 2.3 Preliminary 2.3.1 Problem Statement 2.3.2 Assumptions 2.4 Methodology 2.4.1 Research Problem 2.4.2 Design Overview 2.4.3 Instance-level Solution 2.5 Statistical-level Solution Experimental Evaluation 3.1 Settings 3.2 Main Results 3.3 Ablation Studies 3.4 Conclusion & References 3 Evaluări experimentale În această secțiune, vom descrie mai întâi procedurile noastre experimentale.După aceea, vom demonstra dacă metoda propusă poate atinge obiectivele identificate în Secțiunea 3.1. 3.1 Setări Utilizăm Stable Diffusion [17] cu punctele de control Stable-Diffusion-v1-5 (SD-v1) [25] și Stable-Diffusion-v2-1 (SDv2) [26] ca modele pre-antrenate. Text-to-image models. Am selectat două seturi de date de imagini subtitrate pe scară largă. Datasets CelebA-Dialog-HQ (CelebA) [9]: un set mare de date faciale în limbaj vizual cu 30.000 de imagini faciale de înaltă rezoluție cu dimensiunea de 1024×1024 selectate din setul de date CelebA. Însoțit de fiecare imagine, există un subtitlu care descrie cinci atribute fine, inclusiv Bangs, Eyeglasses, Beard, Smiling și Age. 2) Google’s Conceptual Captions (CC3M) [20]: un nou set de date constând din 3,3M de imagini anotate cu titluri. Folosim diviziunea de validare, care constă din 15.840 de perechi de imagini/capitole. Spre deosebire de stilul curatat al altor anotații de titluri de imagini, imaginile Conceptual Caption și descrierile lor sunt colectate din web și, prin urmare, reprezintă o varietate mai mare de stiluri. Pentru datele de instruire pentru finetuning, selectăm aleatoriu 3000 de eșantioane din fiecare set de date și le redimensionăm în 512×512. Finetunăm fiecare model pre-antrenat pe fiecare set de date pentru un total de 3000 de iterații cu o rată de învățare constantă de 2e-6 și dimensiunea lotului de 2. Denotăm aceste modele de sursă ca: SD-v1, SD-v2, SD-v1-CelebA, SD-v2-CelebA, SD-v1-CC3M, SD-v2-CC3M. Source model construction În timp ce pre-antrenarea și finetuning ridică ambele preocupări cu privire la încălcarea drepturilor de proprietate intelectuală, finetuning are un impact mai grav. În comparație cu pre-antrenarea, finetuning este foarte convenabil și eficient, permițând multe utilizări neautorizate fără prea multă restricție a resurselor. Astfel, am construit fiecare model de încălcare prin finetuning un model pre-antrenat pe 500 de eșantioane de formare, unde o proporție ρ din ele sunt generate de un model sursă, în timp ce restul sunt prelevate din datele reale. Suspicious model construction. Rețineți că activitatea noastră este prima care abordează problema atribuirii de date de formare în scenariul text-imagine și, prin urmare, nu există nici o lucrare direct legată. Baselines Această linie de bază injectează semnele de apă în datele de instruire. Mai precis, așa cum se propune în [12], prin codificarea unei matrice unice de 32 de biți în imaginile generate de modelele sursă, modelele de încălcare instruite pe astfel de date marcate cu apă vor genera, de asemenea, imagini în care semnele de apă pot fi detectate. Linia de bază 1: Atribuirea datelor bazate pe Watermark Această linie de bază adoptă ideea similară cu cea a soluției noastre la nivel de instanță, dar Linia de bază 2: Atribuirea datelor bazate pe selecție aleatorie. Nu folosiți Strategia 1 și Strategia 2 pe care le-am propus pentru atribuirea datelor. În special, selectăm aleatoriu eșantioanele de instruire N din setul de date de instruire al modelului sursă ca intrare de atribuire. Folosim scorul Acuratețe, Zona sub curbă (AUC) și TPR@10%FPR [2] pentru a evalua acuratețea și fiabilitatea metodelor de atribuire. Evaluation Metrics. 3.2 Principalele rezultate Având în vedere fiecare model sursă, am construit 30 de modele de încălcare și am calculat metrica conf definită în Ecuația 9 pentru fiecare model de încălcare. Aici am setat dimensiunea eșantionului cheie ca N = 30. Pentru a evalua fiabilitatea soluției noastre de atribuire la nivel de instanță, raportăm valoarea medie a conf între cele 30 de modele de încălcare la rate diferite de generare ρ din Figura 6. Modelele de încălcare sunt ajustate fin cu creșterea proporțiilor de imagini generate (ρ = 30%, 50%, 70%, 100% din totalul de 500). Axa y din Figura 6 se referă la valoarea medie de conf. Cu cât valoarea este mai mare, cu atât soluția noastră de atribuire la nivel de instanță este mai fiabilă. Effectiveness of Instance-level Attribution. Rezultatul principal 1: Soluția noastră depășește linia de bază 2, demonstrând o îmbunătățire semnificativă a încrederii în atribuire cu peste 0,2 pe diferite valori ρ. În același timp, strategia noastră bazată pe generație pentru atribuire atinge o fiabilitate echivalentă cu cea a liniei de bază 1, cu o scădere minimă a încrederii care nu depășește 0,1. Rezultatul principal 2: Metoda noastră de atribuire își menține fiabilitatea chiar și atunci când modelul care încalcă utilizează o fracțiune mică din datele generate pentru instruire. Rezoluția noastră la nivel de instanță, care utilizează o strategie bazată pe generație, prezintă o încredere în predicție care depășește 0,6, chiar și sub o rată de generare mai mică de 30%. Pentru a instrui modelul discriminator din Secțiunea 4.4, setați n = 500, s = 10, N = 30. Evaluăm modelul discriminator și afișăm metricile Acuratețe, AUC și TPR@10%FPR din Tabelul 1. Effectiveness of Statistical-level Attribution Rezultatul principal 3: Rezultatele din tabelul 1 arată că atribuirea noastră atinge o acuratețe ridicată și performanța AUC, unde acuratețea depășește 85%, iar AUC este mai mare de 0,8 pentru atribuirea modelelor de încălcare la diferite modele sursă. Acuratețea și AUC sunt metricile de caz mediu care măsoară cât de des o metodă de atribuire prezice corect încălcarea, în timp ce o atribuire cu un FPR ridicat nu poate fi considerată fiabilă. Astfel, folosim metricile TPR@10%FPR pentru a evalua fiabilitatea atribuirii la nivel statistic. Cea mai dreaptă coloană din tabelul 1 arată că TPR este mai mare de 0,7 la un FPR scăzut de 10%. Aceasta înseamnă că atribuirea noastră nu va afirma fals un model nevinovat și este cap 3.3 Studii de ablație δ0. Pentru a determina o valoare optimă pentru δ0 pentru atribuirea la nivel de instanță, calculăm valorile distanței de reconstrucție folosind 30 de eșantioane cheie pe un model de încălcare cu ρ = 1 și un model nevinovat cu ρ = 0. Modelul nevinovat este finetizat pe modelul pre-instruit al SD-v2. Tabelul 2 compară distribuția distanței de reconstrucție între modelele suspecte bazate pe diferite modele sursă. Effect of hyper-parameter diferențele dintre distribuțiile modelului nevinovat și modelul care încalcă, cu cât este mai ușor să se găsească un δ0 pentru atribuire. Pentru modelul nevinovat, distanța de reconstrucție a unei mari proporții de eșantioane (atât de mare cât 73,9%) se încadrează în intervalul de [0,15,0,2), în timp ce numai eșantioanele 4,3% au distanța de reconstrucție mai mică de 0,15. Pentru modelul care încalcă, există aproximativ 20% din eșantioane care au distanța de reconstrucție mai mică de 0,1. În cele mai multe cazuri (5 din 6 modele care încalcă), peste o proporție de 40% din eșantioane au distanța de reconstrucție în intervalul de [0,1,0,15). Aceasta indică faptul că δ0 = 0,15 este o limită semnificativă pentru a distinge modelele nevinovate și modelele care încalcă, indiferent de modelele sursă. Urmând setările din Tabelul 2, studiem în continuare impactul N asupra atribuirii la nivel de instanță, unde N variază de la 20 la 100 în Figura 7. Axa y se referă la valoarea medie a conf pe mostrele cheie N prin Ecuația 6, unde conf reprezintă încrederea în atribuire pentru a identifica modelele care încalcă. Fiecare subfigura din Figura 7 reprezintă un model care încalcă cu modelul sursă corespunzător specificat în subtitlu. Cu cât este mai mare încrederea, cu atât este mai fiabilă soluția de atribuire. Teoretic, o creștere a N îmbunătățește fiabilitatea verificării, dar necesită mai multe interogări pentru modelul suspect. În mod specific, N = 100 atinge cea mai mare încredere, cu aproximativ 0,1 mai mare decât cea a Effect of key sample size 𝑁. 3.4 Concluzii Această lucrare abordează problema crucială a atribuirii datelor de instruire, investigând dacă un model suspect încalcă proprietatea intelectuală a unui model comercial prin utilizarea datelor generate fără autorizare. Soluția noastră de atribuire propusă permite identificarea modelului sursă din care au provenit datele de instruire ale unui model suspect. Raționamentul metodei noastre constă în exploatarea proprietății inerente de memorare a seturilor de date de instruire, care va fi transmisă prin datele generate și păstrată în cadrul modelelor instruite pe astfel de date. Am conceput algoritmi pentru a detecta mostre distincte care prezintă comportamente idiosincratice atât în modelele sursă, cât și în cele suspecte, exploatând aceste marcatoare inerente pentru a urmări linia modelului suspect. În concluzie, cercet Referinţe [1] Yossi Adi, Carsten Baum, Moustapha Cissé, Benny Pinkas și Joseph Keshet. 2018. Transformarea slăbiciunii într-o forță: Watermarking Deep Neural Networks prin backdooring. [2] Nicholas Carlini, Steve Chien, Milad Nasr, Shuang Song, Andreas Terzis și Florian Tramer. 2022. Atacuri de inferență a membrilor de la primele principii. [3] Nicholas Carlini, Jamie Hayes, Milad Nasr, Matthew Jagielski, Vikash Sehwag, Florian Tramèr, Borja Balle, Daphne Ippolito și Eric Wallace. 2023. Extragerea datelor de formare din modelele de difuzie. Proc. din USENIX Security. [4] Weixin Chen, Dawn Song, și Bo Li. 2023. TrojDiff: Atacuri de troieni asupra modelelor de difuzie cu obiective diferite. [5] Sheng-Yen Chou, Pin-Yu Chen, și Tsung-Yi Ho. 2023. Cum să modele de difuzie în spate? [6] Ge Han, Ahmed Salem, Zheng Li, Shanqing Guo, Michael Backes și Yang Zhang. 2024. Detectarea și atribuirea modelelor instruite pe date generate. [7] ImagenAI. [n. d.]. https://imagen-ai.com/terms-of-use [8] Hengrui Jia, Christopher A Choquette-Choo, Varun Chandrasekaran și Nicolas Papernot. 2021. Marcajele de apă entangled ca o apărare împotriva extragerii modelului. [9] Yuming Jiang, Ziqi Huang, Xingang Pan, Chen Change Loy și Ziwei Liu. 2021. Talk-to-Edit: Fine-Grained Facial Editing via Dialog. [10] Zongjie Li, Chaozheng Wang, Shuai Wang și Cuiyun Gao. 2023. Protejarea proprietății intelectuale a API-urilor de generare a codului bazate pe model de limbă mare prin intermediul Watermarks. [11] Yugeng Liu, Zheng Li, Michael Backes, Yun Shen, și Yang Zhang. 2023. model de difuzie de marcare a apei. arXiv preprint arXiv:2305.12502 (2023). [12] Ge Luo, Junqiang Huang, Manman Zhang, Zhenxing Qian, Sheng Li, și Xinpeng Zhang. 2023. Furați-mi operele de artă pentru fine-tuning? un cadru de marcare a apei pentru detectarea furtului de artă în modelele text-to-imagine. arXiv preprint arXiv:2311.13619 (2023). [13] Peizhuo Lv, Hualong Ma, Kai Chen, Jiachen Zhou, Shengzhi Zhang, Ruigang Liang, Shenchen Zhu, Pan Li și Yingjun Zhang. 2024. MEA-Defender: Un semn de apă robust împotriva atacului de extracție a modelului. [14] MidJourney. [n. d.]. https://docs.midjourney.com/docs/terms-of-service [15] Ed Pizzi, Sreya Dutta Roy, Sugosh Nagavara Ravindra, Priya Goyal și Matthijs Douze. 2022. Un descriptor auto-supravegheat pentru detectarea copiilor de imagini. [16] Aditya Ramesh, Prafulla Dhariwal, Alex Nichol, Casey Chu și Mark Chen. 2022. Generarea de imagini ierarhice text-condiționale cu latente CLIP. arXiv preprint arXiv:2204.06125 (2022). [17] Robin Rombach, Andreas Blattmann, Dominik Lorenz, Patrick Esser și Björn Ommer. 2022. Sinteza imaginii de înaltă rezoluție cu modele latente de difuzie. [18] Olaf Ronneberger, Philipp Fischer și Thomas Brox. 2015. U-net: rețele convoluționale pentru segmentarea imaginii biomedicale. în Proc. de Springer MICCAI. [19] Zeyang Sha, Xinlei He, Ning Yu, Michael Backes, și Yang Zhang. 2023. Nu poți fura? Cont-Fura! Atacuri de furt contrastante împotriva codificatoarelor de imagini. În procentaj de IEEE CVPR. [20] Piyush Sharma, Nan Ding, Sebastian Goodman și Radu Soricut. 2018. Titluri conceptuale: Un set de date de text alt-text cu imagini curățate, hipernime pentru capturarea automată a imaginilor. în procente din ACL. [21] Reza Shokri, Marco Stronati, Congzheng Song și Vitaly Shmatikov. 2017. Atacuri de inferență a membrilor împotriva modelelor de învățare automată. În 2017 Simpozionul IEEE privind securitatea și confidențialitatea (SP). IEEE, 3–18. [22] Gowthami Somepalli, Vasu Singla, Micah Goldblum, Jonas Geiping și Tom Goldstein. 2023. Arta de difuzare sau contrafacerea digitală? Investigarea replicării datelor în modelele de difuzare. În procentaj de IEEE CVPR. [23] Gowthami Somepalli, Vasu Singla, Micah Goldblum, Jonas Geiping și Tom Goldstein. 2023. Înțelegerea și atenuarea copierii în modelele de difuzie. [24] Lukas Struppek, Dominik Hintersdorf și Kristian Kersting. 2022. „Rickrolling the Artist: Injecting Invisible Backdoors into Text-Guided Image Generation Models”. arXiv preprint arXiv:2211.02408 (2022). [25] Stable-Diffusion v1 5. [n. d.]. https://huggingface.co/runwayml/stable-diffusionv1-5 [26] Stable-Diffusion v2 1. [n. d.]. https://huggingface.co/stabilityai/stable-diffusion2-1 [27] Yixin Wu, Rui Wen, Michael Backes, Ning Yu, și Yang Zhang. 2022. atacuri de furt de model împotriva modelelor de limbaj de viziune. [28] Yunqing Zhao, Tianyu Pang, Chao Du, Xiao Yang, Ngai-Man Cheung și Min Lin. 2023. o rețetă pentru modelele de difuzie de marcare a apei. arXiv preprint arXiv:2303.10137 (2023). Autorii : 1) Lichun Zhang b) să aibă o 3) Lingcui Zhang 4) Fengyuan Xu c) din punct de vedere tehnic; 6) Fenghua Li (7) Ben Niu . Authors: 1) Lichun Zhang b) să aibă o 3) Lingcui Zhang 4) Fengyuan Xu c) din punct de vedere tehnic; 6) Fenghua Li (7) Ben Niu . Acest document este disponibil în arhivă sub licența CC BY 4.0. Acest document este disponibil în arhivă sub licența CC BY 4.0. Disponibil în arhivă