Tabel dari kiri Abstract and Introduction Background & Related Work 2.1 Text-to-Image Diffusion Model 2.2 Watermarking Techniques 2.3 Preliminary 2.3.1 [Problem Statement](https://hackernoon.com/preview/2x1yHRqHVmhjmOG0ig2c) 2.3.2 [Assumptions](https://hackernoon.com/preview/2x1yHRqHVmhjmOG0ig2c) 2.4 Methodology 2.4.1 [Research Problem](https://hackernoon.com/preview/2x1yHRqHVmhjmOG0ig2c) 2.4.2 [Design Overview](https://hackernoon.com/preview/2x1yHRqHVmhjmOG0ig2c) 2.4.3 [Instance-level Solution](https://hackernoon.com/preview/2x1yHRqHVmhjmOG0ig2c) 2.5 Statistical-level Solution Experimental Evaluation 3.1 Settings 3.2 Main Results 3.3 Ablation Studies 3.4 Conclusion & References 2 Latar belakang dan pekerjaan terkait 2.1 Model Distribusi Teks ke Gambar Secara umum, model data teks-ke-gambar adalah jenis model generatif bersyarat yang bertujuan untuk membuat gambar berdasarkan deskripsi teks melalui model generatif. Mereka dilatih dengan data dalam bentuk sepasang gambar-teks. Dalam makalah ini, kita mengambil model teks-ke-gambar state-of-theart saat ini, yaitu, Stable Diffusion (SD) [17], untuk membuat prototipe metode kami. Namun, perhatikan bahwa pendekatan kami dapat diterapkan untuk melindungi jenis model lain. Stable Diffusion (SD) [17] adalah model difusi latent khas (LDM). SD terutama berisi tiga modul: (1) Text encoder module W : mengambil prompt teks P, dan mengkodeknya ke dalam embedding teks yang sesuai c = W (P (2); Auto encoder module termasuk encoder gambar ε dan decoder D: ε mengubah gambar x menjadi ruang representasi latent di mana Tujuan untuk mempelajari model difusi bersyarat seperti itu (berdasarkan pasangan pelatihan gambar-kondisi (x, c)) adalah sebagai berikut: Setelah denoising, representasi latent z dikodekan menjadi gambar oleh D. 2.2 Teknik pengukuran air Studi terbaru menunjukkan penggunaan teknik watermark sebagai pertahanan terhadap penyalahgunaan data yang dihasilkan. teknik ini membantu mengidentifikasi model copy-paste [11, 28] atau model yang terkena serangan ekstraksi [8, 13]. Biasanya, watermark ini tertanam baik dalam model selama fase pelatihan atau dalam output selama tahap generasi. Salah satu pendekatan umum melibatkan penggunaan trigger backdoor sebagai watermark. Ini membantu mengidentifikasi model yang secara langsung menggunakan beban model sumber [1]. Studi baru-baru ini juga telah menunjukkan bahwa model difusi teks-ke-gambar dapat rentan terhadap serangan backdoor [4, 5, 11, 24, 28]. Namun, tanda-tanda air berbasis trigger ini dapat dengan mudah dihapus selama serangan ekstraksi model karena kekurangan berat dan kebodohan backdoor. Untuk memerangi hal ini, Jia et al. [8] menyarankan representasi intertwining yang diekstraksi dari data pelatihan dengan watermark. Lv et al. [13] memajukan gagasan ini untuk model belajar mandiri, melonggarkan persyaratan untuk korban dan model diekstraksi untuk berbagi arsitektur yang sama. Watermarking during the training phase. Ini melibatkan memodifikasi output model untuk memasukkan watermark unik dari pemilik model. Untuk model generasi kode berbasis LLM, Li et al. [10] merancang watermark khusus dengan mengganti token dalam kode yang dihasilkan dengan alternatif sinonim dari bahasa pemrograman. Watermarking during generation phase. Saat ini, teknik watermarking belum dieksplorasi karena potensi mereka untuk mengatasi tugas atribusi data pelatihan (lihat Bagian 4.1). Selain itu, menerapkan teknik ini dapat menyebabkan penurunan kualitas data yang dihasilkan oleh model [28]. Selain itu, teknik ini dapat mengurangi kualitas data yang dihasilkan oleh model [28], dan mereka sering membutuhkan pengetahuan keamanan khusus untuk implementasi selama pengembangan model. pendekatan kami bertujuan untuk mengatasi masalah ini tanpa mengorbankan kualitas data yang dihasilkan atau mengharuskan pengembang untuk memiliki latar belakang dalam keamanan. 2.3 Pendahuluan 2.3 Pernyataan Masalah Kami menandai model sumber teks-ke-gambar yang terlatih dengan baik sebagai MS. Model sumber dilatih dengan sejumlah besar pasangan “tekst-gambar” berkualitas tinggi, ditandai sebagai {TXTt , IMGt }. Selama fase inferensi, itu dapat menghasilkan img, diberikan teks prompt txt, yaitu, Model sumber Seorang lawan agresif mungkin bertujuan untuk melatih model teks-ke-gambarnya untuk menawarkan layanan online untuk keuntungan ekonomi. Musuh dapat dengan mudah mendapatkan arsitektur model open-source, yang mungkin sama dengan model sumber atau mungkin tidak. Musuh tidak memiliki sepasang “tekst-gambar” berkualitas tinggi yang cukup untuk melatih model yang memuaskan. Dia dapat mempersiapkan dataset pelatihan dengan cara berikut. Musuh mempersiapkan seperangkat teks TXTA, dan dia menanyakan MS dengan seperangkat teks, dan mengumpulkan IMGA yang sesuai yang dihasilkan oleh MS. Kemudian, musuh melatih model MA dengan sepasang data yang dihasilkan. Seperti istilah pengguna yang dilaporkan dalam Gambar 2, Model Pelanggaran Agresif lawan menyalahgunakan data yang dihasilkan, dan hak model sumber dilanggar. Perhatikan bahwa ketika ρ sama dengan 1, lawan yang tidak terlihat menjadi lawan yang agresif. oleh karena itu, untuk kesederhanaan, kita menggunakan notasi berikut untuk mewakili dua jenis lawan ini, yaitu, Untuk kepentingan narasi yang ketat, kami mendefinisikan model yang tidak bersalah, yang dinyatakan sebagai MIn, yang menyediakan layanan serupa dengan model sumber, tetapi data pelatihannya tidak memiliki hubungan sama sekali dengan data yang dihasilkan oleh MS. Model yang tidak bersalah. 2.2 Asumsi Di sini kami membuat beberapa asumsi yang masuk akal untuk lebih mengilustrasikan skenario kerja kami. Arsitektur model dan algoritma pelatihan dari model MS dapat open-source. Pemilik model sumber MS tidak memiliki pengetahuan keamanan, sehingga tidak menandai data pelatihan apa pun selama pelatihan model atau memodifikasi output model dalam fase inferensi untuk tujuan watermarking. Pertanyaan yang paling mengkhawatirkan bagi pemilik model, seperti yang ditunjukkan pada Gambar 2, adalah apakah data yang dihasilkan oleh MS telah digunakan untuk melatih model lain. Pemilik model sumber memiliki pengetahuan lengkap tentang arsitektur model dan parameter dan dapat mengakses semua data pelatihan dari MS. About the source model and its owner. Kami mengasumsikan bahwa proses pelatihan model sumber mungkin melibatkan data yang dapat diakses publik dan data pribadi. Dokumen ini membahas atribusi data yang dihasilkan yang relevan dengan data pribadi. Model yang mencurigakan M berada dalam pengaturan kotak hitam. Model yang mencurigakan dapat berbagi arsitektur model yang sama dengan model sumber. Fungsi model yang mencurigakan juga disediakan, yang diperlukan bagi pengguna biasa untuk menggunakan model yang mencurigakan. About the suspicious model. 2.4 Metodologi 4.1 Masalah penelitian Kami mendefinisikan tugas "menentukan apakah sepotong data dihasilkan oleh model tertentu" sebagai atribusi data satu kali lipat. Gagasan ini diilustrasikan dalam Gambar 3. atribusi data satu kali lipat mendapatkan perhatian baik di akademisi [11, 28] dan lingkaran industri [16, 17]. Memeriksa keberadaan watermark tertentu pada data yang dihasilkan adalah prosedur atribusi data satu kali lipat yang umum. Pekerjaan kami berfokus pada atribusi dua-hop, yaitu, kami bertujuan untuk menentukan apakah Model B telah dilatih menggunakan data yang dihasilkan oleh Model A. Dalam pengaturan ini, data yang dihasilkan oleh Model A tidak dapat dihitung, dan data yang dihasilkan tidak tertanam dengan watermark.Tugas ini telah menarik perhatian baru-baru ini, dan Han et al. [6] melakukan eksplorasi awal apakah data pelatihan dari model klasifikasi dihasilkan oleh model GAN tertentu dalam pengaturan pelanggaran agresif seperti yang didefinisikan dalam Bagian 3. Dibandingkan dengan upaya yang ada, pekerjaan kami menangani tugas yang lebih menantang di bawah skenario generasi dunia nyata. Pertama, kami menyelidiki model ancaman yang lebih realistis. Kami mempertimbangkan tidak hanya model pelanggaran agresif tetapi juga pengaturan yang tidak terlihat. Kami berpendapat bahwa pengaturan yang tidak terlihat lebih umum, terutama ketika banyak pengembang hanya dapat mengumpulkan sejumlah kecil data untuk menyesuaikan model mereka daripada pelatihan dari awal. Kedua, kami memeriksa subjek yang lebih kompleks. Studi sebelumnya mengeksplorasi model sumber dengan jaringan GAN sederhana, dan model yang mencurigakan adalah model klasifikasi kata tertutup. Namun, dalam studi kami, baik model sumber dan model mencurigakan adalah model difusi teks ke gambar yang tidak dijelaskan yang mampu mengelola tugas generasi suara terbuka, yang membuat mereka lebih cenderung untuk menganalisis. 4.2 Desain Pendekatan Seperti yang digambarkan dalam Gambar 3, dalam konteks atribusi dua-hop, data yang dihasilkan yang digunakan untuk melatih Model B adalah agnostik. oleh karena itu, untuk memecahkan atribusi data dua-hop, kita harus membangun hubungan antara Model B dan Model A. Ini mirip dengan pekerjaan di bidang serangan ekstraksi model [12, 19, 27]. di mana x ∼ X adalah input dari distribusi X, dan ε adalah angka positif kecil, yang berarti kesalahan ekstraksi. Terinspirasi oleh tugas ekstraksi model, kami menggambarkan tugas atribusi dua kali lipat dalam Gambar 4. model yang melanggar mungkin sepenuhnya (yaitu, pengaturan agresif) atau sebagian (yaitu, pengaturan tidak terlihat) menggandakan distribusi model sumber. wawasan utama kami dalam menangani kekhawatiran ini adalah untuk mengidentifikasi distribusi yang diekstraksi yang hadir dalam model mencurigakan. Untuk mencapai hal ini, kami menilai hubungan antara perilaku sumber dan model mencurigakan, baik pada tingkat contoh dan statistik. , kami bertujuan untuk mengidentifikasi model yang melanggar dengan mengukur kepercayaan atribusi pada serangkaian instansi. Dipandu oleh Persamaan 5, kami menggunakan serangkaian sampel kunci untuk menginterogasi model sumber dan mencurigakan, kemudian mengukur kesamaan tanggapan mereka. Tantangan terletak pada pemilihan sampel kunci. At instance level , kami bertujuan untuk mengukur perbedaan perilaku antara model yang tidak bersalah dan model yang melanggar. kami mengasumsikan bahwa, mengingat input dari distribusi model sumber, akan ada kesenjangan kinerja yang signifikan antara model yang melanggar dan model yang tidak bersalah. tantangan di sini adalah untuk mengembangkan teknik yang secara akurat mengukur perbedaan ini. At statistical level Kinerja solusi tingkat instance bergantung pada kemampuan untuk menemukan sampel yang dapat secara akurat menggambarkan distribusi data pelatihan dari model sumber.Dia memiliki interpretabilitas yang unggul.Sementara solusi tingkat statistik kekurangan interpretabilitas, itu memungkinkan atribusi yang lebih komprehensif, dan karenanya akurasi yang lebih tinggi.Karena itu, dalam praktek, kami merekomendasikan pengguna untuk memilih sesuai dengan persyaratan spesifik mereka. 2.4.3 Solusi tingkat instansi Dalam konteks ini, kita menggunakan {X1, . . , Xn} untuk menandai sub-distribusi dari model sumber. Sub-distribusi model mencurigakan, yang dibagikan dengan model sumber, diwakili sebagai {X1, . . , Xm}. Penting untuk dicatat bahwa ketika m sama dengan n, model mencurigakan dianggap sebagai model pelanggaran agresif. Jika m kurang dari n, itu berarti model pelanggaran yang tidak terlihat. Sebaliknya, jika m sama dengan 0, yang menyiratkan model mencurigakan tidak berbagi sub-distribusi dengan model sumber, itu dianggap sebagai model yang tidak bersalah. Seperti yang diasumsikan dalam Bagian 3.2, data pelatihan dari sumber model pribadi untuk pemilik model, yang berarti orang lain tidak dapat mengakses data ini atau data apa pun dari distribusi yang sama melalui cara yang sah. Solusi tingkat instance dapat diformalisasi sebagai berikut: Di mana conf adalah kepercayaan apakah model M yang mencurigakan adalah yang melanggar. formulasi menunjukkan dua masalah: 1) bagaimana mempersiapkan input x, karena pengambilan sampel dari distribusi Xi tidak dapat menyeluruh. 2) bagaimana merancang metrik atribusi f. Selanjutnya, kita memperkenalkan dua strategi untuk mempersiapkan input atribusi, dan desain rinci metrik atribusi. Ide di balik persiapan data input adalah jika serangkaian instansi X dapat meminimalkan kesalahan generasi dari model sumber MS, maka instansi X ini paling mungkin menjadi bagian dari sub-distribusi yang dipelajari oleh MS. Oleh karena itu, jika instansi X ini juga meminimalkan kesalahan generasi pada model yang mencurigakan, itu menunjukkan bahwa model ini juga telah dilatih pada sub-distribusi yang sama. Ini mengarah pada kesimpulan bahwa model yang mencurigakan melanggar model sumber, karena kita mengasumsikan bahwa hanya pemilik model sumber yang memegang data dalam sub-distribusi ini. Asumsi ini wajar dan praktis. Jika sebuah instansi dengan mudah diperoleh dari distribusi publik dan tidak pribadi ke pemilik MS, tidak ada motivasi yang kuat untuk melacak penggunaan. Karena pendekatan instancelevel kami memberikan interpretabilitas yang baik, kita dapat secara manual memilih instansi Atribusi input persiapan Kami mengembangkan dua strategi untuk mempersiapkan sampel kunci, yaitu, strategi berbasis deteksi dan strategi berbasis generasi. Kami menggambarkan dua strategi ini dalam Gambar 5. Strategi berbasis deteksi bertujuan untuk mengidentifikasi satu set inti dalam dataset pelatihan MS yang meminimalkan kesalahan generasi, yang berfungsi sebagai sampel representatif dari distribusi model. Strategi ini cepat dan tidak memerlukan pelatihan apa pun. Strategi berbasis generasi berfokus pada menciptakan sampel dari model sumber MS yang dapat meminimalkan kesalahan generasi. yang dapat meminimalkan kesalahan generasi. Strategi ini menawarkan ruang sampel yang lebih luas dan akurasi yang lebih unggul dibandingkan dengan strategi berbasis deteksi. Mari kita rinci bagaimana strategi ini bekerja. Dalam strategi ini, kita mulai dengan memasukkan semua petunjuk teks TXT dari dataset pelatihan model sumber ke dalam model sumber MS. Dari sini, kita menghasilkan gambar IMGgen. Selanjutnya, kita menggunakan skor SSCD [15] untuk membandingkan kesamaan antara IMGgen dan gambar dasar mereka IMGgt. Skor SSCD adalah pengukuran kesamaan gambar state-of-the-art yang banyak digunakan dalam deteksi salinan gambar[22, 23]. Kami memilih instansi N dengan skor kesamaan terbesar sebagai sampel kunci: Detection-based strategy Dalam model teks-ke-gambar, ada dua komponen: encoder teks dan decoder gambar. Untuk strategi tertentu ini, kita mulai dengan secara acak memilih sekelompok prompts teks dari dataset pelatihan model sumber. Kita merujuk kepada ini sebagai prompts benih. Setiap input teks yang dipilih (yang kita sebut sebagai txt) terdiri dari n token, yaitu, txt = [tok1, tok2, . . . , tokn]. Langkah berikutnya adalah menggunakan encoder teks model sumber untuk mengkonversi setiap token txt menjadi bentuk tertanam, menghasilkan c = [c1, c2, ..., cn]. Setelah fase embedding ini, kita mengoptimalkan c over iterations untuk mendapatkan embedding yang diperbarui, c′, Tujuan optimisasi adalah untuk meminimalkan kerugian rekonstruksi yang diberikan oleh Persamaan 1 antara gambar dasar dan yang dihasilkan. Generation-based strategy Setelah mencapai konvergensi, kita mengubah embedding teks berkelanjutan yang dioptimalkan c ′ kembali ke embeddings token diskret. Untuk melakukan ini, kita menemukan embedding kata terdekat (disebut sebagai c ∗ dalam kamus. Namun, karena kita melakukan optimasi pada tingkat kata, beberapa embeddings yang dioptimalkan yang dihasilkan mungkin tidak masuk akal. Untuk melawan masalah ini, kita menerapkan post-processing pada embeddings yang diidentifikasi. Kami menghitung jarak hamming antara embedding c ∗ yang terletak dan embedding benih yang cocok c. Kemudian kita menyimpan embeddings top-N yang ditemukan, yang memiliki jarak hamming terendah. Akhirnya, menggunakan peta satu-ke-satu antara embedding kata dan token dalam kamus kita, kita menghasilkan input atribusi txt ∗. Sekarang kita menggunakan kesamaan antara output sumber dan model mencurigakan yang dikondisikan oleh sampel kunci untuk menginstansiasi metrik f dalam persamaan 6. Atribute Metric untuk Instance Level Solution. 5.2 Solusi Statistik Kami memanfaatkan teknik model bayangan dari serangan inferensi keanggotaan [21] untuk mengumpulkan data pelatihan yang ditandai untuk fD. Ini melibatkan langkah-langkah berikut: Penulis : 1) Menghadapi Zhang Zhang 2) Menghadapi hal itu; 3) Lingcui Zhang b) Fengyuan Xu 5) Jin Cao; 6) Fenghua Li (7) Ben Niu Authors: 1) Menghadapi Zhang Zhang 2) Menghadapi hal itu; 3) Lingcui Zhang b) Fengyuan Xu 5) Jin Cao; 6) Fenghua Li (7) Ben Niu Dokumen ini tersedia di archiv di bawah lisensi CC BY 4.0. Kertas ini adalah dengan lisensi CC BY 4.0. Tersedia di Arsip