Tisch links Abstract and Introduction Background & Related Work 2.1 Text-to-Image Diffusion Model 2.2 Watermarking Techniques 2.3 Preliminary 2.3.1 [Problem Statement](https://hackernoon.com/preview/2x1yHRqHVmhjmOG0ig2c) 2.3.2 [Assumptions](https://hackernoon.com/preview/2x1yHRqHVmhjmOG0ig2c) 2.4 Methodology 2.4.1 [Research Problem](https://hackernoon.com/preview/2x1yHRqHVmhjmOG0ig2c) 2.4.2 [Design Overview](https://hackernoon.com/preview/2x1yHRqHVmhjmOG0ig2c) 2.4.3 [Instance-level Solution](https://hackernoon.com/preview/2x1yHRqHVmhjmOG0ig2c) 2.5 Statistical-level Solution Experimental Evaluation 3.1 Settings 3.2 Main Results 3.3 Ablation Studies 3.4 Conclusion & References 2 Hintergrund und verwandte Arbeiten 2.1 Text-zu-Bild-Verbreitungsmodell Im Allgemeinen ist ein Text-zu-Bild-Datenmodell eine Art bedingtes generatives Modell, das darauf abzielt, Bilder auf der Grundlage von Textbeschreibungen durch generative Modelle zu erstellen. Sie werden mit Daten in Form von Bild-zu-Bild-Paaren geschult. In diesem Papier nehmen wir das derzeit state-of-theart Text-zu-Bild-Modell, d.h. Stable Diffusion (SD) [17], um unsere Methode zu prototypen. Denken Sie jedoch daran, dass unser Ansatz zum Schutz anderer Modelle angewendet werden kann. Stable Diffusion (SD) [17] ist ein typisches latentes Diffusion-Modell (LDM). SD enthält hauptsächlich drei Module: (1) Text-encoder-Modul W : es nimmt eine Text-Prompt P, und Das Ziel für das Lernen eines solchen bedingten Diffusionsmodells (basierend auf Bild-Bedingungstrainingsparen (x, c)) ist wie folgt: Nach der Denoisierung wird die latente Darstellung z von D in ein Bild entschlüsselt. 2.2 Wassermärketechnik Diese Techniken helfen bei der Identifizierung von Kopie-Paste-Modellen [11, 28] oder Modellen, die Extraktionsangriffen ausgesetzt sind [8, 13]. Typischerweise sind diese Wasserzeichen entweder in das Modell während der Ausbildungsphase oder in die Ausgabe während der Generationsphase eingebettet. Ein gängiger Ansatz beinhaltet die Verwendung von Backdoor-Trigger als Wasserzeichen. Dies hilft, Modelle zu identifizieren, die Quellmodellgewichte direkt wiederverwenden [1]. Jüngste Studien haben auch gezeigt, dass Text-zu-Bild-Difusion-Modelle anfällig für Backdoor-Angriffe sein können [4, 5, 11, 24, 28]. Jedoch können diese Trigger-basierten Wasserzeichen leicht unter Modell-Extraktionsangriffen aufgrund von Gewichtsparität und der Stealthness der Backdoor entfernt werden. Um dies zu bekämpfen, schlugen Jia et al. [8] Intertwining-Repräsentationen vor, die aus Trainingsdaten mit Wasserzeichen extrahiert wurden. Lv et al. [13] entwickelte diese Idee für selbstbeaufsichtigte Lernmodelle Watermarking during the training phase. Es beinhaltet die Modellierung der Modellausgänge, um die einzigartigen Wasserzeichen des Modellinhabers einzubinden. Für LLM-basierte Codegenerationsmodelle entwarf Li et al. [10] spezielle Wasserzeichen, indem Token im erzeugten Code durch synonyme Alternativen aus der Programmiersprache ersetzt wurden. Watermarking during generation phase. Gegenwärtig sind Wassermarking-Techniken noch nicht für ihr Potenzial zur Bewältigung der Schulungsdatenassignationsaufgabe erforscht worden (siehe Abschnitt 4.1). Darüber hinaus kann die Anwendung dieser Techniken zu einer Abnahme der Qualität der vom Modell erzeugten Daten führen [28]. Darüber hinaus könnten diese Techniken die Qualität der vom Modell erzeugten Daten [28] verringern und sie erfordern häufig spezielle Sicherheitskenntnisse für die Implementierung während der Modellentwicklung. 2.3 Vorläufige 2.3.1 Problemmeldung Wir bezeichnen das gut ausgebildete Text-zu-Bild-Quellmodell als MS. Das Quellmodell wird mit einer großen Anzahl hochwertiger "Text-Bild"-Paare ausgebildet, die als {TXTt, IMGt} bezeichnet werden. Das Quellmodell. Ein aggressiver Gegner könnte darauf abzielen, sein Text-zu-Bild-Modell zu trainieren, um Online-Dienste für wirtschaftlichen Gewinn anzubieten. Der Gegner kann leicht eine Open-Source-Modellarchitektur erhalten, die das gleiche wie das Quellmodell sein kann oder nicht. Der Gegner hat nicht genügend hochwertige "Text-Bild"-Paare, um ein zufriedenstellendes Modell zu trainieren. Er kann den Trainingsdatensatz wie folgt vorbereiten. Der Gegner bereitet eine Reihe von Text TXTA vor, und er fragt den MS mit der Reihe von Text und sammelt das entsprechende IMGA, das von MS erzeugt wird. Dann trainiert der Gegner sein Modell MA mit den erzeugten Datenpaaren. Aggressives Verletzungsmodell Der Gegner missbraucht die erzeugten Daten und das Recht des Quellmodells wird verletzt. Beachten Sie, dass, wenn ρ gleich 1 ist, der unmerkliche Gegner der aggressive Gegner wird. Aus Gründen der strengen Erzählung definieren wir ein unschuldiges Modell, das als MIn bezeichnet wird, das ähnliche Dienste wie das Quellmodell bietet, aber seine Trainingsdaten haben keinerlei Verbindung mit den von der MS erzeugten Daten. Das unschuldige Modell. 3.2 Vermutungen Hier machen wir einige vernünftige Annahmen, um unser Arbeitsszenario besser zu illustrieren. Der Eigentümer des Quellmodells MS besitzt keine Sicherheitskenntnisse, so dass er während des Modelltrainings keine Trainingsdaten Wassermarken oder die Modellausgabe in der Schlussfolgerungsphase für Wassermarken ändert. Die Frage der größten Sorge für den Modellinhaber, wie in Abbildung 2 gezeigt, ist, ob die von MS erzeugten Daten verwendet wurden, um ein anderes Modell zu trainieren. About the source model and its owner. Wir gehen davon aus, dass der Bildungsprozess des Quellmodells sowohl öffentlich zugängliche Daten als auch private Daten beinhalten könnte. In diesem Papier wird die Zuordnung erzeugter Daten, die für private Daten relevant sind, diskutiert. Das verdächtige Modell M befindet sich in einer Black-Box-Einstellung. Das verdächtige Modell kann die gleiche Modellarchitektur wie das Quellmodell teilen. Die Funktionalität des verdächtigen Modells wird auch bereitgestellt, was für einen gewöhnlichen Benutzer erforderlich ist, um das verdächtige Modell zu verwenden. Es bietet nur eine Abfrage-nur-Schnittstelle für Benutzer, um die Untersuchung durchzuführen. About the suspicious model. 2.4 Methodik 4.1 Forschungsprobleme Wir definieren die Aufgabe der "Bestimmung, ob ein Stück Daten durch ein bestimmtes Modell erzeugt wird" als eine Ein-Hop-Datenattribution. Diese Idee wird in Abbildung 3 dargestellt. Die Ein-Hop-Datenattribution gewinnt sowohl in der Akademie [11, 28] als auch in den Industriekreisen [16, 17] Aufmerksamkeit. Überprüfen des Vorhandenseins eines bestimmten Wasserzeichen auf den erzeugten Daten ist ein gemeinsames Ein-Hop-Datenattributionsverfahren. Unsere Arbeit konzentriert sich auf die Zwei-Hop-Attribution, das heißt, wir zielen darauf ab, festzustellen, ob Model B mit Daten ausgebildet wurde, die von Model A erzeugt wurden.In dieser Einstellung können die Daten, die von Model A erzeugt werden, nicht aufgezählt werden, und die erzeugten Daten sind nicht mit Wasserzeichen eingebettet.Diese Aufgabe hat die jüngste Aufmerksamkeit auf sich gezogen, und Han et al. [6] machte eine erste Erforschung darüber, ob die Trainingsdaten eines Klassifikationsmodells von einem spezifischen GAN-Modell in der aggressiven Verletzungs-Einstellung wie in Abschnitt 3 definiert erzeugt werden. Im Vergleich zu den bestehenden Bemühungen befasst sich unsere Arbeit mit einer schwierigeren Aufgabe unter einem realen Generationsszenario. Erstens untersuchen wir ein realistischeres Bedrohungsmodell. Wir betrachten nicht nur das aggressive Verletzungsmodell, sondern auch eine unbemerkte Einstellung. Wir argumentieren, dass die unbemerkte Einstellung weit verbreitet ist, insbesondere wenn viele Entwickler nur eine geringe Menge an Daten sammeln können, um ihre Modelle von Grund auf zu finanzieren. Zweitens untersuchen wir komplexere Themen. Frühere Studien untersuchten Quellmodelle mit einfachen GAN-Netzwerken, und das verdächtige Modell war ein geschlossenes Vokabular-Klassifizierungsmodell. In unserer Studie sind jedoch sowohl das Quellmodell als auch das verdäch 4.2 Design Übersicht Wie in Abbildung 3 dargestellt, sind die erzeugten Daten, die verwendet werden, um das Modell B zu trainieren, im Kontext der Zwei-Hop-Attribution agnostisch.Daher müssen wir, um die Zwei-Hop-Daten-Attribution zu lösen, eine Verbindung zwischen Modell B und Modell A herstellen. wo x ∼ X jeder Eingang aus der Verteilung X ist und ε eine kleine positive Zahl ist, die den Extraktionsfehler bedeutet. Inspiriert von den Modell-Extraktions-Aufgaben beschreiben wir die Zwei-Hop-Attributions-Aufgabe in Abbildung 4. Ein verletzendes Modell könnte entweder vollständig (d.h. aggressive Einstellung) oder teilweise (d.h. unbemerkt) die Verteilung des Quellmodells duplizieren.Unser primärer Einblick bei der Bewältigung dieser Sorge besteht darin, die in dem verdächtigen Modell vorhandene extrahierte Verteilung zu identifizieren.Um dies zu erreichen, bewerten wir die Beziehung zwischen dem Verhalten der Quelle und den verdächtigen Modellen, sowohl auf der Beispiel- als auch auf statistischer Ebene. , wir zielen darauf ab, ein verletzendes Modell zu identifizieren, indem wir das Attributionsvertrauen auf einer Reihe von Beispielen messen. Unter Anleitung der Gleichung 5 verwenden wir eine Reihe von Schlüsselproben, um sowohl die Quelle als auch verdächtige Modelle zu abfragen und danach die Ähnlichkeit ihrer Antworten zu messen. At instance level , wir zielen darauf ab, die Verhaltensunterschiede zwischen dem unschuldigen Modell und dem verletzenden Modell zu messen. Wir gehen davon aus, dass angesichts der Inputs aus der Verteilung des Quellmodells eine signifikante Leistungslücke zwischen den verletzenden und den unschuldigen Modellen bestehen wird. At statistical level Die Leistung der Instance-Level-Lösung beruht auf der Fähigkeit, Proben zu finden, die die Verteilung der Bildungsdaten der Quellmodelle präzise darstellen können. Sie verfügt über eine überlegene Interpretationsfähigkeit. Während die statistische Lösung in der Interpretationsfähigkeit knapp ist, ermöglicht sie eine umfassendere Zuweisung und damit eine überlegene Genauigkeit. 2.4.3 Lösung auf Instanzebene Der Kern der Instance-Level-Lösung besteht darin, die geteilten Unterverteilungen zwischen der Quelle und den verdächtigen Modellen zu erfassen (siehe Abbildung 4). In diesem Zusammenhang verwenden wir {X1, . . , Xn}, um Unterverteilungen des Quellmodells zu bezeichnen. Die Unterverteilungen des verdächtigen Modells, die mit dem Quellmodell geteilt werden, werden als {X1, . . , Xm} dargestellt. Es ist wichtig zu beachten, dass, wenn m gleich n ist, das verdächtige Modell als aggressives Verletzungsmodell angesehen wird. Wenn m weniger als n ist, bedeutet dies ein unerkennbares Verletzungsmodell. Umgekehrt, wenn m gleich 0, was bedeutet, dass das verdächtige Modell keine Unterverteilung mit der Quelle Das Modell ist privat für den Modelleigentümer, was bedeutet, dass andere nicht auf diese Daten oder auf Daten aus derselben Verteilung durch legitime Mittel zugreifen können. Die Instance-Level-Lösung kann wie folgt formalisiert werden: wo conf ist das Vertrauen, ob das verdächtige Modell M ein Verletzungsmodell ist.Die Formulierung weist zwei Probleme auf: 1) wie man den Eingang x vorbereitet, da die Probenahme aus der Verteilung Xi nicht erschöpfend sein kann. 2) wie man die Attributionsmetrik f entwirft. Die Idee hinter der Vorbereitung von Eingabedaten ist, wenn eine Reihe von X-Instanzen den Generierungsfehler des Quellmodells MS minimieren kann, dann gehören diese X-Instanzen höchstwahrscheinlich zu einer Unterverteilung, die von MS gelernt wird. Folglich, wenn diese X-Instanzen auch den Generierungsfehler auf einem verdächtigen Modell minimieren, deutet es darauf hin, dass dieses Modell auch auf der gleichen Unterverteilung geschult wurde. Dies führt zu einer Schlussfolgerung, dass das verdächtige Modell das Quellmodell verletzt, da wir davon ausgehen, dass nur der Quellmodelleigentümer Daten in dieser Unterverteilung hält. Diese Annahme ist vernünftig und praktisch. Wenn eine Instanz leicht von einer öffentlichen Verteilung und nicht privat an den MS-Eigentümer Attribution Input Vorbereitung Wir entwickeln zwei Strategien, um Schlüsselproben vorzubereiten, nämlich eine auf der Erkennung basierende Strategie und eine auf der Generation basierende Strategie. Wir zeigen diese beiden Strategien in Abbildung 5. Die auf der Erkennung basierende Strategie zielt darauf ab, einen Kernsatz innerhalb des MS-Ausbildungsdatensatzes zu identifizieren, der den Generationsfehler minimiert, der als repräsentative Proben der Modellverteilung dient. Diese Strategie ist schnell und erfordert keine Ausbildung. Die auf der Generation basierende Strategie konzentriert sich auf das Erstellen von Proben aus dem Quellmodell MS, die den Generationsfehler minimieren können. In dieser Strategie füttern wir zunächst alle Textanweisungen TXT aus dem Schulungsdatensatz des Quellmodells in das Quellmodell MS. Daraus generieren wir Bilder IMGgen. Danach verwenden wir den SSCD-Score [15] um die Ähnlichkeit zwischen IMGgen und ihren Grundwahrheitsbilder IMGgt zu vergleichen. Der SSCD-Score ist die hochmoderne Bildähnlichkeitsmessung, die weit verbreitet bei der Bildkopiererkennung verwendet wird[22, 23]. Wir wählen N-Instanzen mit den größten Ähnlichkeitspunkten als Schlüsselproben aus: Detection-based strategy In einem Text-zu-Bild-Modell gibt es zwei Komponenten: den Text-Encoder und den Bild-Decoder. Für diese bestimmte Strategie beginnen wir, indem wir zufällig eine Gruppe von Text-Prompts aus dem Trainingssatz des Quellmodells auswählen. Wir bezeichnen diese als Samen-Prompts. Jede ausgewählte Text-Eingabe (die wir als txt bezeichnen) besteht aus n Tokens, dh txt = [tok1, tok2, . . . , tokn]. Der nächste Schritt besteht darin, den Text-Encoder des Quellmodells zu verwenden, um jeden Token von txt in eine eingebettete Form umzuwandeln, wodurch c = [c1, c2, ..., cn] erzeugt wird. Nach dieser Einbettungsphase optimieren wir c über iter Generation-based strategy Wenn wir die Konvergenz erreicht haben, verwandeln wir die optimierte kontinuierliche Textembedding c ′ zurück in diskrete Token-Embeddings. Um dies zu tun, finden wir das nächstgelegene Wortembedding (als c ∗ im Vokabular bezeichnet. Da wir jedoch die Optimierung auf Wortebene durchführen, haben einige der resultierenden optimierten Embeddings möglicherweise keinen Sinn. Um diesem Problem entgegenzuwirken, wenden wir die Nachbearbeitung auf die identifizierten Embeddings an. Wir berechnen den Hammerabstand zwischen der lokalisierten Embedding c ∗ und der entsprechenden Samenembedding c. Wir behalten dann die Top-N-Embeddings, die mit den kleinsten Hammerabständen. Schließlich verwenden wir das One-to-One-M Jetzt verwenden wir die Ähnlichkeit zwischen der Ausgabe der Quelle und dem verdächtigen Modell, das von den Schlüsselproben bedingt ist, um die metrische f in Gleichung 6 zu instantieren. Attribution Metric für Instance-Level-Lösung 2.5 Statistische Lösungen Wir nutzen die Schattenmodelltechnik aus dem Mitgliedschaftsschlussangriff [21], um die kennzeichnenden Trainingsdaten für fD zu sammeln. Die Autoren: 1) Likun Zhang 2. Hao Wu 3) Lingcui Zhang 4) Fengyuan Xu 5. Jin Cao (6) Fenghua Li (7) Ben Niu . Authors: 1) Likun Zhang 2. Hao Wu 3) Lingcui Zhang 4) Fengyuan Xu 5. Jin Cao (6) Fenghua Li (7) Ben Niu . Dieses Dokument ist unter der Lizenz CC BY 4.0 verfügbar. Dieses Papier ist unter der CC BY 4.0 Lizenz. Verfügbar im Archiv