Mesa de la izquierda Abstract and Introduction Background & Related Work 2.1 Text-to-Image Diffusion Model 2.2 Watermarking Techniques 2.3 Preliminary 2.3.1 [Problem Statement](https://hackernoon.com/preview/2x1yHRqHVmhjmOG0ig2c) 2.3.2 [Assumptions](https://hackernoon.com/preview/2x1yHRqHVmhjmOG0ig2c) 2.4 Methodology 2.4.1 [Research Problem](https://hackernoon.com/preview/2x1yHRqHVmhjmOG0ig2c) 2.4.2 [Design Overview](https://hackernoon.com/preview/2x1yHRqHVmhjmOG0ig2c) 2.4.3 [Instance-level Solution](https://hackernoon.com/preview/2x1yHRqHVmhjmOG0ig2c) 2.5 Statistical-level Solution Experimental Evaluation 3.1 Settings 3.2 Main Results 3.3 Ablation Studies 3.4 Conclusion & References 2 Fundamentos y trabajos relacionados 2.1 Modelo de difusión de texto a imagen En general, un modelo de datos de texto a imagen es un tipo de modelo generativo condicional que tiene como objetivo crear imágenes basadas en descripciones textuales a través de modelos generativos. Se entrenan con datos en forma de pares de texto-imagen. En este documento, tomamos el modelo actual de texto a imagen, es decir, la difusión estable (SD) [17], para crear un prototipo de nuestro método. Sin embargo, tenga en cuenta que nuestro enfoque puede ser aplicado para proteger otros tipos de modelos. La difusión estable (SD) [17] es un modelo de difusión latente típico (LDM). SD contiene principalmente tres módulos: (1) el módulo de codificación de texto W : toma un mensaje de texto P, y lo codifica en la incorporación de texto correspondiente c = W (P (2)); el módulo de codificación automática incluyendo El objetivo para el aprendizaje de un modelo de difusión condicional (basado en pares de formación de imagen-condición (x, c)) es el siguiente: Después de la denociación, la representación latente z es decodificada en una imagen por D. 2.2 Técnicas de etiquetado de agua Estudios recientes sugieren el uso de técnicas de marcado de agua como una defensa contra el mal uso de los datos generados.Estas técnicas ayudan a identificar modelos de copia-pasta [11, 28] o modelos sujetos a ataques de extracción [8, 13]. Tipicamente, estos marcadores de agua se incorporan en el modelo durante la fase de entrenamiento o en la salida durante la fase de generación. Un enfoque común implica el uso de desencadenantes de puertas traseras como marcadores de agua. Esto ayuda a identificar modelos que reutilizan directamente los pesos del modelo de fuente [1]. Estudios recientes también han demostrado que los modelos de difusión de texto a imagen pueden ser vulnerables a los ataques de puertas traseras [4, 5, 11, 24, 28]. Sin embargo, estos marcadores de agua basados en desencadenantes pueden ser fácilmente eliminados durante los ataques de extracción de modelos debido a la escasez de peso y la ocultación de la puerta trasera. Para combatir esto, Jia et al. [8] sugirieron representaciones intertwining extraídas de los datos de entrenamiento con marcadores de agua. Lv et al. [13] avanzaron esta idea para modelos de aprendizaje auto-supervisados, disminuyendo el requisito de que los Watermarking during the training phase. Implica modificar las salidas del modelo para incorporar las marcas de agua únicas del propietario del modelo. Para los modelos de generación de código basados en LLM, Li et al. [10] diseñaron marcas de agua especiales reemplazando los tokens en el código generado con alternativas sinónimas del lenguaje de programación. Watermarking during generation phase. Actualmente, las técnicas de watermarking aún no han sido exploradas por su potencial para abordar la tarea de atribución de datos de formación (ver sección 4.1). Además, la aplicación de estas técnicas puede conducir a una caída en la calidad de los datos generados por el modelo [28]. Además, estas técnicas podrían reducir la calidad de los datos generados por el modelo [28], y a menudo requieren conocimientos especializados de seguridad para la implementación durante el desarrollo del modelo. 2.3 Preliminares 2.3.1 Declaración de problemas Denotamos el modelo de fuente de texto a imagen bien entrenado como MS. El modelo de fuente es entrenado con una gran cantidad de pares de "text-image" de alta calidad, denominados como {TXTt , IMGt }. Durante la fase de inferencia, puede generar un img, dado un mensaje de texto txt, es decir, El modelo de fuente. Un oponente agresivo podría pretender entrenar su modelo de texto a imagen para ofrecer servicios en línea para ganancias económicas. El oponente puede obtener fácilmente una arquitectura de modelo de código abierto, que puede ser la misma que el modelo de origen o puede no ser. El oponente no tiene suficientes pares de "text-image" de alta calidad para entrenar un modelo satisfactorio. Puede preparar el conjunto de datos de entrenamiento de la siguiente manera. El oponente prepara un conjunto de texto TXTA, y consulta el MS con el conjunto de texto, y recoge el IMGA correspondiente generado por MS. Luego, el oponente entrena su modelo MA con los pares de datos generados. Modelo de infracción agresiva el oponente abusa de los datos generados, y se viola el derecho del modelo de origen. Tenga en cuenta que cuando ρ es igual a 1, el adversario invisible se convierte en el adversario agresivo. Por lo tanto, para la simplicidad, utilizamos las siguientes notaciones para representar estos dos tipos de adversarios, es decir, Por el bien de la narración rigurosa, definimos un modelo inocente, denominado MIn, que ofrece servicios similares al modelo fuente, pero sus datos de formación no tienen conexión alguna con los datos generados por la MS. Un modelo inocente. 3.2 Suposiciones Aquí hacemos algunas suposiciones razonables para ilustrar mejor nuestro escenario de trabajo. La arquitectura del modelo y el algoritmo de entrenamiento del modelo MS pueden ser de código abierto. El propietario del modelo de origen MS no tiene ningún conocimiento de seguridad, por lo que ni acuñó ningún dato de entrenamiento durante el entrenamiento del modelo ni modificó la salida del modelo en la fase de inferencia para fines de acuñamiento. La pregunta de mayor preocupación para el propietario del modelo, como se muestra en la Figura 2, es si los datos generados por MS se han utilizado para entrenar a otro modelo. About the source model and its owner. Hipotetizamos que el proceso de formación del modelo fuente podría involucrar tanto datos accesibles al público como datos privados. Este artículo discute la atribución de los datos generados relevantes a los datos privados. El modelo sospechoso M se encuentra en una configuración de caja negra. El modelo sospechoso puede compartir la misma arquitectura de modelo que el modelo de origen. También se proporciona la funcionalidad del modelo sospechoso, que es necesaria para que un usuario ordinario use el modelo sospechoso. Sólo ofrece una interfaz de consulta para que los usuarios realicen la investigación. About the suspicious model. 2.4 Metodología 4.1 Problemas de investigación Definimos la tarea de "determinar si una pieza de datos es generada por un modelo particular" como una atribución de datos de un solo paso. Esta idea se ilustra en la Figura 3. La atribución de datos de un solo paso está ganando atención tanto en la academia [11, 28] como en los círculos de la industria [16, 17]. Verificar la presencia de una determinada marca de agua en los datos generados es un procedimiento común de atribución de datos de un solo paso. Nuestro trabajo se centra en la atribución de dos saltos, es decir, nuestro objetivo es determinar si el Modelo B ha sido entrenado utilizando los datos generados por el Modelo A. En este entorno, los datos generados por el Modelo A no pueden ser enumerados, y los datos generados no están incorporados con marcas de agua. Esta tarea ha atraído la atención reciente, y Han et al. [6] hizo una exploración inicial sobre si los datos de entrenamiento de un modelo de clasificación son generados por un modelo GAN específico en el entorno de infracción agresiva tal como se define en la Sección 3. En comparación con el esfuerzo existente, nuestro trabajo aborda una tarea más desafiante bajo un escenario de generación en el mundo real. En primer lugar, investigamos un modelo de amenaza más realista. Consideramos no solo el modelo de infracción agresiva sino también un entorno invisible. Argumentamos que el ajuste invisible es más prevalente, especialmente cuando muchos desarrolladores solo pueden recopilar una pequeña cantidad de datos para ajustar sus modelos en lugar de entrenar desde cero. En segundo lugar, examinamos temas más complejos. Estudios anteriores exploraron modelos de fuente con redes GAN simples, y el modelo sospechoso era un modelo de clasificación de vocabulario cerrado. Sin embargo, en nuestro estudio, tanto el modelo de fuente como el modelo sospechoso son modelos de difusión de texto a imagen inexplorados capaces de gestionar tareas de 2.4.2 Descripción general del diseño Como se ilustra en la Figura 3, dentro del contexto de atribución de dos saltos, los datos generados utilizados para entrenar el Modelo B son agnósticos. Por lo tanto, para resolver la atribución de datos de dos saltos, debemos establecer una conexión entre el Modelo B y el Modelo A. Esto es similar a los trabajos en el campo de los ataques de extracción de modelos [12, 19, 27]. donde x ∼ X es cualquier entrada de la distribución X, y ε es un número positivo pequeño, significando el error de extracción. Inspirados por las tareas de extracción del modelo, describimos la tarea de atribución de dos saltos en la Figura 4.Un modelo infringente podría duplicar completamente (es decir, configuración agresiva) o parcialmente (es decir, configuración invisible) la distribución del modelo de origen.Nuestra visión primaria en abordar esta preocupación es identificar la distribución extraída presente en el modelo sospechoso.Para lograr esto, evaluamos la relación entre los comportamientos de la fuente y los modelos sospechosos, tanto a niveles de instancia como estadísticos. , buscamos identificar un modelo infringente mediante la medición de la confianza de atribución en un conjunto de instancias. Guiados por la ecuación 5, utilizamos un conjunto de muestras clave para interrogar tanto a la fuente como a los modelos sospechosos, y luego medir la similitud de sus respuestas. El desafío reside en la selección de muestras clave. At instance level , tenemos como objetivo medir las diferencias de comportamiento entre el modelo inocente y el modelo infringente. Hipotetizamos que, dada la entrada de la distribución del modelo fuente, habrá una diferencia de rendimiento significativa entre los modelos infringentes y inocentes. El desafío aquí es desarrollar una técnica que mide con precisión esta diferencia. At statistical level El rendimiento de la solución de nivel de instancia se basa en la capacidad de encontrar muestras que puedan representar con precisión la distribución de los datos de formación de los modelos de origen. Tiene una interpretación superior. Mientras que la solución de nivel estadístico queda corta en interpretación, permite una atribución más completa, y por lo tanto una precisión superior. Por lo tanto, en la práctica, recomendamos a los usuarios elegir según sus requisitos específicos. 2.4.3 Solución a nivel de instancia El núcleo de la solución de nivel de instancia es capturar las subdistribuciones compartidas entre la fuente y los modelos sospechosos (Referencia a la Figura 4). En este contexto, usamos {X1, . . , Xn} para denotar las subdistribuciones del modelo fuente. Las subdistribuciones del modelo sospechoso, que son compartidas con el modelo fuente, se representan como {X1, . . , Xm}. Es importante notar que cuando m es igual a n, el modelo sospechoso se considera un modelo de infracción agresivo. Si m es menor que n, significa un modelo de infracción inconsciente. Por el contrario, si m es igual a 0, implicando que el modelo sospechoso no comparte ninguna subdistribución con el modelo fuente, se considera un modelo inocente. Como se asume en El modelo es privado para el propietario del modelo, lo que significa que otros no pueden acceder a estos datos o a cualquier dato de la misma distribución a través de medios legítimos. La solución a nivel de instancia se puede formalizar de la siguiente manera: donde conf es la confianza de si el modelo sospechoso M es un infringente.La formulación indica dos problemas: 1) cómo preparar la entrada x, ya que la muestra de la distribución Xi no puede ser exhaustiva. 2) cómo diseñar la métrica de atribución f. A continuación, introducimos dos estrategias para preparar la entrada de atribución, y el diseño detallado de la métrica de atribución. La idea detrás de la preparación de datos de entrada es si un conjunto de instancias X puede minimizar el error de generación del modelo de origen MS, entonces estas instancias X son más propensas a pertenecer a una subdistribución aprendida por MS. Por lo tanto, si estas instancias X también minimizan el error de generación en un modelo sospechoso, sugiere que este modelo también ha sido entrenado en la misma subdistribución. Esto conduce a una conclusión de que el modelo sospechoso infringe el modelo de origen, ya que asumimos que sólo el propietario del modelo de origen tiene datos en esta subdistribución. Esta suposición es razonable y práctica. Si una instancia se obtiene fácilmente de una distribución pública y no privada al propietario de MS, no hay una fuerte motivación para rastrear el uso. Dado Atribución Input Preparación Desarrollamos dos estrategias para preparar muestras clave, a saber, una estrategia basada en la detección y una estrategia basada en la generación. ilustramos estas dos estrategias en la Figura 5. La estrategia basada en la detección tiene como objetivo identificar un conjunto central dentro del conjunto de datos de entrenamiento de MS que minimiza el error de generación, que sirve como muestras representativas de la distribución del modelo. Esta estrategia es rápida y no requiere ningún entrenamiento. La estrategia basada en la generación se centra en crear muestras del modelo de origen MS que pueden minimizar el error de generación. que puede minimizar el error de generación. Esta estrategia ofrece un espacio de muestras más amplio y una precisión superior en comparación con la estrategia basada en la detección. Vamos a detallar cómo funcionan estas estrat En esta estrategia, comenzamos alimentando todos los mensajes de texto TXT desde el conjunto de datos de formación del modelo de origen al modelo de origen MS. Desde esto, generamos imágenes IMGgen. A continuación, utilizamos la puntuación SSCD [15] para comparar la similitud entre IMGgen y sus imágenes de verdad fundamental IMGgt. La puntuación SSCD es la medición de similitud de imagen de última generación ampliamente utilizada en la detección de copia de imagen[22, 23]. Seleccionamos las instancias N con la mayor puntuación de similitud como muestras clave: Detection-based strategy En un modelo de texto a imagen, hay dos componentes: el codificador de texto y el decodificador de imagen. Para esta estrategia particular, comenzamos seleccionando aleatoriamente un grupo de prompts de texto del conjunto de datos de formación del modelo fuente. Nos referimos a estos como prompts de semilla. Cada entrada de texto seleccionada (que denotamos como txt) está compuesta de n tokens, es decir, txt = [tok1, tok2, . . . , tokn]. El siguiente paso es utilizar el codificador de texto del modelo fuente para convertir cada token de txt en una forma embebida, produciendo c = [c1, c2, ..., cn]. Después de esta fase de embalaje, optimizamos c sobre iterations para obtener una embalaje actualizada, c′, El objetivo de la optimización es minimizar la pérd Generation-based strategy Al alcanzar la convergencia, transformamos la incorporación de texto continuo optimizada c ′ de nuevo en incorporaciones de token discretas. Para ello, encontramos la incorporación de palabra más cercana (referida como c ∗ en el vocabulario. Sin embargo, debido a que realizamos la optimización en el nivel de palabra, algunas de las incorporaciones optimizadas resultantes pueden no tener sentido. Para contrarrestar este problema, aplicamos el postprocesamiento a las incorporaciones identificadas. Calculamos la distancia de colocación entre la incorporación ubicada c ∗ y su incorporación de semillas correspondiente c. Luego, retenemos las incorporaciones encontradas en el top-N, aquellas con las distancias de colocación más pequeñas. Finalmente, utilizando el mapeo uno a uno entre la incorporación de Ahora usamos la similitud entre la salida de la fuente y el modelo sospechoso condicionado por las muestras clave para instantizar la métrica f en la ecuación 6. Atribución de Metric para Solución de nivel de instancia. 5.2 Soluciones estadísticas Aprovechamos la técnica del modelo de sombra del ataque de inferencia de membresía [21] para recopilar los datos de entrenamiento etiquetados para fD. Esto implica los siguientes pasos: Los autores: a) El juicio de Zhang b) El señor Wu; 3) Lingcui Zhang 4) Fengyuan Xu 5) El Jin Cao; 6) Fenghua Li (7) Ben Niu . Authors: a) El juicio de Zhang b) El señor Wu; 3) Lingcui Zhang 4) Fengyuan Xu 5) El Jin Cao; 6) Fenghua Li (7) Ben Niu . Este artículo está disponible en archivo bajo la licencia CC BY 4.0. Este artículo está disponible en archivo bajo la licencia CC BY 4.0.