Mesa de la izquierda Abstract and Introduction Background & Related Work 2.1 Text-to-Image Diffusion Model 2.2 Watermarking Techniques 2.3 Preliminary 2.3.1 Problem Statement 2.3.2 Assumptions 2.4 Methodology 2.4.1 Research Problem 2.4.2 Design Overview 2.4.3 Instance-level Solution 2.5 Statistical-level Solution Experimental Evaluation 3.1 Settings 3.2 Main Results 3.3 Ablation Studies 3.4 Conclusion & References 3 Evaluación experimental En esta sección, primero describiremos nuestros procedimientos experimentales.Después, demostraremos si el método propuesto puede alcanzar los objetivos identificados en la Sección 3.1. 3.1 Configuración Utilizamos Stable Diffusion [17] con los puntos de control Stable-Diffusion-v1-5 (SD-v1) [25] y Stable-Diffusion-v2-1 (SDv2) [26] como modelos pre-entrenados. Text-to-image models. Seleccionamos dos conjuntos de datos de imágenes de subtítulos ampliamente adoptados. Datasets CelebA-Dialog-HQ (CelebA) [9]: un conjunto de datos faciales en lenguaje visual a gran escala con 30.000 imágenes faciales de alta resolución con el tamaño de 1024×1024 seleccionados del conjunto de datos CelebA. Acompañado por cada imagen, hay un subtítulo que describe cinco atributos de grano fino, incluyendo Bangs, Eyeglasses, Beard, Smiling y Age. 2) Google’s Conceptual Captions (CC3M) [20]: un nuevo conjunto de datos compuesto por 3.3M imágenes anotadas con capturas. usamos su división de validación que consiste en 15.840 pares de imagen / capturas. En contraste con el estilo curado de otras anotaciones de subtítulos de imagen, las imágenes Conceptual Caption y sus descripciones se extraen de la web, y por lo tanto representan una mayor variedad de estilos. Para los datos de entrenamiento para el finetuning, seleccionamos aleatoriamente 3000 muestras de cada conjunto de datos y las redimensionamos en 512×512. Finetunamos cada modelo pre-entrenado en cada conjunto de datos para un total de 3000 iteraciones con una tasa de aprendizaje constante de 2e-6 y tamaño de lote de 2. Denominamos estos modelos de fuente como: SD-v1, SD-v2, SD-v1-CelebA, SD-v2-CelebA, SD-v1-CC3M, SD-v2-CC3M. Source model construction Mientras que el pre-entrenamiento y el finetuning plantean preocupaciones sobre la infracción de la IP, el finetuning tiene un impacto más severo. En comparación con el pre-entrenamiento, el finetuning es altamente conveniente y eficiente, permitiendo muchos usos no autorizados sin mucha restricción de recursos. Por lo tanto, construimos cada modelo infringente mediante el finetuning de un modelo pre-entrenado en 500 muestras de entrenamiento, donde una proporción de ρ de ellos son generados por un modelo fuente, mientras que el resto se muestran a partir de los datos reales. Suspicious model construction. Tenga en cuenta que nuestro trabajo es el primero en abordar el problema de la atribución de datos de formación en el escenario de texto a imagen, y por lo tanto, no hay trabajo directamente relacionado. Baselines Más específicamente, como se propone en [12], al codificar una matriz de 32 bits única en las imágenes generadas por los modelos de fuente, los modelos infringentes entrenados en tales datos marcados con agua también generarán imágenes en las que se puede detectar la marca de agua. Base 1: Atribución de datos basada en Watermark Esta base adopta la idea similar con nuestra solución de nivel de instancia, pero no Baseline 2: Atribución de datos basada en selección aleatoria. No utilice la Estrategia 1 y la Estrategia 2 que propusimos para la atribución de datos. En concreto, seleccionamos aleatoriamente muestras de formación N del conjunto de datos de formación del modelo de origen como la entrada de atribución. Utilizamos la puntuación Precisión, Área bajo curva (AUC) y TPR@10%FPR [2] para evaluar la exactitud y fiabilidad de los métodos de atribución. Evaluation Metrics. 3.2 Principales resultados Dado cada modelo de fuente, construimos 30 modelos infringentes y calculamos la métrica conf definida en la ecuación 9 para cada modelo infringente. Aquí definimos el tamaño de muestra clave como N = 30. Para evaluar la fiabilidad de nuestra solución de atribución a nivel de instancia, reportamos el valor medio de conf entre los 30 modelos infringentes bajo diferentes tasas de generación ρ en la Figura 6. Los modelos infringentes están ajustados finamente con proporciones crecientes de imágenes generadas (ρ = 30%, 50%, 70%, 100% de un total de 500). El eje y de la Figura 6 se refiere al valor medio de conf. Cuanto mayor sea el valor, más fiable será nuestra solución de atribución a nivel de instancia. Effectiveness of Instance-level Attribution. Resultado principal 1: Nuestra solución supera la línea de base 2, demostrando una mejora significativa en la confianza en la atribución por más de 0,2 a través de diversos valores ρ. Al mismo tiempo, nuestra estrategia basada en la generación para la atribución alcanza una fiabilidad equivalente a la de la línea de base 1, con una disminución mínima en la confianza no superior a 0,1. Resultado principal 2: Nuestro método de atribución mantiene su fiabilidad incluso cuando el modelo infringente utiliza una pequeña fracción de los datos generados para la formación.Nuestra resolución a nivel de instancia, aprovechando una estrategia basada en la generación, muestra una confianza de predicción superior a 0,6, incluso bajo una tasa de generación más leve del 30%. Para entrenar el modelo de discriminador en la Sección 4.4, se establece n = 500, s = 10, N = 30. Se evalúa el modelo de discriminador y se muestran las métricas de precisión, AUC y TPR@10%FPR en la Tabla 1. Effectiveness of Statistical-level Attribution Resultado principal 3: Los resultados de la Tabla 1 muestran que nuestra atribución alcanza una alta precisión y el rendimiento AUC, donde la exactitud supera el 85%, y la AUC es superior a 0,8 para atribuir modelos infringentes a diferentes modelos de fuente. La exactitud y la AUC son métricas de caso promedio que miden cuántas veces un método de atribución prevé correctamente la infracción, mientras que una atribución con un alto FPR no puede considerarse fiable. Por lo tanto, utilizamos la métrica TPR@10%FPR para evaluar la fiabilidad de la atribución a nivel estadístico. La columna más derecha de la Tabla 1 muestra que el TPR es superior a 0,7 con un bajo FPR de 10%. Esto significa que nuestra atribución no afirma falsamente un modelo inocente y es capaz de distinguir 3.3 Estudios de ablación δ0. Para determinar un valor óptimo para δ0 para la atribución a nivel de instancia, calculamos los valores de distancia de reconstrucción utilizando 30 muestras clave en un modelo infringente con ρ = 1 y un modelo inocente con ρ = 0. El modelo inocente se ajusta al modelo pre-entrenado de SD-v2. La tabla 2 compara la distribución de distancia de reconstrucción entre los modelos sospechosos basados en diferentes modelos de origen. Las columnas 4-8 muestran el porcentaje de muestras dentro de un rango de distancia de reconstrucción determinado para cada caso, mientras que las últimas 2 columnas presentan la media y la mejor distancia de reconstrucción entre todas las muestras, respectivamente. Effect of hyper-parameter diferencias entre las distribuciones del modelo inocente y el modelo infringente, más fácil es encontrar un δ0 para la atribución. Para el modelo inocente, la distancia de reconstrucción de una gran proporción de muestras (tan grande como 73.9%) cae dentro del rango de [0.15,0.2), mientras que sólo el 4,3% de las muestras tienen la distancia de reconstrucción menor que 0.15. Para el modelo infringente, hay alrededor del 20% de las muestras tienen la distancia de reconstrucción menor que 0.1. En la mayoría de los casos (5 de los 6 modelos infringentes), más de una proporción de 40% de las muestras tienen la distancia de reconstrucción dentro del rango de [0.1,0.15). Esto indica que δ0 = 0.15 es un límite significativo para distinguir modelos inocentes y modelos infringentes independientemente de los modelos fuente. Por lo tanto, establecemos δ0 = 0.15 en nuestros experimentos. Siguiendo los ajustes en la Tabla 2, estudiamos más adelante el impacto de N en la atribución a nivel de instancia, donde N varía de 20 a 100 en la Figura 7. El eje y se refiere al valor medio de conf en las muestras clave N a través de la Ecuación 6, donde conf representa la confianza de atribución para identificar modelos infringentes. Cada subfigura en la Figura 7 representa un modelo infringente con el modelo de fuente correspondiente especificado en el subtítulo. Sin embargo, cuanto mayor es la confianza, más fiable es la solución de atribución. Teóricamente, un N creciente mejora la fiabilidad de la verificación pero requiere más consultas al modelo sospechoso. En concreto, N = 100 alcanza la confianza más alta, aproximadamente 0.1 más alta que la de N = 30. Sin embargo, un número de tales consult Effect of key sample size 𝑁. 3.4 Conclusión Este trabajo aborda el problema crucial de la atribución de datos de capacitación, investigando si un modelo sospechoso infringe la propiedad intelectual de un modelo comercial utilizando sus datos generados sin autorización. Nuestra solución de atribución propuesta permite la identificación del modelo de origen del cual se originaron los datos de capacitación de un modelo sospechoso. La razón de nuestro método consiste en aprovechar la propiedad inherente de memorización de los conjuntos de datos de capacitación, que se transmitirá a través de los datos generados y se conservará dentro de los modelos entrenados en tales datos. Hemos diseñado algoritmos para detectar muestras distintas que muestran comportamientos idiosincráticos en ambos modelos de origen y sospechosos, aprovechando estos como marcadores inherentes para rastrear el linaje del modelo sospechoso. En conclusión Referencias [1] Yossi Adi, Carsten Baum, Moustapha Cissé, Benny Pinkas y Joseph Keshet. 2018. Convertir su debilidad en una fuerza: Watermarking Deep Neural Networks by Backdooring. In Proc. of USENIX Security Symposium. [2] Nicholas Carlini, Steve Chien, Milad Nasr, Shuang Song, Andreas Terzis, y Florian Tramer. 2022. Ataques de inferencia de miembros desde los primeros principios. En porcentaje de IEEE S&P. [3] Nicholas Carlini, Jamie Hayes, Milad Nasr, Matthew Jagielski, Vikash Sehwag, Florian Tramèr, Borja Balle, Daphne Ippolito y Eric Wallace. 2023. Extracción de datos de formación de modelos de difusión. En porcentaje de USENIX Security. [4] Weixin Chen, Dawn Song, y Bo Li. 2023. TrojDiff: ataques de troyanos a modelos de difusión con objetivos diversos. en porcentaje de IEEE CVPR. [5] Sheng-Yen Chou, Pin-Yu Chen, y Tsung-Yi Ho. 2023. ¿Cómo hacer modelos de difusión de puertas traseras?. En porcentaje de IEEE CVPR. [6] Ge Han, Ahmed Salem, Zheng Li, Shanqing Guo, Michael Backes y Yang Zhang. 2024. Detección y atribución de modelos entrenados en datos generados. En porcentaje de IEEE ICASSP. [7] ImagenAI. [n. d.]. https://imagen-ai.com/terms-of-use [8] Hengrui Jia, Christopher A Choquette-Choo, Varun Chandrasekaran y Nicolas Papernot. 2021. Marcas de agua entangladas como defensa contra la extracción de modelos. En porcentaje de seguridad de USENIX. [9] Yuming Jiang, Ziqi Huang, Xingang Pan, Chen Change Loy, y Ziwei Liu. 2021. Talk-to-Edit: Fine-Grained Facial Editing via Dialog. En Proc. de IEEE ICCV. [10] Zongjie Li, Chaozheng Wang, Shuai Wang, y Cuiyun Gao. 2023. Protección de la propiedad intelectual de las APIs de generación de códigos basadas en modelos de idiomas grandes a través de Watermarks. En porcentaje de ACM CCS. [11] Yugeng Liu, Zheng Li, Michael Backes, Yun Shen, y Yang Zhang. 2023. modelo de difusión de marcación del agua. arXiv preprint arXiv:2305.12502 (2023). [12] Ge Luo, Junqiang Huang, Manman Zhang, Zhenxing Qian, Sheng Li, y Xinpeng Zhang. 2023. robar mis obras de arte para el ajuste perfecto? un marco de marcado de agua para detectar el robo de arte en modelos de texto a imagen. arXiv preprint arXiv:2311.13619 (2023). [13] Peizhuo Lv, Hualong Ma, Kai Chen, Jiachen Zhou, Shengzhi Zhang, Ruigang Liang, Shenchen Zhu, Pan Li, y Yingjun Zhang. 2024. MEA-Defender: Una marca de agua robusta contra el ataque de extracción de modelos. En porcentaje de IEEE S&P. [14] MidJourney. [n. d.]. https://docs.midjourney.com/docs/terms-of-service [15] Ed Pizzi, Sreya Dutta Roy, Sugosh Nagavara Ravindra, Priya Goyal y Matthijs Douze. 2022. Un descriptor autosuficiente para la detección de copia de imagen. En porcentaje de IEEE/CVF CVPR. [16] Aditya Ramesh, Prafulla Dhariwal, Alex Nichol, Casey Chu, y Mark Chen. 2022. Generación de imágenes jerárquicas de texto condicional con latentes CLIP. arXiv preprint arXiv:2204.06125 (2022). [17] Robin Rombach, Andreas Blattmann, Dominik Lorenz, Patrick Esser y Björn Ommer. 2022. Síntesis de imágenes de alta resolución con modelos de difusión latente. En porcentaje de IEEE CVPR. [18] Olaf Ronneberger, Philipp Fischer, y Thomas Brox. 2015. U-net: redes convolucionales para la segmentación de imágenes biomédicas. en porcentaje de Springer MICCAI. [19] Zeyang Sha, Xinlei He, Ning Yu, Michael Backes, y Yang Zhang. 2023. No puede robar? contra-robar! Ataques de robo de contraste contra los codificadores de imagen. En porcentaje de IEEE CVPR. [20] Piyush Sharma, Nan Ding, Sebastian Goodman y Radu Soricut. 2018. Capciones conceptuales: Un conjunto de datos de texto alternativo de imagen limpio, hipernímico para la captación automática de imágenes. En porcentaje de ACL. [21] Reza Shokri, Marco Stronati, Congzheng Song y Vitaly Shmatikov. 2017. ataques de inferencia de miembros contra modelos de aprendizaje automático. En 2017 IEEE Symposium on Security and Privacy (SP). IEEE, 3–18. [22] Gowthami Somepalli, Vasu Singla, Micah Goldblum, Jonas Geiping y Tom Goldstein. 2023. Arte de difusión o falsificación digital? Investigando la replicación de datos en modelos de difusión. En porcentaje de IEEE CVPR. [23] Gowthami Somepalli, Vasu Singla, Micah Goldblum, Jonas Geiping y Tom Goldstein. 2023. Comprensión y mitigación de la copia en modelos de difusión. En porcentaje de NeurIPS. [24] Lukas Struppek, Dominik Hintersdorf y Kristian Kersting. 2022. Rickrolling the Artist: Injecting Invisible Backdoors into Text-Guided Image Generation Models. arXiv preprint arXiv:2211.02408 (2022). [25] Stable-Diffusion v1 5. [n. d.]. https://huggingface.co/runwayml/stable-diffusionv1-5 [26] Stable-Diffusion v2 1. [n. d.]. https://huggingface.co/stabilityai/stable-diffusion2-1 [27] Yixin Wu, Rui Wen, Michael Backes, Ning Yu, y Yang Zhang. 2022. ataques de robo de modelos contra modelos de lenguaje de visión. (2022). [28] Yunqing Zhao, Tianyu Pang, Chao Du, Xiao Yang, Ngai-Man Cheung, y Min Lin. 2023. una receta para modelos de difusión de marcación del agua. arXiv preprint arXiv:2303.10137 (2023). Los autores: a) El juicio de Zhang b) El señor Wu; 3) Lingcui Zhang 4) Fengyuan Xu 5) El Jin Cao; 6) Fenghua Li (7) Ben Niu . Authors: a) El juicio de Zhang b) El señor Wu; 3) Lingcui Zhang 4) Fengyuan Xu 5) El Jin Cao; 6) Fenghua Li (7) Ben Niu . Este artículo está disponible en archivo bajo la licencia CC BY 4.0. Este artículo está disponible en archivo bajo la licencia CC BY 4.0. Disponible en Archivo