테이블 왼쪽 Abstract and Introduction Background & Related Work 2.1 Text-to-Image Diffusion Model 2.2 Watermarking Techniques 2.3 Preliminary 2.3.1 Problem Statement 2.3.2 Assumptions 2.4 Methodology 2.4.1 Research Problem 2.4.2 Design Overview 2.4.3 Instance-level Solution 2.5 Statistical-level Solution Experimental Evaluation 3.1 Settings 3.2 Main Results 3.3 Ablation Studies 3.4 Conclusion & References 3 실험적 평가 이 섹션에서, 우리는 먼저 우리의 실험 절차를 설명합니다.그리고, 우리는 제안 된 방법이 섹션 3.1에서 식별 된 목표를 달성할 수 있는지 여부를 보여줍니다.마침내, 우리는 ablation 연구를 완료하고 최적의 하이퍼 매개 변수를 선택하는 전략을 논의합니다. 3.1 설정 우리는 Stable-Diffusion-v1-5 (SD-v1) [25] 및 Stable-Diffusion-v2-1 (SDv2) [26] 체크포인트와 함께 Stable Diffusion [17]을 사전 훈련된 모델로 사용합니다. Text-to-image models. 우리는 두 개의 널리 채택된 자막 이미지 데이터 세트를 선택합니다. Datasets CelebA-Dialog-HQ (CelebA) [9] : CelebA 데이터 세트에서 선택한 1024×1024의 크기의 30,000 개의 고해상도 얼굴 이미지를 포함한 대규모 시각 언어 얼굴 데이터 세트. 각 이미지와 함께 Bangs, Eyeglasses, Beard, Smiling, and Age를 포함한 5 개의 미묘한 특성을 설명하는 텍스트가 있습니다. 2) Google의 Conceptual Captions (CC3M) [20] : 3.3M 이미지와 함께 항목으로 구성된 새로운 데이터 세트. 우리는 15,840 이미지 / 항목 쌍으로 구성된 검증 분할을 사용합니다. 다른 이미지 항목의 코어 스타일과는 달리 Conceptual Caption 이미지와 그 설명은 웹에서 수집되며 따라서 스타일의 넓은 다양성을 대표합니다. 우리는 사전 훈련된 모델을 직접 사용하거나 결과적으로 위의 데이터 세트에 최적화하여 원본 모델을 구축합니다. finetuning를 위한 훈련 데이터를 위해, 우리는 각 데이터 세트에서 3000개의 샘플을 무작위로 선택하고 512×512로 크기를 변경합니다. 우리는 각 데이터 세트의 각 사전 훈련된 모델을 최적화하여 2e-6의 끊임없는 학습 속도와 2의 배치 크기로 총 3000개의 반복을 수행합니다. Source model construction Pre-training과 finetuning 모두 IP 침해에 대한 우려를 제기하는 반면, finetuning은 더 심각한 영향을 미칩니다. pre-training에 비해, finetuning은 매우 편리하고 효율적이며, 많은 자원 제한없이 많은 허가받지 않은 사용을 허용합니다. 따라서 우리는 ρ = 0을 설정함으로써 무고한 모델을 구축하기 위해 위의 파이프라인을 따릅니다. Suspicious model construction. 우리의 작업은 텍스트-그림 시나리오에서 교육 데이터 할당의 문제를 해결하는 첫 번째이며, 따라서 직접 관련된 작업이 없습니다. Baselines 더 구체적으로, [12]에서 제안한 바와 같이, 소스 모델에 의해 생성 된 이미지에 독특한 32 비트 배열을 인코딩함으로써, 그러한 물 표시 데이터에 훈련 된 침해 모델은 또한 물 표시를 감지 할 수있는 이미지를 생성할 것이라고 믿습니다. Baseline 1: Watermark 기반 데이터 할당 이 기본은 우리의 인스턴스 레벨 솔루션과 비슷한 아이디어를 채택하지만, Baseline 2: Random Selection 기반 데이터 할당. 우리가 데이터 할당에 제안한 전략 1과 전략 2를 사용하지 마십시오.특히, 우리는 원본 모델의 훈련 데이터 세트에서 임의로 N 훈련 샘플을 할당 입력으로 선택합니다. 정밀도, 범위 아래 곡선 (AUC) 점수 및 TPR@10%FPR [2]를 사용하여 할당 방법의 정확성과 신뢰성을 평가합니다. TPR@10%FPR는 낮은 거짓 긍정률 (FPR)에서 진정한 긍정률 (TPR)을 측정합니다. Evaluation Metrics. 3.2 주요 결과 각 소스 모델을 고려하여 30개의 침해 모델을 구축하고 각 침해 모델에 대해 9개의 정의된 conf 메트릭을 계산했습니다. 여기서 우리는 키 샘플 크기를 N = 30로 설정합니다. 인스턴스 수준의 할당 솔루션의 신뢰성을 평가하기 위해 우리는 그림 6의 ρ 생성율이 다르므로 30개의 침해 모델 중 평균 conf 값을 보고합니다. 인스턴스 수준의 할당 솔루션이 신뢰할수록 침해 모델은 생성된 이미지의 비율이 늘어나는 (ρ = 30%, 50%, 70%, 500%). 그림 6의 y 축은 평균 conf 값을 나타냅니다. Effectiveness of Instance-level Attribution. 주요 결과 1 : 우리의 솔루션은 Baseline 2를 초과하여 다양한 ρ 값을 통하여 부여 신뢰도에 0.2 이상의 상당한 향상을 보여줍니다.In the same time, our generation-based strategy for attribution achieves a reliability equivalent to that of Baseline 1, with a minimum decrease in trust not exceeding 0.1. 주요 결과 2: 우리의 할당 방법은 침해 모델이 생성 된 데이터의 작은 부분을 훈련을 위해 사용하는 경우에도 신뢰성을 유지합니다. 우리의 인스턴스 수준의 해상도는 생성 기반 전략을 활용하여 예측 신뢰도를 0.6를 초과합니다. 섹션 4.4에서 차별자 모델을 훈련하려면 n = 500, s = 10, N = 30을 설정합니다.We evaluate the discriminator model and show the Accuracy, AUC, and TPR@10%FPR metrics in Table 1. Effectiveness of Statistical-level Attribution 주요 결과 3: 표 1의 결과는 우리의 할당이 85%를 초과하는 높은 정확성과 AUC 성능을 달성하고, 침해 모델을 다른 소스 모델에 할당하기 위해 AUC가 0.8보다 높다는 것을 보여줍니다. 정확성과 AUC는 할당 방법이 침해를 올바르게 예측하는 횟수를 측정하는 평균 사례 메트릭이며, 높은 FPR를 가진 할당은 신뢰할 수 없습니다. 따라서 우리는 TPR@10%FPR 메트릭을 사용하여 통계 수준의 할당의 신뢰성을 평가합니다. 표 1의 가장 오른쪽 열은 TPR가 10 %의 낮은 FPR에서 0.7 이상이라는 것을 보여줍니다. 이것은 우리의 할당이 무고한 모델을 잘못 주장하지 않으며 침해 모델을 정확하게 구별할 수 있음을 의미합니다. 3.3 Ablation 연구 δ0. 인스턴스 수준의 배정에 대하여 δ0의 최적 값을 결정하기 위해, 우리는 ρ = 1과 ρ = 1의 침해 모델에 30개의 키 샘플을 사용하여 재건 거리 값을 계산합니다. 죄 없는 모델은 SD-v2의 사전 훈련된 모델에 최적 조정됩니다. 테이블 2는 서로 다른 원본 모델을 기반으로하는 의심스러운 모델 간의 재건 거리 분포를 비교합니다. 열 4-8은 각각의 경우에 대한 특정 재건 거리 범위 내의 샘플 비율을 표시하며, 마지막 2개의 열은 각각의 샘플 간의 평균 및 최상의 재건 거리를 나타냅니다. Effect of hyper-parameter 무고한 모델의 분포와 침해하는 모델 사이의 차이점은, 첨부를 위한 δ0을 찾는 것이 더 쉬워진다. 무고한 모델의 경우, 샘플의 대규모 비율 (73.9%)의 재건 거리는 [0.15,0.2] 범위 내에 떨어지며, 샘플의 4.3 %만이 0.15보다 작은 재건 거리를 가지고 있습니다. 침해하는 모델의 경우, 약 20 %의 샘플은 0.1보다 작은 재건 거리를 가지고 있습니다. 대부분의 경우(6 개의 침해 모델 중 5 개), 40 % 이상의 샘플은 [0.1,0.15] 범위 내에 재건 거리를 가지고 있습니다. 그것은 δ0 = 0.15이 원본 모델에 관계없이 무고한 모델과 침해 모델을 구별하는 데 중요한 경계를 나타냅니다. 따라서, 우리는 우리의 실험에서 δ0 = 0.15를 설정했습니다. 표 2의 설정에 따라 N이 인스턴스 수준의 할당에 미치는 영향을 N에서 N이 그림 7에서 20에서 100까지 범위에 따라 자세히 연구합니다. y-axis는 N 키 샘플에 대한 conf의 평균 값을 의미합니다. Equation 6을 통해 conf는 침해 모델을 식별하기위한 할당 신뢰를 나타냅니다. 그림 7의 각 하위 숫자는 N = 30에 지정된 해당 소스 모델을 가진 침해 모델을 나타냅니다. 신뢰가 높을수록 할당 솔루션이 신뢰할 수 있습니다. 이론적으로 증가하는 N = 50은 검증 신뢰성을 개선하지만 의심스러운 모델에 대한 더 많은 쿼리를 필요로합니다. 구체적으로, N = 100은 N = 30의 신뢰성 모델을 침해 할 때 가장 높은 신뢰를 달성합니다. Effect of key sample size 𝑁. 3.4 결론 이 작업은 의심스러운 모델이 허가 없이 생성된 데이터를 사용하여 상업 모델의 지적 재산권을 침해하는지 여부를 조사하는 훈련 데이터 할당의 핵심 문제를 해결합니다. 제안된 할당 솔루션은 의심스러운 모델의 훈련 데이터가 기원된 원본 모델을 식별할 수 있습니다. 우리의 방법의 근거는 훈련 데이터 세트의 내재적 기억 속성을 활용하여 생성 된 데이터를 통해 전달되고 그러한 데이터에 훈련 된 모델 내에서 보존됩니다. 우리는 훈련 모델의 라인업을 추적하기 위해 이러한 내재적 마커를 활용하여 원본 및 의심스러운 모델 모두에서 idiosyncratic 행동을 나타내는 개별 샘플을 감지하기위한 알고리즘을 개발했습니다. 결론적으로, 우리의 연구 참조 [1] Yossi Adi, Carsten Baum, Moustapha Cissé, Benny Pinkas, and Joseph Keshet. 2018. Your Weakness Into a Strength: Watermarking Deep Neural Networks by Backdooring. In Proc. of USENIX Security Symposium. [2] Nicholas Carlini, Steve Chien, Milad Nasr, Shuang Song, Andreas Terzis, 그리고 Florian Tramer. 2022. 멤버십 추론 공격 첫 번째 원칙에서. IEEE S&P의 비율. [3] Nicholas Carlini, Jamie Hayes, Milad Nasr, Matthew Jagielski, Vikash Sehwag, Florian Tramèr, Borja Balle, Daphne Ippolito 및 Eric Wallace. 2023 배포 모델에서 교육 데이터 추출. USENIX 보안의 비율. [4] Weixin Chen, Dawn Song, Bo Li. 2023 TrojDiff: 다양한 목표를 가진 전파 모델에 대한 트로이언 공격. [5] Sheng-Yen Chou, Pin-Yu Chen, and Tsung-Yi Ho. 2023. 어떻게 백도어 전파 모델을? [6] Ge Han, Ahmed Salem, Zheng Li, Shanqing Guo, Michael Backes, and Yang Zhang. 2024. 생성된 데이터로 훈련된 모델의 탐지 및 배정. [7] 에이전트. [n. d.]. https://imagen-ai.com/terms-of-use [8] Hengrui Jia, Christopher A Choquette-Choo, Varun Chandrasekaran, and Nicolas Papernot. 2021. 모델 추출에 대한 방어로 물마크를 다. [9] Yuming Jiang, Ziqi Huang, Xingang Pan, Chen Change Loy, and Ziwei Liu. 2021. Talk-to-Edit: Fine-Grained Facial Editing via Dialog. In Proc. of IEEE ICCV. [10] Zongjie Li, Chaozheng Wang, Shuai Wang, and Cuiyun Gao. 2023. 워터마크를 통해 대형 언어 모델 기반 코드 생성 API의 지적 재산권을 보호합니다. [11] Yugeng Liu, Zheng Li, Michael Backes, Yun Shen, 및 Yang Zhang. 2023 물 표시 분산 모델. arXiv 사전 프린트 arXiv:2305.12502 (2023). [12] Ge Luo, Junqiang Huang, Manman Zhang, Zhenxing Qian, Sheng Li, and Xinpeng Zhang. 2023. Fine-tuning을 위해 내 예술 작품을 훔쳐라? [13] Peizhuo Lv, Hualong Ma, Kai Chen, Jiachen Zhou, Shengzhi Zhang, Ruigang Liang, Shenchen Zhu, Pan Li, Yingjun Zhang. 2024 MEA-Defender: 모델 추출 공격에 대한 강력한 워터마크. [14] 중간 여행. [n. d.]. https://docs.midjourney.com/docs/사용 기간 [15] Ed Pizzi, Sreya Dutta Roy, Sugosh Nagavara Ravindra, Priya Goyal, Matthijs Douze. 2022 이미지 복사 탐지에 대한 자체 감독 설명기. IEEE/CVF CVPR의 비율. [16] Aditya Ramesh, Prafulla Dhariwal, Alex Nichol, Casey Chu, and Mark Chen. 2022. CLIP Latents를 사용한 계층적 텍스트 조건형 이미지 생성. arXiv preprint arXiv:2204.06125 (2022). [17] 로빈 로마바크, 안드레아스 블라트만, 도미닉 로렌츠, 패트릭 에세르, 그리고 보른 오머. 2022. 고해상도 이미지 합성과 잠재 배포 모델. IEEE CVPR의 %. [18] Olaf Ronneberger, Philipp Fischer, 및 Thomas Brox. 2015 U-net: 생물 의학 이미지 분할을위한 전환 네트워크. [19] Zeyang Sha, Xinlei He, Ning Yu, Michael Backes, 및 Yang Zhang. 2023. 도둑질 할 수 없습니다? 대비 도둑질! 이미지 인코더에 대한 대조적 인 도둑질 공격. IEEE CVPR의 비율. [20] Piyush Sharma, Nan Ding, Sebastian Goodman, 및 Radu Soricut. 2018. 개념 캡션 : 자동 이미지 캡션을위한 청소, 하이퍼니메드, 이미지 알트 텍스트 데이터 세트. [21] Reza Shokri, Marco Stronati, Congzheng Song, 및 Vitaly Shmatikov. 2017. 기계 학습 모델에 대한 멤버십 추론 공격. [22] Gowthami Somepalli, Vasu Singla, Micah Goldblum, Jonas Geiping, Tom Goldstein. 2023. 확산 예술 또는 디지털 가짜? 확산 모델에서 데이터 복제를 조사. IEEE CVPR의 비율. [23] Gowthami Somepalli, Vasu Singla, Micah Goldblum, Jonas Geiping, Tom Goldstein. 2023 배포 모델의 복제에 대한 이해와 완화. [24] Lukas Struppek, Dominik Hintersdorf, and Kristian Kersting. 2022. Rickrolling the Artist: Injecting Invisible Backdoors into Text-Guided Image Generation Models. arXiv preprint arXiv:2211.02408 (2022). [25] 안정화 방전 v1 5. [n. d.]. https://huggingface.co/runwayml/stable-diffusionv1-5 [26] 안정화 방전 v2 1. [n. d.]. https://huggingface.co/stabilityai/stable-diffusion2-1 [27] Yixin Wu, Rui Wen, Michael Backes, Ning Yu, and Yang Zhang. 2022 비전 언어 모델에 대한 모델 도둑질 공격 (2022). [28] Yunqing Zhao, Tianyu Pang, Chao Du, Xiao Yang, Ngai-Man Cheung, 및 Min Lin. 2023 물 표시 분포 모델을위한 조리법. arXiv 사전 프린트 arXiv:2303.10137 (2023). 저자 : 1) 2) 하오 우 3) 링쿠이 4) 5) 6) 펜하우아 리 (7) 벤 니우 Authors: 1) 2) 하오 우 3) 링쿠이 4) 5) 6) 펜하우아 리 (7) 벤 니우 이 문서는 CC BY 4.0 라이선스 아래서 archiv에서 사용할 수 있습니다. 이 문서는 CC BY 4.0 라이선스 아래서 archiv에서 사용할 수 있습니다. Archive 에서 이용 가능