테이블 왼쪽 Abstract and Introduction Background & Related Work 2.1 Text-to-Image Diffusion Model 2.2 Watermarking Techniques 2.3 Preliminary 2.3.1 [Problem Statement](https://hackernoon.com/preview/2x1yHRqHVmhjmOG0ig2c) 2.3.2 [Assumptions](https://hackernoon.com/preview/2x1yHRqHVmhjmOG0ig2c) 2.4 Methodology 2.4.1 [Research Problem](https://hackernoon.com/preview/2x1yHRqHVmhjmOG0ig2c) 2.4.2 [Design Overview](https://hackernoon.com/preview/2x1yHRqHVmhjmOG0ig2c) 2.4.3 [Instance-level Solution](https://hackernoon.com/preview/2x1yHRqHVmhjmOG0ig2c) 2.5 Statistical-level Solution Experimental Evaluation 3.1 Settings 3.2 Main Results 3.3 Ablation Studies 3.4 Conclusion & References 2 배경 및 관련 작업 2.1 Text-to-Image 확산 모델 일반적으로 텍스트-그림 데이터 모델은 텍스트 설명을 통해 텍스트 생성 모델을 기반으로 이미지를 생성하는 것을 목표로하는 유형의 조건 생성 모델입니다. 그들은 이미지-그림 텍스트 쌍의 형태로 데이터로 훈련됩니다. 이 논문에서, 우리는 현재의 상태-of-theart 텍스트-그림 모델, 즉, 안정적인 확산 (SD) [17], 우리의 방법을 프로토 타입을 만들 수 있습니다. 그러나, 우리의 접근 방식은 다른 유형의 모델을 보호하는 데 적용 될 수 있습니다. 안정적인 확산 (SD) [17]은 전형적인 잠재 확산 모델 (LDM)입니다. SD는 주로 세 개의 모듈을 포함합니다 : (1) 텍스트 암호화 모듈 W : 그것은 텍스트 견적 P를 복용하고, 그러한 조건부 확산 모델을 학습하는 목적 (사진 조건 훈련 쌍 (x, c)을 기반으로)은 다음과 같습니다: denoising 후, latent representation z는 D에 의해 이미지로 디코딩됩니다. 2.2 물 마크 기술 최근의 연구는 생성된 데이터의 오용에 대한 방어로 물 표시 기술의 사용을 제안합니다.이 기술은 복사 패스트 모델 [11, 28] 또는 추출 공격에 노출 된 모델 [8, 13]을 식별하는 데 도움이됩니다. 하나의 일반적인 접근 방식은 배경 도어 트리거를 워터마크로 사용하는 것을 포함합니다. 이것은 원본 모델 무게를 직접 재사용하는 모델을 식별하는 데 도움이됩니다 [1]. 최근의 연구는 또한 텍스트-to- 이미지 확산 모델이 배경 도어 공격에 취약 할 수 있음을 보여주었습니다 [4, 5, 11, 24, 28]. 그러나 이러한 트리거 기반 워터마크는 무게의 희귀성과 배경 도어의 숨겨진 성격 때문에 모델 추출 공격에서 쉽게 제거 될 수 있습니다. 이를 방지하기 위해 Jia et al. [8]는 워터마크와 교육 데이터를 사용하여 추출 된 상호 연결을 제안했습니다. Lv et al. [13]는 동일한 아키텍처를 공유하기 위해 희생자 및 추출 모델에 대한 요구를 완화시키 Watermarking during the training phase. 그것은 모델 소유자의 독특한 워터마크를 삽입하기 위해 모델 출력을 수정하는 것을 포함합니다.LLM 기반 코드 생성 모델을 위해, Li et al. [10] 생성된 코드에서 토큰을 프로그래밍 언어에서 동의 대안으로 대체함으로써 특별한 워터마크를 설계했습니다. Watermarking during generation phase. 현재, 워터마킹 기술은 교육 데이터 할당 작업에 대처할 수 있는 잠재력에 대해 아직 탐구되지 않았습니다(4.1항 참조).또한, 이러한 기술을 적용하면 모델에 의해 생성된 데이터의 품질이 떨어질 수 있습니다(28).또한, 이러한 기술은 모델에 의해 생성된 데이터의 품질을 감소시킬 수 있으며(28), 종종 모델 개발 중에 구현하기 위해 전문적인 보안 지식을 필요로 합니다. 2.3 초기 2.3.1 문제의 진술 우리는 잘 훈련 된 텍스트-그림 소스 모델을 MS로 나타냅니다. 소스 모델은 {TXTt, IMGt }로 표시되는 높은 품질의 "텍스트-그림"쌍의 큰 숫자로 훈련됩니다. 출처 모델 공격적인 상대는 경제적 이익을 위해 온라인 서비스를 제공하기 위해 텍스트에서 이미지 모델을 훈련하는 것을 목표로 할 수 있습니다. 상대는 쉽게 원본 모델과 동일한 오픈 소스 모델 아키텍처를 얻을 수 있습니다. 상대는 만족스러운 모델을 훈련하기 위해 충분한 고품질 "텍스트 이미지"쌍을 갖지 못합니다. 상대는 다음과 같은 방식으로 훈련 데이터 세트를 준비할 수 있습니다. 상대는 텍스트 TXTA 세트를 준비하고 텍스트 세트와 함께 MS를 쿼리하고 MS가 생성한 해당 IMGA를 수집합니다. 공격적인 침해 모델 상대방이 생성된 데이터를 악용하고 원본 모델의 권리가 침해됩니다. ρ이 1과 같을 때, 눈에 띄지 않는 상대가 공격적인 상대가 된다는 점을 명심하십시오.이러므로, 간단함을 위해, 우리는 다음과 같은 언급을 사용하여 이러한 두 종류의 상대를 나타냅니다. 엄격한 설명을 위해 우리는 소스 모델과 비슷한 서비스를 제공하는 무고한 모델인 MIn을 정의하지만 그 훈련 데이터는 MS가 생성한 데이터와 전혀 관련이 없습니다. 무고한 모델 2.3 추측 여기서 우리는 우리의 작업 시나리오를 더 잘 설명하기 위해 몇 가지 합리적인 추측을합니다. 모델 MS의 모델 아키텍처 및 훈련 알고리즘은 오픈소스일 수 있습니다. 소스 모델 MS의 소유자는 보안 지식을 가지고 있지 않으므로 모델 훈련 중 어떤 훈련 데이터도 워터마크하지 않으며 추론 단계에서 모델 출력을 수표 목적으로 수정하지 않습니다. 모델 소유자에 대한 가장 큰 우려는 그림 2에서 보여주는 바와 같이 MS가 생성한 데이터가 다른 모델을 훈련하는 데 사용되었는지 여부입니다. 소스 모델 소유자는 모델 아키텍처와 매개 변수에 대한 완전한 지식을 가지고 있으며 MS의 모든 훈련 데이터에 액세스할 수 있습니다. About the source model and its owner. 출처 모델의 교육 과정에는 공용 데이터와 개인 데이터가 모두 포함될 수 있다고 가정합니다.We hypothesize that the training process of the source model might involve both public-accessible data and private data. 이 논문은 생성된 데이터가 개인 데이터에 관련되는 부여에 대해 논의합니다.This paper discusses the attribution of generated data relevant to private data. 의심스러운 모델 M은 블랙박스 설정에 있습니다. 의심스러운 모델은 소스 모델과 동일한 모델 아키텍처를 공유할 수 있습니다. 의심스러운 모델의 기능도 제공되며, 이는 일반 사용자가 의심스러운 모델을 사용하는 데 필요합니다. About the suspicious model. 2.4 방법론 4.1 연구 문제 우리는 "데이터 조각이 특정 모델에 의해 생성되는지 여부를 결정하는 것"의 작업을 단일 히트 데이터 부여로 정의합니다.이 아이디어는 그림 3에서 묘사됩니다. 단일 히트 데이터 부여는 학계 [11, 28] 및 업계 서클 [16, 17] 모두에서 주목을 받고 있습니다. 생성 된 데이터에 특정 워터마크의 존재를 확인하는 것은 일반적인 단일 히트 데이터 부여 절차입니다. 우리의 작업은 두 호프 할당에 초점을 맞추고, 즉 모델 B가 모델 A에 의해 생성 된 데이터를 사용하여 훈련되었는지 여부를 결정하는 것을 목표로합니다.이 설정에서 모델 A에 의해 생성 된 데이터는 나열 될 수 없으며 생성 된 데이터는 워터마크로 삽입되지 않습니다.이 작업은 최근에 관심을 끌었습니다.Han et al. [6]은 분류 모델의 훈련 데이터가 섹션 3에 정의된 공격적인 침해 설정에서 특정 GAN 모델에 의해 생성되는지 여부에 대한 초기 탐구를했습니다. 기존의 노력에 비해, 우리의 작업은 현실 세계 생성 시나리오에서 더 도전적인 작업을 해결합니다. 첫째, 우리는 더 현실적인 위협 모델을 조사합니다. 우리는 공격적인 침해 모델뿐만 아니라 눈에 띄지 않는 설정뿐만 아니라 고려합니다. 우리는 눈에 띄지 않는 설정이 더 널리 퍼진다고 주장합니다, 특히 많은 개발자가 모델을 완벽하게 조정하기 위해 작은 양의 데이터를 수집 할 수있을 때. 둘째, 우리는 더 복잡한 주제를 조사합니다. 이전 연구는 간단한 GAN 네트워크를 사용하여 소스 모델을 탐구했으며, 의심스러운 모델은 폐쇄 단어 분류 모델이었습니다. 그러나 우리의 연구에서 소스 모델과 의심스러운 모델 모두 분석을 권장합니다. 2.4.2 디자인 개요 그림 3에서 묘사한 바와 같이, 이중 히프 할당 컨텍스트 내에서, 모델 B를 훈련하는 데 사용되는 생성된 데이터는 무신론적이다. 따라서, 이중 히프 데이터 할당을 해결하기 위해서는 모델 B와 모델 A 사이의 연결을 확립해야 한다. where x ∼ X is any input from the distribution X, and ε is a small positive number, signifying the extraction error. x ∼ X는 배포 X의 모든 입력이며, ε는 추출 오류를 나타내는 작은 긍정적 숫자입니다. 모델 추출 작업에 의해 영감을 얻고, 우리는 그림 4에서 두 번의 할당 작업을 설명합니다. 침해 모델은 완전히 (즉, 공격적인 설정) 또는 부분적으로 (즉, 눈에 띄지 않는 설정) 소스 모델의 분포를 복제 할 수 있습니다.이 문제를 해결하는 우리의 주요 통찰력은 의심스러운 모델에 존재하는 추출 분포를 식별하는 것입니다.이를 달성하기 위해, 우리는 예시 및 통계 수준에서 소스 모델의 행동과 의심스러운 모델 사이의 관계를 평가합니다. , 우리는 한 집합의 인스턴스에서 부여 신뢰를 측정함으로써 침해 모델을 식별하는 것을 목표로 합니다. Equation 5에 따라, 우리는 키 샘플의 집합을 사용하여 출처와 의심스러운 모델 모두를 쿼리하고, 그 후에 그들의 응답의 유사성을 측정합니다. At instance level , 우리는 무고한 모델과 침해하는 모델 사이의 행동 차이를 측정하는 것을 목표로합니다. 우리는 소스 모델의 분포의 입력을 고려하면 침해하는 모델과 무고한 모델 사이에 상당한 성능 차이가 있을 것이라고 가정합니다. 여기서의 도전은이 차이를 정확하게 측정하는 기술을 개발하는 것입니다. At statistical level 인스턴스 레벨 솔루션의 성능은 원본 모델의 훈련 데이터의 분포를 정확하게 묘사할 수 있는 샘플을 찾을 수 있는 능력에 의존합니다.이 솔루션은 뛰어난 해석 가능성을 갖추고 있으며, 통계 레벨 솔루션은 해석 가능성이 부족하지만, 더 포괄적 인 할당을 가능하게 하며, 따라서 우수한 정확성을 제공합니다. 2.4.3 인스턴스 레벨 솔루션 인스턴스 레벨 솔루션의 핵심은 소스와 의심스러운 모델 사이의 공유 하위 배포를 캡처하는 것입니다 (그림 4 참조). 이와 관련하여, 우리는 {X1, . . , Xn}를 사용하여 소스 모델의 하위 배포를 나타냅니다. 소스 모델과 함께 공유되는 의심스러운 모델의 하위 배포는 {X1, . . . , Xm}로 표현됩니다. {X1, . , Xn}을 사용합니다. {X1, . , Xn}을 사용하면 {X1, . , Xn}을 사용합니다. {X1, . , Xn}을 사용하여 원본 모델의 하위 배포를 나타냅니다. {X1, . , Xm}를 나타냅니다. {X1, . . , Xm}를 나타냅니다. {X1, . , Xm} 모델은 모델 소유자에게 개인적이며, 이는 다른 사람이 합법적인 수단을 통해 이러한 데이터 또는 동일한 배포의 데이터에 액세스할 수 없음을 의미합니다. 인스턴스 레벨 솔루션은 다음과 같이 공식화될 수 있습니다.The instance level solution can be formalized as follows: where conf is the confidence of whether the suspicious model M is an infringing one.The formulation indicates two problems: 1) how to prepare the input x, since sampling from the distribution Xi cannot be exhaustive. 2) how to design the attribution metrics f. Next, we introduce two strategies to prepare the attribution input, and the detailed design of the attribution metrics. 출처 모델 MS의 생성 오류를 최소화 할 수 있다면, 이러한 인스턴스 X가 MS에 의해 배운 하위 분포에 속할 가능성이 가장 높습니다. 따라서 이러한 인스턴스 X가 의심스러운 모델에 대한 생성 오류를 최소화한다면, 이 모델이 동일한 하위 분포에 대해서도 훈련을 받았다는 것을 암시합니다. 이것은 의심스러운 모델이 원본 모델을 침해한다는 결론을 이끌어 낸다. 우리는 오직 원본 모델 소유자가 이 하위 분포에 데이터를 보유하고 있다고 가정합니다. 이 가정은 합리적이고 실용적입니다. 이 인스턴스는 공공 분포에서 쉽게 얻을 수 있으며 MS 소유자에게 개인적이지 않으면 사용을 추적 할 강한 동기가 없습니다. 우리의 instancelevel 출처 : Input Preparation 우리는 키 샘플을 준비하기 위해 두 가지 전략을 개발합니다, 즉 감지 기반 전략과 세대 기반 전략입니다. 우리는 그림 5에서이 두 가지 전략을 묘사합니다. 감지 기반 전략은 MS의 훈련 데이터 세트 내에서 생성 오류를 최소화하는 핵심 세트를 식별하는 것을 목표로합니다.이 전략은 모델의 배포를 대표하는 샘플로 봉사합니다.이 전략은 빠르며 훈련을 필요로하지 않습니다. 세대 기반 전략은 생성 오류를 최소화 할 수있는 소스 모델 MS에서 샘플을 만드는 데 중점을 둡니다.이 전략은 탐지 기반 전략에 비해 더 넓은 샘플 공간과 우수한 정확성을 제공합니다.이 전략이 어떻게 작동하는지 자세히 살펴보자. 이 전략에서, 우리는 원본 모델의 훈련 데이터 세트에서 모든 텍스트 인스턴스 TXT를 원본 모델 MS로 공급함으로써 시작합니다. 여기에서 IMGgen 이미지를 생성합니다. 다음으로, 우리는 SSCD 점수 [15]를 사용하여 IMGgen과 그들의 기본 진실 이미지 IMGgt 사이의 유사성을 비교합니다. SSCD 점수는 이미지 복사 감지에서 널리 사용되는 최첨단 이미지 유사도 측정입니다[22, 23]. 우리는 가장 큰 유사도 점수를 가진 N 인스턴스를 주요 샘플로 선택합니다: Detection-based strategy 텍스트 대 이미지 모델에는 텍스트 인코더와 이미지 디코더가 두 가지 구성 요소가 있습니다.이 특정 전략을 위해 우리는 원본 모델의 훈련 데이터 세트에서 텍스트 인코더 그룹을 무작위로 선택함으로써 시작합니다. 우리는 이것을 씨앗 인코더로 언급합니다. 각각 선택한 텍스트 입력 (우리가 txt라고 지정하는)은 n 토큰으로 구성되어 있습니다., 즉, txt = [tok1, tok2, . . . , tokn]. 다음 단계는 원본 모델의 텍스트 인코더를 사용하여 각 txt 토큰을 삽입 형태로 변환하여 c = [c1, c2, ..., cn]를 생성합니다. 이 삽입 단계 후, 우리는 최적화 된 삽입, c′를 얻기 위해 c를 최적화합니다. Generation-based strategy 회로에 도달하면, 우리는 최적화된 지속적인 텍스트 삽입 c ′을 분리된 토큰 삽입으로 다시 변환합니다. 이를 위해, 우리는 사전에서 가장 가까운 단어 삽입을 찾을 수 있습니다. 그러나, 우리가 단어 수준에서 최적화를 수행하기 때문에, 결과적인 최적화 된 삽입 중 일부는 의미가 없을 수 있습니다. 이 문제를 방해하기 위해, 우리는 식별 된 삽입에 포스트 프로세싱을 적용합니다. 우리는 위치한 삽입 c 과 그와 일치하는 씨앗 삽입 c 사이의 햄딩 거리를 계산합니다. 우리는 가장 작은 햄딩 거리를 가진 상위 N 발견 삽입을 유지합니다. 마지막으로, 우리의 사전에서 단어 삽입과 토큰 사이의 하나에 하나의 매핑을 사용하여, 우리는 이제 우리는 키 샘플에 의해 조건화된 소스 출력과 의심스러운 모델 사이의 유사성을 사용하여 Equation 6의 메트릭 f를 인스턴션합니다. 인스턴스 레벨 솔루션을 위한 Attribution Metric for Instance Level Solution 2.5 통계적 수준의 해결책 우리는 멤버십 추론 공격 [21]에서 그림자 모델 기술을 활용하여 fD에 대한 레이블링 교육 데이터를 수집합니다.It involves the following steps: 저자 : 1) 2) 하오 우 3) 링쿠이 4) 5) 6) 펜하우아 리 (7) 벤 니우 Authors: 1) 2) 하오 우 3) 링쿠이 4) 5) 6) 펜하우아 리 (7) 벤 니우 이 문서는 CC BY 4.0 라이선스 아래서 archiv에서 사용할 수 있습니다. 이 문서는 CC BY 4.0 라이선스 아래서 archiv에서 사용할 수 있습니다.