左のテーブル Abstract and Introduction Background & Related Work 2.1 Text-to-Image Diffusion Model 2.2 Watermarking Techniques 2.3 Preliminary 2.3.1 Problem Statement 2.3.2 Assumptions 2.4 Methodology 2.4.1 Research Problem 2.4.2 Design Overview 2.4.3 Instance-level Solution 2.5 Statistical-level Solution Experimental Evaluation 3.1 Settings 3.2 Main Results 3.3 Ablation Studies 3.4 Conclusion & References 3 実験評価 このセクションでは、まず私たちの実験手順を概要します。その後、私たちは、提案された方法がセクション3.1で特定された目標を達成できるかどうかを示します。最後に、私たちは、抽象研究を完了し、最適なハイパーパラメータを選択するための戦略を議論します。 3.1 設定 We use Stable Diffusion [17] with the Stable-Diffusion-v1-5 (SD-v1) [25] and Stable-Diffusion-v2-1 (SDv2) [26] checkpoints as the pre-trained models. 我々は Stable Diffusion [17] と Stable-Diffusion-v1-5 (SD-v1) [25] と Stable-Diffusion-v2-1 (SDv2) [26] のチェックポイントを使用しています。 Text-to-image models. 広く採用されている2つのタイトル画像データセットを選択します。 Datasets CelebA-Dialog-HQ (CelebA) [9]:CelebAデータセットから選ばれた1024×1024の大きさの高解像度の顔画像3万枚を含む大規模なビジュアル言語の顔データセット。 2) Google の Conceptual Captions (CC3M) [20] : 3.3M のタイトルで注釈された画像からなる新しいデータセット. We use its validation split which consists of 15,840 image/caption pairs. In contrast to the curated style of other image caption annotations, Conceptual Caption images and their descriptions are harvested from the web, and therefore represents a wider variety of styles. Google の Conceptual Captions (CC3M) は、他の画像タイトルの注釈のカリキュラムされたスタイルと異なり、Conceptual Caption 画像とその記述がウェブから収集され、したがってより幅広いスタイルを表しています。 上記のデータセットに事前訓練されたモデルを直接使用して構築するか、結果的にそれらをフィナトゥーニングする。 フィナトゥーニングのための訓練データについては、各データセットからランダムに3000個のサンプルを選択し、それらを 512×512に変更する。 各データセットにそれぞれのプレトレーニングモデルをフィナトゥーニングし、合計3000回にわたって2e-6の学習率と2のバッチサイズを有する。 SD-v1, SD-v2, SD-v1-CelebA、SD-v2-CelebA、SD-v1-CC3M、SD-v2-CC3Mとしてこれらのソースモデルを指します。 Source model construction Pre-training と finetuning は IP 侵害についての懸念を引き起こしますが、 finetuning はより深刻な影響を及ぼします。 事前トレーニングと比較して、 finetuning は非常に便利で効率的で、リソースの制限なしに多くの許可されない使用を可能にします。 したがって、我々 は 500 つのトレーニングサンプルにプレトレーニングされたモデルを finetuning することで、それぞれの侵害モデルを構築し、その ρ の割合はソース モデルによって生成され、残りは実際のデータからサンプル化されます。 Suspicious model construction. 注:私たちの仕事は、テキスト対画像シナリオにおけるトレーニングデータの割り当ての問題を最初に解決するものであり、したがって、直接関連する仕事はありません。 Baselines このベースラインは、トレーニングデータにウォーターマークを注入します。より具体的に、[12]で提案されたように、ソースモデルによって生成された画像にユニークな32ビットのマレーを暗号化することで、そのようなウォーターマークデータで訓練された侵害モデルは、ウォーターマークを検出できるイメージも生成します。 Baseline 1: Watermark-based data attribution(ウォーターマークベースのデータ割り当て) このベースラインは、インスタンスレベルのソリューションと同様のアイデアを採用していますが、 Baseline 2: Random Selection Based Data Assignment(ランダム選択によるデータの割り当て) 具体的には、ソースモデルのトレーニングデータセットからランダムにNトレーニングサンプルを割り当て入力として選択します。 正確性、AUC(Area Under Curve)スコア、およびTPR@10%FPR [2]を使用して、割り当て方法の正確性と信頼性を評価します。 Evaluation Metrics. 3.2 主な結果 各ソースモデルに基づき、30の侵害モデルを構築し、各侵害モデルのための方程式9で定義されたconfメトリックを計算しました。ここでは、キーサンプルサイズをN = 30に設定します。インスタンスレベルの割り当てソリューションの信頼性を評価するには、30の侵害モデルの間のconf平均値を図6の異なる生成率下で報告します。 Effectiveness of Instance-level Attribution. 主な結果1:当社のソリューションはベースライン2を超え、さまざまなρ値で割り当て信頼性が 0.2 を超える大幅な向上を示しています。 Main Result 2: Our attribution methodins its reliability even when the infringing model uses a small fraction of generated data for training. Our instance-level resolution, leveraging a generation-based strategy, exhibits a prediction confidence exceeding 0.6, even under a weaker generation rate of 30%. This performance illustrates a marked advantage, with a 50% improvement over the baseline 2. インスタンスレベルでの解像度は、予測信頼性が 0.6 を超えています。 セクション 4.4 の差別モデルを訓練するには、n = 500、s = 10、N = 30 を設定します。 Effectiveness of Statistical-level Attribution 主な結果 3: 表 1 の結果は、当社の割り当ては、正確性が 85% を超え、割り当てモデルを異なるソースモデルに割り当てるために AUC が 0.8 を超える高精度および AUC パフォーマンスを達成することを示しています。 正確性と AUC は、割り当て方法が割り当てを正しく予測する頻度を測定する平均ケースのメトリクスであり、高い FPR を有する割り当ては信頼性とみなされません。 したがって、我々は TPR@10% FPR メトリクスを用いて、統計レベルの割り当ての信頼性を評価します。 表 1 の最も右の列は、割り当てモデル 3.3 アブレーション研究 δ0. インスタンスレベルの割り当てのための最適な値 δ0 を決定するには、侵害モデルの 30 つのキーサンプルを用いて再構築距離値を計算し、 ρ = 1 と無実のモデルを用いて ρ = 0. 無実のモデルは SD-v2 の事前訓練されたモデルに精算されます。 表 2 は、異なるソースモデルに基づいて疑わしいモデル間の再構築距離分布を比較します。 Effect of hyper-parameter 無実のモデルの分布と侵害モデルの分布の違いは、割り当てのための δ0 を見つけることが容易になります。 無実のモデルでは、サンプルの大半(73.9%)の再構築距離は [0.15,0.2 の範囲内に入りますが、わずか4.3%のサンプルは 0.15 より小さい再構築距離を持っています。 侵害モデルでは、約20%のサンプルが 0.1 より小さい再構築距離を持っています。 ほとんどの場合(6 つの侵害モデルのうち 5 つ)、40%以上のサンプルは [0.1,0.15 の範囲内で再構築距離を持っています。 それは、 δ0 = 0.15 が、ソースモデルに関係なく無実のモデルと侵害モデルを区別するための重要な限界であることを示しています。 したがって、私たちは、 δ0 = 0.15 を私たちの実験で設定しました。 表2の設定に従って、Nがインスタンスレベルの割り当てに及ぼす影響をさらに研究し、Nは図7で20から100にまで範囲します。y軸は、Nキーサンプルの平均値を指します。 方程式6を通じて、confは割り当て信頼性を表します。 図7の各サブ図は、N=100がサブタイトルに指定された相応のソースモデルを持つ割り当てモデルを表します。 信頼性が高ければ高いほど、割り当てソリューションは信頼性が低くなります。 理論的には、増加するN=30は検証信頼性を向上させますが、疑わしいモデルにより多くのクエリが必要です。 具体的には、N=100は、N=30の Effect of key sample size 𝑁. 3.4 結論 この研究では、不審なモデルが、許可なく生成されたデータを使用して商業モデルの知的財産を侵害するかどうかを調査するトレーニングデータの割り当ての重要な問題に取り組んでいます。私たちの提案された割り当てソリューションは、疑わしいモデルのトレーニングデータが由来したソースモデルを識別することを可能にします。私たちの方法の論理は、トレーニングデータセットの固有のメモリ化特性を活用し、生成されたデータを通じて伝送され、そのデータにトレーニングされたモデル内で保存されます。私たちは、ソースと疑わしいモデルの両方で独自の行動を示す異なるサンプルを検出するアルゴリズムを開発し、これらの固有のマーカーを活用して、疑わしい 参照 [1] Yossi Adi, Carsten Baum, Moustapha Cissé, Benny Pinkas, and Joseph Keshet. 2018. あなたの弱点を強みに変える:バックドアリングによる深い神経ネットワークの水印。 [2] ニコラス・カルリーニ、スティーブ・チエン、ミラッド・ナスル、シュアング・ソング、アンドレアス・テルジス、フロリアン・トラマー。 2022年 メンバーシップの推定原則からの攻撃。 IEEE S&Pの割合。 [3] ニコラス・カルリーニ、ジェイミー・ヘイズ、ミラッド・ナス、マシュー・ジャギエルスキー、ヴァイカッシュ・セグワッグ、フロリアン・トラムエル、ボルジャ・バルレ、ダフネ・イポリト、エリック・ウォレス。2023年 拡散モデルからトレーニングデータを抽出。USENIXセキュリティの割合で。 [4] Weixin Chen, Dawn Song, and Bo Li. 2023 TrojDiff: Trojan Attacks on Diffusion Models with Diverse Targets. In Proc. of IEEE CVPR. トロイの攻撃は、様々なターゲットを持つ拡散モデルに及ぶ。 [5] Sheng-Yen Chou, Pin-Yu Chen, and Tsung-Yi Ho. 2023 バックドアの拡散モデルをどのようにするか? IEEE CVPRの割合で。 [6] Ge Han, Ahmed Salem, Zheng Li, Shanqing Guo, Michael Backes, and Yang Zhang. 2024 生成データで訓練されたモデルの検出と割り当て。 トップページへ トップページへ トップページへ トップページへ トップページへ トップページへ トップページへ [8] Hengrui Jia、Christopher A Choquette-Choo、Varun Chandrasekaran、Nicolas Papernot. 2021. モデル抽出に対する防御としてのワンタッチウォーターマーク。 [9] Yuming Jiang, Ziqi Huang, Xingang Pan, Chen Change Loy, and Ziwei Liu. 2021. Talk-to-Edit: Fine-Grained Facial Editing via Dialog. In Proc. of IEEE ICCV. [10] Zongjie Li, Chaozheng Wang, Shuai Wang, and Cuiyun Gao. 2023 ウォーターマークを通じて大規模な言語モデルベースのコード生成APIの知的財産を保護する。 [11] Yugeng Liu、Zheng Li、Michael Backes、Yun Shen、Yang Zhang. 2023 ウォーターマークの拡散モデル. arXiv プレプリント arXiv:2305.12502 (2023)。 [12] Ge Luo, Junqiang Huang, Manman Zhang, Zhenxing Qian, Sheng Li, and Xinpeng Zhang. 2023. Steal My Artworks for Fine-tuning? A Watermarking Framework for Detecting Art Theft Mimicry in Text-to-Image Models. arXiv preprint arXiv:2311.13619 (2023). [13] Peizhuo Lv, Hualong Ma, Kai Chen, Jiachen Zhou, Shengzhi Zhang, Ruigang Liang, Shenchen Zhu, Pan Li, and Yingjun Zhang. 2024 MEA-Defender: A Robust Watermark against Model Extraction Attack. In Proc. of IEEE S&P. トップページへ トップページへ トップページへ トップページへ トップページへ トップページへ トップページへ [15] Ed Pizzi, Sreya Dutta Roy, Sugosh Nagavara Ravindra, Priya Goyal, and Matthijs Douze. 2022 画像コピー検出のための自己監督の説明器. IEEE/CVF CVPRの割合で。 [16] Aditya Ramesh, Prafulla Dhariwal, Alex Nichol, Casey Chu, and Mark Chen. 2022. Hierarchical Text-Conditional Image Generation with CLIP Latents. arXiv preprint arXiv:2204.06125 (2022)。 [17] ロビン・ロムバッハ、アンドレアス・ブラットマン、ドミニク・ローレンツ、パトリック・エッサー、およびビョルン・オマー 2022. High-Resolution Image Synthesis with Latent Diffusion Models. In Proc. of IEEE CVPR. [18] オラフ・ロンネバーガー、フィリップ・フィッシャー、トーマス・ブロックス 2015. U-net: Convolutional networks for biomedical image segmentation. In Proc. of Springer MICCAI. [19] Zeyang Sha, Xinlei He, Ning Yu, Michael Backes, and Yang Zhang. 2023. Can't Steal? Counter-Steal! Contrastive Stealing Attacks Against Image Encoders. In Proc. of IEEE CVPR. 画像エンコーダーに対する対照的な盗難攻撃。 [20] Piyush Sharma, Nan Ding, Sebastian Goodman, and Radu Soricut. 2018. Conceptual Captions: A Cleaned, Hypernymed, Image Alt-text Dataset For Automatic Image Captioning. In Proc. of ACL. コンセプトタイトル:自動画像キャプションのためのクリーン化された、ハイパーニーム化された画像アルトテキストデータセット。 [21] Reza Shokri, Marco Stronati, Congzheng Song, and Vitaly Shmatikov. 2017 機械学習モデルに対するメンバーシップ推定攻撃. In 2017 IEEE Symposium on Security and Privacy (SP). IEEE, 3–18. [22] Gowthami Somepalli, Vasu Singla, Micah Goldblum, Jonas Geiping, and Tom Goldstein. 2023 拡散芸術またはデジタル偽造? 拡散モデルにおけるデータ複製の調査. IEEE CVPRの割合。 [23] Gowthami Somepalli, Vasu Singla, Micah Goldblum, Jonas Geiping, and Tom Goldstein. 2023年 拡散モデルにおけるコピーを理解し、軽減する。 [24] Lukas Struppek, Dominik Hintersdorf, and Kristian Kersting. 2022. Rickrolling the Artist: Injecting Invisible Backdoors into Text-Guided Image Generation Models. arXiv preprint arXiv:2211.02408 (2022)。 [25] Stable-Diffusion v1 5. [n. d.]. https://huggingface.co/runwayml/stable-diffusionv1-5 [26] Stable-Diffusion v2 1. [n. d.]. https://huggingface.co/stabilityai/stable-diffusion2-1 [27] Yixin Wu, Rui Wen, Michael Backes, Ning Yu, and Yang Zhang. 2022 ビジョン言語モデルに対する盗難攻撃 (2022年) [28] Yunqing Zhao, Tianyu Pang, Chao Du, Xiao Yang, Ngai-Man Cheung, and Min Lin. 2023 水印分散モデルのレシピ. arXiv プレプリント arXiv:2303.10137 (2023)。 著者: (1)ジョン・ジョン (2)ハオ・ウー (3)ジョンジョンジョン 四つ目は、 (5)ジン・カオ (6) フンフア・リー (7) ベン・ニウ Authors: (1)ジョン・ジョン (2)ハオ・ウー (3)ジョンジョンジョン 四つ目は、 (5)ジン・カオ (6) フンフア・リー (7) ベン・ニウ この論文は、CC BY 4.0 ライセンスの下で archiv で提供されています。 この論文は、CC BY 4.0 ライセンスの下で archiv で提供されています。 ARCHIV で利用可能