左のテーブル Abstract and Introduction Background & Related Work 2.1 Text-to-Image Diffusion Model 2.2 Watermarking Techniques 2.3 Preliminary 2.3.1 [Problem Statement](https://hackernoon.com/preview/2x1yHRqHVmhjmOG0ig2c) 2.3.2 [Assumptions](https://hackernoon.com/preview/2x1yHRqHVmhjmOG0ig2c) 2.4 Methodology 2.4.1 [Research Problem](https://hackernoon.com/preview/2x1yHRqHVmhjmOG0ig2c) 2.4.2 [Design Overview](https://hackernoon.com/preview/2x1yHRqHVmhjmOG0ig2c) 2.4.3 [Instance-level Solution](https://hackernoon.com/preview/2x1yHRqHVmhjmOG0ig2c) 2.5 Statistical-level Solution Experimental Evaluation 3.1 Settings 3.2 Main Results 3.3 Ablation Studies 3.4 Conclusion & References 2 背景と関連作品 2.1 テキスト対画像拡散モデル 一般的に、テキストから画像のデータモデルは、生成モデルを通じてテキストの記述に基づいて画像を作成することを目指す条件生成モデルの一種です。 彼らは画像からテキストのペアの形でデータとトレーニングされています。 この論文では、我々は現在の状態のテキストから画像のモデル、すなわち、安定した拡散(SD) [17],テキストのプロトタイプを作成することを目指しています。 しかし、我々のアプローチは他のタイプのモデルを保護するために適用することができることに注意してください。安定した拡散(SD) [17]は典型的なラテンな拡散モデル(LDM)です。 SDは主に3つのモジュールを含んでいます: (1)テキストのエンコードモ このような条件分散モデルを学習するための目標(画像条件トレーニングカップル(x、c)に基づく)は次のとおりです。 デノーシングの後、隠れた表示 z は D によって画像に解読されます。 2.2 水道技術 最近の研究では、生成されたデータの誤った利用に対する防御として、ウォーターマッキング技術の使用を示唆しています. これらの技術は、コピーペストモデル [11, 28] または抽出攻撃の対象となるモデル [8, 13] を識別するのに役立ちます。 一般的なアプローチの一つは、バックドアトリガーをウォーターマークとして使用することです。これは、直接ソースモデル重量を再利用するモデルを識別するのに役立ちます [1]. 最近の研究では、テキストと画像の拡散モデルがバックドア攻撃に脆弱である可能性があることも示しています [4, 5, 11, 24, 28]. しかし、これらのトリガーベースのウォーターマークは、重量の希少性とバックドアの隠蔽性のためにモデル抽出攻撃の下で容易に削除される可能性があります。これに対処するために、Jia et al. [8]は、トレーニングデータとウォーターマークで抽出されたインタビューを組み合わせることを提案しました。 Lv et al. [13]は、同じ Watermarking during the training phase. それは、モデルの所有者のユニークなウォーターマークを埋め込むためにモデル出力を変更することを含みます。LLMベースのコード生成モデルでは、Li et al. [10]は、生成されたコード内のトークンをプログラミング言語からの同義の代替品で置き換えることにより、特別なウォーターマークを設計しました。結果として、抽出攻撃の結果となるあらゆるモデルは同じコードスタイルを採用し、元のデータソースに追跡可能なウォーターマークされたコードを生成します。 Watermarking during generation phase. 現時点では、ウォーターマッキング技術は、トレーニングデータの割り当てタスクに対処する可能性についてまだ研究されていません(セクション 4.1 を参照)。それに加えて、これらのテクニックを適用すると、モデルによって生成されるデータの品質が低下する可能性がある(28)。 2.3 初期 2.3.1 問題の発言 We denote the well-trained text-to-image source model as MS. The source model is trained with a large amount of high-quality “text-image” pairs, denoted as {TXTt, IMGt }. During inference phase, it can generate an img, given a text prompt txt, i.e. ソースモデル 攻撃的な敵は、経済的な利益のためにオンラインサービスを提供するためにテキスト対画像モデルをトレーニングすることを目指す可能性があります。敵は簡単にオープンソースモデルアーキテクチャを取得することができ、それはソースモデルと同一であるか、そうでないかもしれません。敵は、満足のいくモデルをトレーニングするのに十分な高品質の「テキスト画像」のカップルを持っていません。彼は次の方法でトレーニングデータセットを準備することができます。敵はテキストのセットTXTAを準備し、文字のセットでMSをクエリし、MSによって生成された相応のIMGAを収集します。その後、敵は生成されたデータのカップルでモデルMAをトレーニングします。 攻撃的な侵害モデル 相手は生成されたデータを悪用し、ソースモデルの権利が侵害される。 注意: ρ が 1 に等しいときは、目立たない敵が攻撃的な敵になるので、シンプルさのために、我々はこの 2 つのタイプの敵を表すために次の文字を使用します。 厳格な記述のために、私たちは、ソースモデルと同様のサービスを提供するMInと呼ばれる無邪気なモデルを定義しますが、そのトレーニングデータはMSによって生成されたデータと何の関連もありません。 無邪気なモデル 3.2 仮定 ここでは、私たちの作業シナリオをよりよく説明するために、いくつかの合理的な仮定をします。 モデルMSのモデルアーキテクチャとトレーニングアルゴリズムはオープンソースである可能性があります。ソースモデルMSの所有者はセキュリティの知識を持っていないため、モデルトレーニング中にトレーニングデータを水に刻みたり、推測段階でモデル出力を変更したりしません。モデル所有者にとって最大の懸念事項は、図2に示すように、MSが生成したデータが別のモデルをトレーニングするために使用されたかどうかです。 About the source model and its owner. 私たちは、ソースモデルのトレーニングプロセスには、公開データとプライベートデータの両方を含む可能性があると仮定します。 この論文では、生成されたデータがプライベートデータに適用されることを議論します。 疑わしいモデルMはブラックボックスの設定にあります。疑わしいモデルはソースモデルと同じモデルアーキテクチャを共有する場合があります。疑わしいモデルの機能も提供され、通常のユーザーが疑わしいモデルを使用するために必要です。 About the suspicious model. 2.4 方法論 4.1 研究課題 我々は「データの一部が特定のモデルによって生成されるかどうかを決定する」というタスクを一回りデータの割り当てとして定義する。このアイデアは図3に示されています。一回りデータの割り当ては、学術界(11、28)、産業界(16、17)の両方で注目を集めています。生成されたデータに特定のウォーターマークの存在をチェックすることは、一般的な一回りデータの割り当て手順です。 私たちの仕事は、モデルAによって生成されたデータを使用してモデルBがトレーニングされたかどうかを決定することを目指す、つまり、我々は、この設定では、モデルAによって生成されたデータは数えられず、生成されたデータはウォーターマークと組み込まれない。 既存の取り組みに比べて、私たちの仕事は現実世界の生成シナリオの下でより困難な課題に対処します。第一に、私たちはより現実的な脅威モデルを調査します。我々は攻撃的な侵害モデルだけでなく、目立たない設定も考慮しています。我々は、目立たない設定がより普及していると主張します、特に多くの開発者がモデルをゼロから訓練する代わりに、わずかな量のデータを収集することができるとき。第二に、我々はより複雑なトピックを検討しています。以前の研究では、シンプルなGANネットワークを使用してソースモデルを調査し、疑わしいモデルは閉鎖式の分類モデルでした。しかし、我々の研究では、ソースモデルと疑わしいモデル 4.2 デザイン概要 図 3 に示すように、二回の割り当ての文脈内で、モデル B を訓練するために使用される生成データは無知的であるため、二回のデータ割り当てを解決するには、モデル B とモデル A の間の接続を確立しなければなりません。 where x ∼ X is any input from the distribution X, and ε is a small positive number, signifying the extraction error. where x ∼ X is any input from the distribution X, and ε is a small positive number, signifying the extraction error. モデル抽出タスクからインスピレーションを得て、我々は図4で二回の割り当てタスクを説明します。侵害モデルは、完全に(すなわち、攻撃的な設定)または部分的に(すなわち、目立たない設定)ソースモデルの分布を複製する可能性があります。この懸念に対処する私たちの主な洞察は、疑わしいモデルに存在する抽出分布を特定することです。これを実現するために、我々は、インスタンスおよび統計レベルで、ソースの行動と疑わしいモデルの関係を評価します。 , we aim to identify an infringing model by measuring the attribution confidence on a set of instances. Guided by Equation 5, we use a set of key samples to query both the source and suspicious models, subsequently measuring the similarity of their responses. The challenge lies in the selection of key samples. We will elaborate on this in Section 4.3. , we aim to identify an infringing model by measuring the attribution confidence on a set of instances. We use a set of key samples to query both the source and suspicious models, subsequently measuring the similarity of their responses. The challenge lies in the selection of key samples. We will elaborate on this in Section 4.3. At instance level , we aim to measure the behavior differences between the innocent model and infringing model. We hypothesize that, given inputs from the source model's distribution, there will be a significant performance gap between the infringing and innocent models. ここでの課題は、この違いを正確に測定する技術を開発することである。 At statistical level インスタンス レベルのソリューションのパフォーマンスは、ソース モデルのトレーニング データの分布を正確に示すサンプルを見つける能力に依存します. それは優れた解釈性を持っています. 統計レベルのソリューションは解釈性が短いものの、より包括的な割り当てを可能にし、したがって優れた精度を提供します. Therefore, in practice, we recommend users to choose according to their specific requirements. 4.3 インスタンスレベルの解決策 インスタンスレベルのソリューションのコアは、ソースと疑わしいモデルの間で共有されたサブディストリビューションをキャプチャすることです(図4を参照)。この文脈において、我々は {X1, . . , Xn} を使用して、ソースモデルのサブディストリビューションを表します。ソースモデルと共有されている疑わしいモデルのサブディストリビューションは {X1, . . . , Xm} として表されます。 重要なことは、m が n に等しい場合、疑わしいモデルは攻撃的な侵害モデルとみなされます。 m が n より小さい場合、それは目に見えない侵害モデルを意味します。逆に、m が 0 に等しい場合、疑わしいモデルがモデルソ モデルはモデル所有者にとってプライベートであり、それは他の人がこれらのデータまたは同じ配布からのデータに正当な手段を通じてアクセスできないことを意味します。 インスタンスレベルのソリューションは、以下のように公式化できます。 where conf is the confidence of whether the suspicious model M is an infringing one. The formulation indicates two problems: 1) how to prepare the input x, since sampling from the distribution Xi cannot be exhaustive. 2) how to design the attribution metric f. Next, we introduce two strategies to prepare the attribution input, and the detailed design of the attribution metric. 入力xをどのように準備するかを示す。 . 入力データの準備の背後にあるアイデアは、インスタンスXのセットがソースモデルの生成エラーを最小限にすることができれば、これらのインスタンスXはMSによって学んだサブディストリビューションに属する可能性が高いので、これらのインスタンスXが疑わしいモデルでの生成エラーを最小限にすると、このモデルが同じサブディストリビューションにも訓練されていることを示唆します。これは、疑わしいモデルがソースモデルに侵害するという結論につながります。我々は、ソースモデルの所有者がこのサブディストリビューションにデータを保有していると仮定するためです。この仮定は合理的で実用的です。インスタンスが公的ディストリビューションから簡単に取得され、MSの所有 入力 入力 準備 我々は、検出ベースの戦略と、世代ベースの戦略という2つの重要なサンプルを準備するための戦略を開発します。我々は図5でこれらの2つの戦略を示しています。検出ベースの戦略は、モデルの配布の代表的なサンプルとして機能する、生成エラーを最小限に抑えるMSのトレーニングデータセット内のコアセットを特定することを目指しています。この戦略は迅速であり、訓練を必要としません。生成ベースの戦略は、生成エラーを最小限に抑えることができるソースモデルMSからサンプルを作成することに焦点を当てています。生成エラーを最小限に抑えることができます。この戦略は、検出ベースの戦略と比較してより幅広いサンプル この戦略では、ソースモデルのトレーニングデータセットからすべてのテキストリクエスト TXT をソースモデル MS に送信することから始めます。これから、画像 IMGgen を生成します。次に、SSCD スコア [15] を使用して、IMGgen とその基本的な真実画像 IMGgt の類似性を比較します。 SSCD スコアは、画像コピー検出に広く使用される最先端の画像の類似度測定です[22, 23]. 主要サンプルとして最大の類似性スコアを持つ N インスタンスを選択します。 Detection-based strategy テキスト対画像モデルでは、テキストエンコーダーと画像エンコーダーの2つのコンポーネントがあります。この特定の戦略では、ソースモデルのトレーニングデータセットからテキストインプットのグループをランダムに選択することから始まります。これらを種子のインプットとして参照します。各選択されたテキスト入力(txtとして指す)はnトークンで構成されます、すなわちtxt = [tok1, tok2, . . . , tokn] 次のステップは、ソースモデルのテキストエンコーダーを使用して、txtの各トークンを埋め込み形式に変換し、c = [c1, c2, ..., cn] を生成します。この埋め込み段階の後、我々は更新された埋め込み、c Generation-based strategy konvergence を達成したとき、我々は最適化された継続的なテキストの埋め込み c ′ を再び分離されたトークン埋め込みに変換します。これを行うには、我々は語彙で最も近い単語の埋め込み (c ∗ と呼ばれる) を見つける。しかし、我々は単語レベルで最適化を実行しているので、その結果の最適化された埋め込みのいくつかは意味がありません。この問題に対抗するために、我々は識別された埋め込みに後処理を適用します。我々は、位置付けられた埋め込み c ∗ とその一致する種子埋め込み c の間のハンミング距離を計算します。それから、我々は、トップ N で発見された埋め込みを保持し、 現在、我々はキーサンプルによって条件づけられた源の出力と疑わしいモデルの間の類似性を用いて、方程式6のメトリックfをインスタンス化する。 インスタンスレベルのソリューションを指定するMetric for Instance Level Solution 5.2 統計的解決策 We leverage the shadow model technique from the membership inference attack [21] to gather the labelled training data for fD. それには以下のステップが含まれます: 著者: (1)ジョン・ジョン (2)ハオ・ウー (3)ジョンジョンジョン 四つ目は、 (5)ジン・カオ (6) フンフア・リー (7) ベン・ニウ Authors: (1)ジョン・ジョン (2)ハオ・ウー (3)ジョンジョンジョン 四つ目は、 (5)ジン・カオ (6) フンフア・リー (7) ベン・ニウ この論文は、CC BY 4.0 ライセンスの下で archiv で提供されています。 この論文は、CC BY 4.0 ライセンスの下で archiv で提供されています。