بائیں میز Abstract and Introduction Background & Related Work 2.1 Text-to-Image Diffusion Model 2.2 Watermarking Techniques 2.3 Preliminary 2.3.1 Problem Statement 2.3.2 Assumptions 2.4 Methodology 2.4.1 Research Problem 2.4.2 Design Overview 2.4.3 Instance-level Solution 2.5 Statistical-level Solution Experimental Evaluation 3.1 Settings 3.2 Main Results 3.3 Ablation Studies 3.4 Conclusion & References 3 تجربات کا جائزہ اس سیکشن میں، ہم سب سے پہلے ہماری تجرباتی طریقہ کاروں کی وضاحت کریں گے. اس کے بعد، ہم اس بات کا ثبوت دیتے ہیں کہ کیا منصوبہ بندی شدہ طریقہ کار سیکشن 3.1 میں شناخت کردہ مقاصد کو حاصل کرسکتا ہے. آخر میں، ہم ایک ablation مطالعہ مکمل کرتے ہیں اور بہترین ہیرپرامیٹرز کو منتخب کرنے کے لئے حکمت عملی پر بحث کرتے ہیں. 3.1 ترتیبات ہم Stable Diffusion [17] کے ساتھ Stable-Diffusion-v1-5 (SD-v1) [25] اور Stable-Diffusion-v2-1 (SDv2) [26] چیک پوائنٹس کے طور پر پہلے سے تربیت یافتہ ماڈل استعمال کرتے ہیں. Text-to-image models. ہم نے دو وسیع پیمانے پر استعمال شدہ تائید تصویر ڈیٹا سیٹ کا انتخاب کیا. Datasets CelebA-Dialog-HQ (CelebA) [9]: CelebA ڈیٹا سیٹ سے منتخب کردہ 1024×1024 کے سائز کے ساتھ 30،000 اعلی درجہ بندی کے چہرے کی تصاویر کے ساتھ ایک بڑے پیمانے پر بصری زبان کے چہرے ڈیٹا سیٹ. ہر تصویر کے ساتھ ساتھ، ایک نیٹ ورک ہے جس میں بینز، eyeglasses، برڈ، مسکراہٹ، اور عمر سمیت پانچ فائدہ مند خصوصیات کی وضاحت کرتا ہے. 2) گوگل کے نظریاتی عنوانات (CC3M) [20]: ایک نیا ڈیٹا سیٹ جو 3.3M تصاویر کے ساتھ دستاویزات سے متعلق ہے. ہم اس کی تصدیق تقسیم کا استعمال کرتے ہیں جو 15,840 تصویر / دستاویزات جوڑوں سے ہوتا ہے. دیگر تصویر دستاویزات کے دستاویزات کے کیریٹڈ سٹائل کے برعکس، نظریاتی عنوانات کی تصاویر اور ان کی وضاحتیں ویب سے حاصل کی جاتی ہیں، اور اس وجہ سے سٹائل کی ایک وسیع تر قسم کی نمائندگی کرتے ہیں. ہم پہلے سے تربیت یافتہ ماڈل کو براہ راست استعمال کرتے ہوئے یا اس کے نتیجے میں ان کو اوپر ڈیٹا سیٹ پر فینٹوننگ کی طرف سے تعمیر کرتے ہیں. فینٹوننگ کے لئے تربیت کے اعداد و شمار کے لئے، ہم ہر ڈیٹا سیٹ سے 3000 نمونے کو تصادفی طور پر منتخب کرتے ہیں اور انہیں 512×512 میں تبدیل کرتے ہیں. ہم ہر ڈیٹا سیٹ پر ہر پہلے سے تربیت یافتہ ماڈل کو مجموعی طور پر 3000 ریٹوریشنز کے لئے فینٹون کرتے ہیں 2e-6 کی ایک مستحکم سیکھنے کی شرح اور 2 کے بیٹری سائز کے ساتھ. ہم ان ذریعہ ماڈل کو: SD-v1, SD-v2, SD-v1-CelebA، SD-v2-CelebA، SD-v1-CC3M، SD-v2-CC3M Source model construction Pre-training اور finetuning دونوں IP خلاف ورزی کے بارے میں نگرانیوں کو بڑھاتا ہے جبکہ finetuning ایک زیادہ سنگین اثر ہے. pre-training کے مقابلے میں، finetuning بہت آسان اور مؤثر ہے، بہت سے غیر مجاز استعمال کی اجازت دیتا ہے جس میں بہت سے وسائل کی محدودیت نہیں ہے. لہذا ہم نے 500 تربیت نمونوں پر ایک پہلے سے تربیت شدہ ماڈل finetuning کی طرف سے ہر خلاف ورزی کے ماڈل کی تعمیر کی ہے، جہاں ان میں سے ایک حصہ ρ ایک ذریعہ ماڈل کی طرف سے پیدا کیا جاتا ہے، جبکہ باقی کچھ حقیقی اعداد و شمار سے نمونہ کیا جاتا ہے. Suspicious model construction. نوٹ کریں کہ ہمارا کام ٹریننگ ڈیٹا انٹرفیس میں مسئلہ کا حل کرنے کے لئے سب سے پہلے ہے، اور اس وجہ سے، کوئی براہ راست متعلقہ کام نہیں ہے. Baselines یہ بنیادی لائن تربیت کے اعداد و شمار میں پانی کے نشانات کو انجکشن کرتا ہے. زیادہ خاص طور پر، [12] میں پیش کردہ طور پر، ذرائع ماڈلوں کی طرف سے پیدا ہونے والے تصاویر میں ایک منفرد 32 بٹ کی سیریز کو کوڈنگ کی طرف سے، اس طرح کے پانی کے نشانات کے اعداد و شمار پر تربیت شدہ خلاف ورزی کے ماڈل بھی تصاویر پیدا کریں گے جس میں پانی کے نشانات کو تشخیص کیا جا سکتا ہے. ہم یقین رکھتے ہیں کہ پانی کے نشانات انجکشن پر مبنی طریقہ کار بہترین توثیق کی صلاحیت ظاہر کرتا ہے. Baseline 1: Watermark پر مبنی اعداد و شمار کا تعین یہ بنیادی نقطہ نظر ہماری مثال کی سطح کے حل کے ساتھ اسی طرح کے خیال کو قبول کرتا ہے، لیکن ایسا نہیں ہے Baseline 2: Random Selection-based data attribution۔ ہم ڈیٹا منسوخ کرنے کے لئے منصوبہ بندی کی پالیسی 1 اور پالیسی 2 کا استعمال نہیں کرتے۔ خاص طور پر، ہم تصادفی طور پر ذریعہ ماڈل کے تربیت ڈیٹا سیٹ سے N ٹریننگ نمونے کو منسوخ کے انٹرویو انٹرویو انٹرویو کے طور پر منتخب کرتے ہیں۔ یہ ایک سادہ منسوخ کا مظاہرہ کرنے کے لئے ایک بنیادی لائن کے طور پر کام کرتا ہے. ہم توثیق کے طریقوں کی درستگی اور قابل اعتماد کا اندازہ کرنے کے لئے Accuracy، Area Under Curve (AUC) پوائنٹ اور TPR@10%FPR [2] کا استعمال کرتے ہیں. TPR@10%FPR ایک کم غلط مثبت شرح (FPR) کے ساتھ سچ مثبت شرح (TPR) کا اندازہ کرتا ہے. Evaluation Metrics. 3.2 اہم نتائج ہر ذریعہ ماڈل کے مطابق، ہم 30 خلاف ورزیوں کے ماڈل بنا چکے ہیں اور ہر خلاف ورزیوں کے ماڈل کے لئے مساوات 9 میں بیان کردہ conf میٹرک کا شمار کرتے ہیں. یہاں ہم کلید نمونہ سائز کو N = 30 کے طور پر مقرر کرتے ہیں. ہمارے انسٹینس کی سطح کی توثیق کے حل کی قابل اعتمادیت کا اندازہ کرنے کے لئے، ہم تصویر 6 میں مختلف پیداوار کی شرحوں ρ کے تحت 30 خلاف ورزیوں کے ماڈل کے درمیان conf کی اوسط قیمت کی رپورٹ کرتے ہیں. Effectiveness of Instance-level Attribution. اہم نتیجہ 1: ہماری حل بنیادی 2 سے زیادہ ہے، مختلف ρ اقدار پر منسلک اعتماد میں 0.2 سے زائد اہم اضافہ دکھاتا ہے. اسی وقت، ہمارے نسل پر مبنی منسلکنگ کے لئے حکمت عملی بنیادی 1 کے ساتھ برابر قابل اعتماد حاصل کرتا ہے، اعتماد میں کم از کم 0.1 سے زیادہ نہیں ہے. اہم نتائج 2: ہمارا تخصیص کے طریقہ کار اس کی قابل اعتمادیت کو برقرار رکھتا ہے یہاں تک کہ جب مخالف ماڈل تربیت کے لئے پیدا کردہ اعداد و شمار کا ایک چھوٹا سا حصہ استعمال کرتا ہے. ہمارے مثال کی سطح کی حل، ایک پیداوار پر مبنی حکمت عملی کا استعمال کرتے ہوئے، 30٪ کی کم پیداوار کی شرح کے تحت بھی 0.6 سے زائد پیش گوئی کی اعتماد کو ظاہر کرتا ہے. سیکشن 4.4 میں اختلافات کے ماڈل کو تربیت دینے کے لئے، ہم n = 500، s = 10، N = 30 مقرر کرتے ہیں. Effectiveness of Statistical-level Attribution اہم نتیجہ 3: ٹیبل 1 میں نتائج دکھاتے ہیں کہ ہمارے منسلکنگ اعلی درستگی اور AUC کارکردگی حاصل کرتا ہے، جہاں درستگی 85٪ سے زیادہ ہے، اور AUC مختلف ذریعہ ماڈلوں کو منسلک کرنے کے لئے 0.8 سے زیادہ ہے. درستگی اور AUC ایک منسلکنگ کے طریقہ کار کو درست طریقے سے منسلک ہونے کا اندازہ کرنے والے اوسط کیس میٹرک ہیں، جبکہ اعلی FPR کے ساتھ ایک منسلکنگ قابل اعتماد نہیں سمجھا جا سکتا ہے. لہذا ہم TPR@10%FPR میٹرک استعمال کرتے ہیں کہ اس کے اعداد و شمار کی سطح کی منسلکنگ کی قابل اعتماد کا اندازہ کرنے کے لئے. ٹیبل 1 کے سب سے اوپر دائیں کالم دکھاتا ہے کہ TPR 10٪ کے ایک کم FPR کے ساتھ 0.7 سے زائد ہے. اس کا مطلب یہ ہے کہ 3.3 Ablation مطالعہ ρ = 1 کے ساتھ خلاف ورزی کے ماڈل پر 30 کلیدی نمونے اور ρ = 0 کے ساتھ ایک ناخوشگوار ماڈل پر 30 اہم نمونے کا استعمال کرتے ہوئے ایک مثال کی سطح کے تخصیص کے لئے δ0 کے لئے ایک بہترین معیار کا تعین کرنے کے لئے. ناخوشگوار ماڈل SD-v2 کے پہلے تربیت شدہ ماڈل پر فائنٹونڈ کیا جاتا ہے. ٹیبل 2 مختلف ذریعہ ماڈل پر مبنی مشکوک ماڈلوں کے درمیان دوبارہ تعمیر کے فاصلے کی توسیع کا موازنہ کرتا ہے. پینل 4-8 ہر معاملے کے لئے ایک مخصوص دوبارہ تعمیر کے فاصلے کی رینج میں نمونوں کا فیصد دکھاتا ہے، جبکہ آخری 2 پینل تمام نمونوں کے درمیان اوسط اور بہترین دوبارہ تعمیر کے فاصلے کو ظاہر Effect of hyper-parameter غیر مسلم ماڈل کی تقسیموں اور خلاف ورزی کرنے والے ماڈل کے درمیان فرق، منسلک کرنے کے لئے δ0 تلاش کرنے کے لئے آسان ہے. براہ مہربانی براہ مہربانی براہ مہربانی براہ مہربانی براہ مہربانی براہ مہربانی براہ مہربانی براہ مہربانی براہ مہربانی براہ مہربانی براہ مہربانی براہ مہربانی براہ مہربانی براہ مہربانی براہ مہربانی براہ مہربانی براہ مہربانی براہ مہربانی براہ مہربانی براہ مہربانی براہ مہربانی براہ مہربانی براہ مہربانی براہ مہربانی براہ مہربانی براہ مہربانی براہ مہربانی براہ مہربانی براہ مہربانی براہ مہربانی براہ مہربانی براہ مہربانی براہ مہربانی براہ مہربانی براہ مہربانی براہ مہربانی براہ مہربانی براہ مہربانی براہ مہربانی براہ مہ ٹیبل 2 میں ترتیبات کے بعد، ہم مزید مطالعہ کرتے ہیں کہ N کے اثرات انٹرفیس کی سطح پر ہیں، جہاں N فہرست میں 20 سے 100 کے درمیان ہوتا ہے. Y-آسیس N کلید نمونے کے ذریعہ مساوات 6 کے ذریعے N کلید نمونے پر conf کی اوسط قیمت کا حوالہ کرتا ہے، جہاں conf خلاف ورزی کے ماڈل کی شناخت کرنے کے لئے توثیق اعتماد کی نمائندگی کرتا ہے. خاص طور پر فہرست 7 میں ہر ذیل میں ایک خلاف ورزی کے ماڈل کی نمائندگی کرتا ہے، مندرجہ ذیل کے تحت عنوان میں بیان کردہ متعلقہ ذریعہ ماڈل کے ساتھ 0.1 سے زیادہ ہے. تاہم، اس طرح کے سوالات کی ایک بڑی تعداد تصدیق کے عمل کے دوران زیادہ سے زیادہ لاگت اور بدترتیب کا سبب بنتی ہے. نظریاتی طور پر، ایک بڑھتی ہوئی N Effect of key sample size 𝑁. 4.4 نتائج اس کام میں تربیت کے اعداد و شمار کے تخصیص کے اہم مسئلہ کا حل کیا گیا ہے، اس کا مطالعہ کیا جاتا ہے کہ ایک مشکوک ماڈل کسی تجارتی ماڈل کے ذہنی ملکیت کو غیر مجاز طور پر اس کے پیدا کردہ اعداد و شمار کا استعمال کرتے ہوئے انتباہ کرتا ہے. ہماری تجویز کردہ تخصیص حل جس سے ایک مشکوک ماڈل کی تربیت کے اعداد و شمار کا ذریعہ بن گیا ہے اس کے ذریعہ منبع ماڈل کی شناخت کرنے کی اجازت دیتا ہے. ہمارے طریقہ کار کی وضاحت یہ ہے کہ تربیت کے اعداد و شمار کے اعداد و شمار کے متعارف کرایا جاتا ہے، جو پیدا کردہ اعداد و شمار کے ذریعہ منتقل کیا جائے گا اور اس طرح کے اعداد و شمار پر تربیت شدہ ماڈل کے اندر محفوظ کیا جائے گا. ہم نے متن کی تصویر کے ماڈل کے میدان میں References کے [1] Yossi Adi، Carsten Baum، Moustapha Cissé، Benny Pinkas، اور Joseph Keshet. 2018. آپ کی کمزوری کو ایک طاقت میں تبدیل کریں: Backdooring کی طرف سے گہری نیورل نیٹ ورکز کو Watermarking. [2] Nicholas Carlini، Steve Chien، Milad Nasr، Shuang Song، Andreas Terzis، اور Florian Tramer. 2022. رکنیت کے اختتام پرانے اصولوں سے حملہ. [3] Nicholas Carlini، Jamie Hayes، Milad Nasr، Matthew Jagielski، Vikash Sehwag، Florian Tramèr، Borja Balle، Daphne Ippolito، اور Eric Wallace. 2023. پھیلاؤ کے ماڈل سے تربیت کے اعداد و شمار نکالنا. [4] Weixin Chen، Dawn Song، اور Bo Li. 2023 TrojDiff: مختلف مقاصد کے ساتھ پھیلاؤ ماڈل پر Trojan Attacks. [5] Sheng-Yen Chou، Pin-Yu Chen، اور Tsung-Yi Ho. 2023. کس طرح پیچھے دروازے پھیلاؤ ماڈل?. [6] Ge Han، Ahmed Salem، Zheng Li، Shanqing Guo، Michael Backes، اور Yang Zhang. 2024. پیدا کردہ اعداد و شمار پر تربیت یافتہ ماڈلوں کی تشخیص اور تسلیم. [7] ایڈجسٹ کریں. [n. d.]. https://imagen-ai.com/terms-of-use [8] Hengrui Jia، Christopher A Choquette-Choo، Varun Chandrasekaran، اور Nicolas Papernot. 2021. نمونہ نکالنے کے خلاف دفاع کے طور پر مٹی مارکیٹنگ. [9] یومینگ جانگ، زیچی ہانگ، شنگنگانگ پین، چین چنگ لائی، اور زیوی لائی. 2021. بات کرنے کے لئے ترمیم: افسانہ کے ذریعے فین گینڈ چہرے ترمیم. IEEE ICCV کے فی صد. [10] Zongjie Li، Chaozheng Wang، Shuai Wang، اور Cuiyun Gao. 2023. پانی کے نشانات کے ذریعے بڑے زبان کے ماڈل پر مبنی کوڈ پیداوار API کی ذاتی ملکیت کی حفاظت. [11] Yugeng Liu، Zheng Li، Michael Backes، Yun Shen، اور Yang Zhang. 2023. پانی مارکیٹنگ پھیلاؤ ماڈل. arXiv پیشہ ورڈ arXiv:2305.12502 (2023). [12] Ge Luo، Junqiang Huang، Manman Zhang، Zhenxing Qian، Sheng Li، اور Xinpeng Zhang. 2023. Fine-tuning کے لئے میری فنکشنوں کو چوری کریں؟ ایک فنکشن چوری کی تشخیص کے لئے ایک پانی کی نشانہ بندی کے فریم ورک متن کی تصویر کے ماڈل میں. arXiv preprint arXiv:2311.13619 (2023). [13] Peizhuo Lv، Hualong Ma، Kai Chen، Jiachen Zhou، Shengzhi Zhang، Ruigang Liang، Shenchen Zhu، Pan Li، اور Yingjun Zhang. 2024. MEA-Defender: ایک مضبوط پانی کا نشان نمونہ نکالنے پر حملہ. [14] میڈجواری. [n. d.]. https://docs.midjourney.com/docs/terms-of-service [15] Ed Pizzi، Sreya Dutta Roy، Sugosh Nagavara Ravindra، Priya Goyal، اور Matthijs Douze. 2022. Image Copy Detection کے لئے ایک خود کی نگرانی کی تفصیل. IEEE / CVF CVPR کے فی صد میں. [16] Aditya Ramesh، Prafulla Dhariwal، Alex Nichol، Casey Chu، اور Mark Chen. 2022. CLIP Latents کے ساتھ ہائیریاکیٹیکل متن معیار کی تصویر پیداوار. arXiv preprint arXiv:2204.06125 (2022). [17] Robin Rombach، Andreas Blattmann، Dominik Lorenz، Patrick Esser، اور Björn Ommer. 2022 latent diffusion ماڈل کے ساتھ ہائی رولیٹی تصویر مرکب. [18] Olaf Ronneberger، Philipp Fischer، اور تھامس بروکس. 2015. U-net: Biomedical Image Segmentation کے لئے Convolutional نیٹ ورک. [19] Zeyang Sha، Xinlei He، Ning Yu، Michael Backes، اور Yang Zhang. 2023. نہیں چوری کر سکتے ہیں؟ Cont-Steal! تصویر کوڈرز کے خلاف متنازعہ چوری حملے. IEEE CVPR کے فی صد میں. [20] Piyush Sharma، Nan Ding، Sebastian Goodman، اور راڈو Soricut. 2018. نمونے کا عنوان: خود کار طریقے سے تصویر کا عنوان کرنے کے لئے ایک صاف، Hypernymed، Image Alt-text ڈیٹا سیٹ. [21] Reza Shokri، Marco Stronati، Congzheng Song، اور Vitaly Shmatikov. 2017. مشین کے سیکھنے کے ماڈل پر رکنیت کے اختتام حملے. 2017 میں IEEE سیکورٹی اور رازداری (SP) کے بارے میں سمیشن. IEEE, 3–18. [22] Gowthami Somepalli، Vasu Singla، Micah Goldblum، Jonas Geiping، اور Tom Goldstein. 2023. ڈیزائن آرٹ یا ڈیجیٹل جعلی؟ ڈیزائن ماڈل میں ڈیٹا ریپریشن کی تحقیقات. IEEE CVPR کے فیصد میں. [23] Gowthami Somepalli، Vasu Singla، Micah Goldblum، Jonas Geiping، اور Tom Goldstein. 2023. Diffusion ماڈل میں کاپینگ کو سمجھنے اور روکنے. [24] Lukas Struppek، Dominik Hintersdorf، اور Kristian Kersting. 2022. Rickrolling the Artist: Injecting Invisible Backdoors into Text-Guided Image Generation Models. arXiv preprint arXiv:2211.02408 (2022). [25] Stable-Diffusion v1 5. [n. d.]. https://huggingface.co/runwayml/stable-diffusionv1-5 [26] Stable-Diffusion v2 1. [n. d.]. https://huggingface.co/stabilityai/stable-diffusion2-1 [27] Yixin Wu، Rui Wen، Michael Backes، Ning Yu، اور Yang Zhang. 2022. نمونہ چوری کرنے والے حملوں پر منظر زبان کے ماڈلوں. [28] Yunqing Zhao، Tianyu Pang، Chao Du، Xiao Yang، Ngai-Man Cheung، اور Min Lin. 2023. arXiv preprint arXiv:2303.10137 (2023). مصنفین : (۱) چاندی چاندی 2۔ اُس نے (۳) لنگکی جیانگ (۴) فنگوین سو 5۔ جین جی (6) فنگھوا لی (7) بن نیو ۔ Authors: (۱) چاندی چاندی 2۔ اُس نے (۳) لنگکی جیانگ (۴) فنگوین سو 5۔ جین جی (6) فنگھوا لی (7) بن نیو ۔ یہ مضمون CC BY 4.0 لائسنس کے تحت archiv پر دستیاب ہے. یہ مضمون CC BY 4.0 لائسنس کے تحت archiv پر دستیاب ہے. دستیاب ہے Archive