Како да се открие неовластена употреба на AI-генерирани слики без промена на моделот

Табела на левицата Abstract and Introduction Background & Related Work 2.1 Text-to-Image Diffusion Model 2.2 Watermarking Techniques 2.3 Preliminary 2.3.1 [Problem Statement](https://hackernoon.com/preview/2x1yHRqHVmhjmOG0ig2c) 2.3.2 [Assumptions](https://hackernoon.com/preview/2x1yHRqHVmhjmOG0ig2c) 2.4 Methodology 2.4.1 [Research Problem](https://hackernoon.com/preview/2x1yHRqHVmhjmOG0ig2c) 2.4.2 [Design Overview](https://hackernoon.com/preview/2x1yHRqHVmhjmOG0ig2c) 2.4.3 [Instance-level Solution](https://hackernoon.com/preview/2x1yHRqHVmhjmOG0ig2c) 2.5 Statistical-level Solution Experimental Evaluation 3.1 Settings 3.2 Main Results 3.3 Ablation Studies 3.4 Conclusion & References 2 Позадина и поврзани работи 2.1 Модел за дифузија на текст до слика Општо земено, модел на податоци од текст до слика е тип на условен генеративен модел кој има за цел да создаде слики врз основа на текстуални описи преку генеративни модели. Тие се обучени со податоци во форма на парови од слика-текст. Во овој документ, го земаме моменталниот state-of-theart модел од текст до слика, т.е. Стабилна дифузија (SD) [17], со цел да го прототипираме нашиот метод. Сепак, имајте на ум дека нашиот пристап може да се примени за заштита на други видови модели. Стабилна дифузија (SD) [17] е типичен латентен дифузионен модел (LDM). SD главно содржи три модули: (1) Текстот кодирач модул W : зема текст повик P, и го кодира во соодветниот текст вградување c Целта за учење на таков условен модел на дифузија (основан на парови за обука за состојба на сликата (x, c)) е како што следува: По денозирањето, латентното претставување z е декодирано во слика од страна на D. 2.2 Техника на водовод Неодамнешните студии сугерираат употреба на техники за водовод како одбрана против злоупотреба на генерирани податоци. Овие техники помагаат да се идентификуваат модели со копирање [11, 28] или модели подложени на напади на екстракција [8, 13]. Типично, овие водоводни знаци се вградени или во моделот за време на фазата на обука или во излезот за време на фазата на генерирање. Еден заеднички пристап вклучува користење на задната врата тригери како водоводни знаци. Ова помага да се идентификуваат модели кои директно повторно користат извор модел тежини [1]. Неодамнешните студии, исто така, покажаа дека текстот-на-слика дифузија модели може да бидат ранливи на задната врата напади [4, 5, 11, 24, 28]. Сепак, овие тригери-базирани водоводни знаци може лесно да се отстранат под напади за екстракција на модел поради тежината на тежината и скриеноста на задната врата. За да се борат со ова, Jia et al. [8] сугерираше преплетување претставувања извлечени од обука податоци со водоводни знаци. Lv et al. [13] ја унапреди оваа идеја за самонадзорни модели за уче Watermarking during the training phase. Тоа вклучува модифицирање на излезот на моделот за да се вградат уникатните водени знаци на сопственикот на моделот. За моделите за генерирање на кодови базирани на LLM, Li et al. [10] дизајнирале специјални водени знаци со замена на токените во генерираниот код со синонимни алтернативи од програмскиот јазик. Watermarking during generation phase. Во моментов, техниките за водовод не се истражуваат за нивниот потенцијал за решавање на задачата за доделување на податоци за обука (види Дел 4.1). Покрај тоа, примената на овие техники може да доведе до намалување на квалитетот на податоците генерирани од моделот [28]. Покрај тоа, овие техники може да го намалат квалитетот на податоците генерирани од моделот [28] и често бараат специјализирано знаење за безбедност за имплементација за време на развојот на моделот. 2.3 Прелиминарни 2.3.1 Изјава за проблемот Изворниот модел е обучен со голем број на висококвалитетни парови "текст-слика", означени како {TXTt , IMGt }. За време на фазата на заклучување, може да генерира img, даден текст повик txt, т.е. Моделот на изворот. Агресивен противник може да има за цел да го обучи својот модел текст-на-слика за да понуди онлајн услуги за економска добивка. Противникот лесно може да добие архитектура на модел со отворен код, која може да биде иста како изворниот модел или не може да биде. Противникот нема доволно висококвалитетни парови „текст-слика“ за да обучи задоволителен модел. Тој може да го подготви сетот на податоци за обука на следниов начин. Противникот подготвува сет на текст TXTA, и го праша MS со сет на текст, и го собира соодветниот IMGA генериран од MS. Потоа противникот го обучува својот модел MA со генерираните парови на податоци. Како што корисникот ги опишува условите на сликата 2, Агресивен модел на прекршување противникот ги злоупотребува генерираните податоци, а правото на изворниот модел е прекршено. Забележете дека кога ρ е еднаков на 1, неприметниот противник станува агресивен противник. Заради ригорозни раскази, дефинираме невин модел, означен како MIn, кој обезбедува слични услуги како изворниот модел, но неговите податоци за обука немаат никаква врска со податоците генерирани од MS. Невин модел 3.2 Претпоставки Тука правиме некои разумни претпоставки за подобро да го илустрираме нашиот работен сценарио. Архитектурата на моделот и алгоритам за обука на моделот МС може да биде со отворен код. Сопственикот на изворниот модел МС нема никакви знаења за безбедноста, така што не ги означува податоците за обука за време на обуката на моделот, ниту пак го модифицира излезот на моделот во фазата на заклучување за целите на означувањето со вода. Прашањето на најголемата загриженост за сопственикот на моделот, како што е прикажано на сликата 2, е дали податоците генерирани од МС се користат за обука на друг модел. About the source model and its owner. Ние претпоставуваме дека процесот на обука на изворниот модел може да вклучува и јавно достапни податоци и приватни податоци. Оваа статија се занимава со припишување на генерирани податоци релевантни за приватни податоци. Сомнителниот модел М е во црна кутија. Сомнителниот модел може да ја сподели истата моделска архитектура како и изворниот модел. Исто така се обезбедува и функционалноста на сомнителниот модел, што е неопходно за обичниот корисник да го користи сомнителниот модел. Тој нуди само интерфејс со барање за корисниците да ја извршат истрагата. About the suspicious model. 2.4 Методологија 4.1 Проблеми со истражувањето Ние ја дефинираме задачата "да се утврди дали дел од податоците се генерираат од страна на одреден модел" како еднократно припишување на податоците. Оваа идеја е илустрирана во Слика 3. Еднократното припишување на податоците добива внимание и во академските средини [11, 28] и индустриските кругови [16, 17]. Проверка на присуството на одреден воден знак на генерираните податоци е вообичаена процедура за припишување на податоците со еден удар. Нашата работа се фокусира на присвојување со два чекори, односно, ние сакаме да утврдиме дали Модел Б е обучен со користење на податоците генерирани од Модел А. Во оваа поставка, податоците генерирани од Модел А не можат да се нумерираат, а генерираните податоци не се вградени со водни знаци. Во споредба со постојните напори, нашата работа се однесува на потешко задача под реалниот свет генерација сценарио. Прво, ние се истражуваат на повеќе реални закана модел. Ние се разгледува не само агресивен нарушување модел, но, исто така, невидлив поставување. Ние тврдиме дека невидлив поставување е повеќе распространето, особено кога многу програмери може да се соберат само мала количина на податоци за да се фин-таунтирање на нивните модели наместо обука од нула. Второ, ние се испита повеќе сложени предмети. Претходните студии се истражуваат извор модели со едноставни GAN мрежи, и сомнителен модел беше затворен-слово класификација модел. Сепак, во нашата студија, и изворниот модел и сомнителен модел се неистражени текст-на-слика ди 2.4.2 Преглед на дизајнот Како што е илустрирано на сликата 3, во рамките на контекстот на атрибуцијата со два скока, генерираните податоци што се користат за обука на Модел Б се агностички. Затоа, за да се реши атрибуцијата на податоците со два скока, мораме да воспоставиме врска помеѓу Модел Б и Модел А. Ова е слично на работите во областа на нападите за екстракција на модели [12, 19, 27]. каде x ∼ X е било кој влез од дистрибуцијата X, а ε е мал позитивен број, означувајќи ја грешката за екстракција. Инспирирани од задачите за екстракција на моделот, ние ја опишуваме задачата за атрибуција со два чекори на сликата 4. Нарушувачкиот модел може целосно (т.е. агресивно поставување) или делумно (т.е. неприметно поставување) да ја дуплицира дистрибуцијата на изворот на моделот. Нашата примарна увид во решавањето на оваа загриженост е да ја идентификуваме екстрахираната дистрибуција присутна во сомнителниот модел. За да го постигнеме ова, ја проценуваме врската помеѓу однесувањето на изворот и сомнителните модели, и на пример и на статистичко ниво. , ние се стремиме да се идентификува нарушувачки модел преку мерење на довербата на припишување на сет на примероци. Водени од Еквација 5, ние користиме сет на клучни примероци за да се испита и извор и сомнителни модели, потоа мерење на сличноста на нивните одговори. предизвикот лежи во изборот на клучни примероци. Ние ќе го разгледаме ова во Дел 4.3. At instance level , ние се обидуваме да ги измериме разликите во однесувањето помеѓу невиниот модел и моделот на прекршување. Ние претпоставуваме дека, со оглед на влезовите од дистрибуцијата на изворниот модел, ќе има значителна разлика во перформансите помеѓу моделите на прекршување и невините модели. предизвикот тука е да се развие техника која точно ја мери оваа разлика. At statistical level Перформансите на решението на ниво на инстанца се потпираат на способноста да се најдат примероци кои можат прецизно да ја прикажат дистрибуцијата на податоците за обука на изворните модели. Таа има супериорна интерпретабилност. Додека решението на статистичко ниво е недостапно во интерпретабилност, овозможува повеќе сеопфатна атрибуција, а со тоа и супериорна прецизност. 4.3 Решенија на ниво на инстанца Во овој контекст, ние користиме {X1, . . , Xn} за да ги означиме под-дистрибуциите на изворниот модел. Под-дистрибуциите на сомнителниот модел, кои се споделени со изворниот модел, се претставени како {X1, . . , Xm}. Важно е да се напомене дека кога m е еднаков на n, сомнителниот модел се смета за агресивен модел за прекршување. Ако m е помалку од n, тоа значи непознат модел за прекршување. Напротив, ако m е еднаков на 0, што подразбира дека сомнителниот модел не дели под-дистрибуција со изворот на моделот, тој се смета за невин модел. Како што се претпоставува во Дел 3.2, податоците за обука на изворот моделот е приватен за сопственикот на моделот, што значи дека други не можат да пристапат до овие податоци или какви било податоци од истата дистрибуција преку легитимни средства. Решението на ниво на инстанца може да се формализира како што следува: формулацијата укажува на два проблеми: 1) како да се подготви влезот x, бидејќи земањето примероци од дистрибуцијата Xi не може да биде исцрпно. 2) како да се дизајнира атрибутивната метрика f. Следно, ние воведуваме две стратегии за подготовка на атрибутивниот влез, и деталниот дизајн на атрибутивната метрика. Идејата зад подготовка на влезните податоци е ако сет на инстанции X може да ја минимизира грешката на генерирање на изворниот модел MS, тогаш овие инстанции X најверојатно припаѓаат на под-дистрибуција научена од MS. Затоа, ако овие инстанции X исто така ја минимизираат грешката на генерирање на сомнителен модел, тоа сугерира дека овој модел исто така е обучен на истата под-дистрибуција. Ова доведува до заклучок дека сомнителниот модел го прекршува изворниот модел, бидејќи претпоставуваме дека само сопственикот на изворниот модел ги држи податоците во оваа под-дистрибуција. Оваа претпоставка е разумна и практична. Ако инстанцијата лесно се добива од јавна дистрибуција и не е приватна на сопственикот на MS Признавање Влезот Подготовка Ние развиваме две стратегии за подготовка на клучни примероци, имено, стратегија базирана на откривање и стратегија базирана на генерација. Ние ги илустрираме овие две стратегии во Слика 5. Стратегијата базирана на откривање има за цел да идентификува основен сет во рамките на сетот на податоци за обука на MS кој ги минимизира грешките на генерација, што служи како репрезентативни примероци на дистрибуцијата на моделот. Оваа стратегија е брза и не бара обука. Стратегијата базирана на генерација се фокусира на создавање примероци од изворниот модел MS кој може да ја минимизира грешката на генерација. која може да ја минимизира грешката на генерација. Оваа стратегија нуди поширок простор за примероци и повисока прецизност во споредба со стратегијата базирана на Во оваа стратегија, почнуваме со давање на сите текстуални повици TXT од сет на податоци за обука на изворниот модел во изворниот модел MS. Од ова, генерираме слики IMGgen. Потоа, користиме SSCD резултат [15] за да ја споредиме сличноста помеѓу IMGgen и нивните слики од основна вистина IMGgt. SSCD резултат е најсовремена мерка за сличност на сличноста на сликата која се користи во детектот на копирање на слики[22, 23]. Ние ги избираме N инстанциите со најголеми сличности како клучни примероци: Detection-based strategy Во модел од текст до слика, постојат две компоненти: текстуалниот енкодер и декодерот на слики. За оваа специфична стратегија, започнуваме со случајно избирање на група на текстуални повици од сет на податоци за обука на изворниот модел. Ние ги нарекуваме семински повици. Секој од избраните текстуални внесувања (кои ги означуваме како txt) се состои од n токени, односно txt = [tok1, tok2, . . . , tokn]. Следниот чекор е да се користи текстуалниот енкодер на изворниот модел за да се конвертира секој токен од txt во вградена форма, произведувајќи c = [c1, c2, ..., cn]. По оваа фаза на вградување, ние го оптимизираме c преку iterations за да добиеме ажурирано вградување Generation-based strategy Кога ќе се постигне конвергенција, ние го трансформираме оптимизираното континуирано вградување на текст c ′ назад во дискретни вградувања на токени. За да го сториме ова, го наоѓаме најблиското вградување на збор (познато како c∗ во речникот. Сепак, бидејќи вршиме оптимизација на нивото на зборот, некои од резултирачките оптимизирани вградувања може да немаат смисла. За да се спротивстави на овој проблем, ние го применуваме пост-обработувањето на идентификуваните вградувања. Ние го пресметуваме растојанието помеѓу лоцираното вградување c∗ и нејзиното совпаѓачко вградување на семиња c. Потоа ги задржуваме највисоко-N пронајдените вградувања, оние со Сега ја користиме сличноста помеѓу излезот на изворот и сомнителниот модел условен од клучните примероци за да ја инстанцираме метричката f во Еквација 6. Присвојување метрика за решение на ниво на инстанца. 2.5 Решенија на статистичко ниво Ние ја искористуваме техниката на сенка модел од нападот за заклучување на членството [21] за да ги собереме етикетираните податоци за обука за fD. Тоа вклучува следниве чекори: Автори на: 1) Ликун Џанг; 2) Хао Ву 3) Лингви Џанг; 4) Фенгјуан Су 5) Џин Као 6) Фенгхуа Ли; (7) Бен Ниу Authors: 1) Ликун Џанг; 2) Хао Ву 3) Лингви Џанг; 4) Фенгјуан Су 5) Џин Као 6) Фенгхуа Ли; (7) Бен Ниу Оваа статија е достапна под лиценца CC BY 4.0. Овој документ е под лиценца CC BY 4.0. Достапни за архивирање