paint-brush
Тадқиқоти нав нишон медиҳад, ки AI акнун метавонад услубҳои санъатро аз ҳарвақта дақиқтар тақлид кунадаз ҷониби@torts
113 хониш

Тадқиқоти нав нишон медиҳад, ки AI акнун метавонад услубҳои санъатро аз ҳарвақта дақиқтар тақлид кунад

аз ҷониби Torts5m2024/12/10
Read on Terminal Reader

Хеле дароз; Хондан

Усулҳои устувори тақлид ба монанди Noisy Upscaling ва IMPRESS++ осебпазириро дар муҳофизати AI ба монанди Glaze фош мекунанд ва ин кафолатҳои услубро камтар муассир мекунанд.
featured image - Тадқиқоти нав нишон медиҳад, ки AI акнун метавонад услубҳои санъатро аз ҳарвақта дақиқтар тақлид кунад
Torts HackerNoon profile picture
0-item

Ҷадвали пайвандҳо

Реферат ва 1. Муқаддима

  1. Замина ва кори марбут

  2. Модели таҳдид

  3. Мимикрии устувори услуб

  4. Танзими таҷрибавӣ

  5. Натиҷаҳо

    6.1 Бозёфтҳои асосӣ: Ҳама муҳофизатҳо ба осонӣ бартараф карда мешаванд

    6.2 Таҳлил

  6. Муҳокима ва Таъсири васеътар, Эътирозҳо ва истинодҳо

A. Намунаҳои муфассали санъат

B. Наслҳои мустаҳками тақлид

C. Натиҷаҳои муфассал

D. Тафовут бо Glaze Finetuning

E. Бозёфтҳо дар бораи Glaze 2.0

F. Бозёфтҳо оид ба Mist v2

G. Усулҳои барои тақлид услубӣ

H. Ҳифзи тақлидҳои услубии мавҷуда

I. Усулҳои мустаҳками тақлид

J. Танзимоти таҷрибавӣ

К. Омӯзиши корбарон

L. Сарчашмаҳои ҳисоббарор

4 Мимикри услуби мустаҳкам

Мо мегӯем, ки усули тақлиди услуб устувор аст, агар он метавонад ба услуби рассом бо истифода аз осори муҳофизатшуда тақлид кунад. Гарчанде ки усулҳои тақлиди устувор аллакай пешниҳод шудаанд, мо як қатор маҳдудиятҳоро дар ин усулҳо ва арзёбии онҳо дар фасли 4.1 қайд мекунем. Сипас, мо усулҳои худро (Қисми 4.3) ва арзёбӣ (Қисми 5) пешниҳод мекунем, ки ин маҳдудиятҳоро ҳал мекунанд.

4.1 Маҳдудиятҳои усулҳои тақлиди устувори қаблӣ ва арзёбии онҳо

(1) Баъзе муҳофизатҳои тақлидӣ дар танзимоти дақиқи танзим умумӣ нестанд . Аксарияти сохтакорон табиатан нияти бад доранд, зеро онҳо дархостҳои аслии рассомонро дар бораи истифода набурдани санъати онҳо барои AI тавлидкунанда нодида мегиранд (Хейкила, 2022). Ҳамин тариқ, муҳофизати бомуваффақият бояд ба кӯшишҳои саркашӣ аз ҷониби як сохтакори оқилона, ки метавонад асбобҳои гуногунро санҷида бошад, муқобилат кунад. Бо вуҷуди ин, дар таҷрибаҳои пешакӣ, мо дарёфтем, ки Glaze (Shan et al., 2023a) ҳатто пеш аз кӯшиши фаъолона барои канорагирӣ аз он, назар ба арзёбии аслӣ ба таври назаррас бадтар кор кардааст. Пас аз муҳокима бо муаллифони Glaze, мо фарқиятҳои хурдеро дар байни скрипти дақиқи танзими худ ва скрипти дар арзёбии аслии Glaze истифодашуда пайдо кардем (ки муаллифон бо мо мубодила кардаанд).[1] Ин фарқиятҳои ночиз дар танзимот барои ба таври назаррас коҳиш додани муҳофизати Glaze кифояанд (барои мисолҳои сифатӣ ба расми 2 нигаред). Азбаски скрипти дақиқи танзими мо барои гузаштан аз муҳофизати тақлидсозии услуб тарҳрезӣ нашуда буд, ин натиҷаҳо аллакай ба муҳофизати рӯякӣ ва нозук, ки асбобҳои мавҷуда пешниҳод мекунанд, ишора мекунанд: рассомон скрипти дақиқи танзим ё гиперпараметрҳои қалбакӣ истифода мебаранд, назорат намекунанд, аз ин рӯ муҳофизатҳо бояд дар ин интихобҳо устувор бошад.


(2) Кӯшишҳои мавҷудаи устувори тақлид ба таври оптималӣ мебошанд. Арзёбиҳои қаблии муҳофизат имкониятҳои қаллобони мӯътадилро, ки усулҳои муосирро истифода мебаранд (ҳатто усулҳои аз кор омодашуда) инъикос намекунад. Масалан, Mist (Liang et al., 2023) бар зидди тозакунии DiffPure бо истифода аз модели тозакунии кӯҳна ва пастсифат арзёбӣ мекунад. Бо истифода аз DiffPure бо модели навтар, мо беҳбудиҳои назаррасро мушоҳида мекунем. Glaze (Shan et al., 2023a) нисбат ба ягон версияи DiffPure баҳо дода намешавад, аммо даъвои муҳофизат аз болоравии фишурдашуда, ки аввал тасвирро бо JPEG фишурда, сипас онро бо модели махсус такмил медиҳад. Бо вуҷуди ин, мо нишон медиҳем, ки танҳо бо иваз кардани фишурдани JPEG бо ғавғои Гаусс, мо Upscaling-ро ҳамчун варианте месозем, ки дар бартараф кардани муҳофизати тақлид хеле муваффақ аст (барои муқоисаи ҳарду усул ба расми 26 нигаред).


(3) Арзёбиҳои мавҷуда фарогир нестанд. Муқоисаи устувории муҳофизати қаблӣ душвор аст, зеро арзёбии аслӣ маҷмӯи гуногуни рассомон, дастурҳо ва танзимоти дақиқро истифода мебаранд. Гузашта аз ин, баъзе арзёбӣ ба ченакҳои автоматиконидашуда (масалан, шабоҳати CLIP) такя мекунанд, ки барои чен кардани тақлиди услуб беэътимод мебошанд (Шан ва дигарон, 2023a,b). Аз сабаби ноустувории усулҳои муҳофизат ва субъективии арзёбии тақлид, мо боварӣ дорем, ки арзёбии ягона лозим аст.

4.2 Арзёбии ягона ва дақиқи усулҳои тақлиди устувор

Барои рафъи маҳдудиятҳое, ки дар фасли 4.1 оварда шудаанд, мо протоколи ягонаи арзёбӣ ҷорӣ мекунем, то ба таври эътимодбахш баҳо диҳем, ки чӣ гуна муҳофизати мавҷуда аз усулҳои гуногуни оддӣ ва табиии тақлидсозӣ чӣ гуна арзиш дорад. Ҳалли мо барои ҳар як маҳдудиятҳои рақамии дар боло зикршуда инҳоянд: (1) Ҳамлагар скрипти танзими маъмули "аз раф"-ро барои қавитарин модели кушодаасос истифода мебарад, ки ҳама муҳофизатҳо барои онҳо самараноканд: Диффузияи устувор 2.1. Ин скрипти танзимкунанда новобаста аз яке аз ин муҳофизатҳо интихоб карда мешавад ва мо онро ҳамчун қуттии сиёҳ баррасӣ мекунем. (2) Мо чор усули устувори тақлидро тарҳрезӣ мекунем, ки дар фасли 4.3 тавсиф шудаанд. Мо содда ва осонии истифодаро барои ҳамлагарони камтаҷриба тавассути омезиши абзорҳои гуногуни рафъ афзалият медиҳем. (3) Мо омӯзиши корбарро тарҳрезӣ мекунем ва мегузаронем, то ҳар як муҳофизати тақлидро аз ҳар як усули мустаҳками тақлид дар маҷмӯи умумии рассомон ва дархостҳо арзёбӣ кунад.

4.3 Усулҳои устувори тақлиди мо

Мо ҳоло чаҳор усули боэътимоди тақлидро тавсиф мекунем, ки мо барои арзёбии устувории муҳофизат тарҳрезӣ кардем. Мо пеш аз ҳама ба усулҳои оддӣ афзалият медиҳем, ки танҳо коркарди пешакии тасвирҳои ҳифзшударо талаб мекунанд. Ин усулҳо хатари бештар доранд, зеро онҳо дастрастаранд, таҷрибаи техникӣ талаб намекунанд ва метавонанд дар сенарияҳои қуттии сиёҳ истифода шаванд (масалан, агар танзими дақиқ ҳамчун хидмати API таъмин карда шавад). Барои пуррагӣ, мо минбаъд як усули қуттии сафедро пешниҳод мекунем, ки аз IMPRESS илҳом гирифта шудааст (Cao et al., 2024).


Мо қайд мекунем, ки усулҳои пешниҳодкардаи мо (ҳадди ақал қисман) дар кори қаблӣ баррасӣ шуда буданд, ки онҳоро бар зидди муҳофизати тақлидҳои услубӣ бесамар донистанд (Шан ва дигарон, 2023a; Лианг ва дигарон, 2023; Шан ва дигарон, 2023b. ). Бо вуҷуди ин, тавре ки мо дар фасли 4.1 қайд кардем, ин арзёбӣ аз як қатор маҳдудиятҳо дучор шуданд. Ҳамин тариқ, мо ин усулҳоро (ё вариантҳои ночизи онҳо) аз нав арзёбӣ мекунем ва нишон медиҳем, ки онҳо нисбат ба қаблан гуфташуда муваффақтаранд.


Усулҳои коркарди пешакии қуттии сиёҳ.


Садои Гаусс . Ҳамчун як қадами оддии коркарди пешакӣ, мо ба тасвирҳои муҳофизатшуда миқдори ками садои Гауссиан илова мекунем. Ин равишро метавон пеш аз ҳама модели диффузияи сиёҳ истифода бурд.


DiffPure . Мо моделҳои тасвир ба тасвирро барои бартараф кардани изтиробҳои аз ҷониби муҳофизат воридшуда истифода мебарем, ки онро DiffPure низ меноманд (Nie et al., 2022) (ниг. Замимаи I.1). Ин усул қуттии сиёҳ аст, аммо ду модели гуногунро талаб мекунад: тозакунанда ва усули барои тақлидсозии услуб истифодашаванда. Мо Stable Diffusion XL-ро ҳамчун тозакунандаи худ истифода мебарем.


Баланд бардоштани ғавғо . Мо як варианти содда ва самараноки тозакунии думарҳилаи болобардориро, ки дар Glaze баррасӣ шудааст, ҷорӣ мекунем (Шан ва дигарон, 2023a). Усули онҳо аввал фишурдани JPEG-ро иҷро мекунад (барои кам кардани халалдоршавӣ) ва сипас Upscaler Stable Diffusion Upscaler (Rombach et al., 2022) (барои коҳиш додани таназзули сифат) истифода мебарад. Бо вуҷуди ин, мо мефаҳмем, ки баландбардорӣ воқеан артефактҳои фишурдани JPEG-ро ба ҷои нест кардани онҳо зиёд мекунад. Барои тарҳрезии як усули беҳтари поксозӣ, мо мушоҳида мекунем, ки Upscaler дар тасвирҳое, ки бо садои Гаусс афзоиш ёфтааст, таълим дода шудааст. Аз ин рӯ, мо тасвири ҳифзшударо тавассути аввал садои Гауссиан ва сипас Upscaler истифода мебарем. Ин усули баланд бардоштани ғавғо ҳеҷ гуна артефактҳои даркшавандаро ҷорӣ намекунад ва муҳофизатро ба таври назаррас коҳиш медиҳад (барои мисол ба расми 26 ва барои тафсилот ба Замимаи I.2 нигаред).


Усулҳои қуттии сафед.


ТАЪСУРОТ ++. Барои пуррагӣ, мо як усули қуттии сафедро тарҳрезӣ мекунем, то арзёбӣ кунем, ки оё усулҳои мураккабтар метавонанд устувории тақлиди услубро боз ҳам баланд бардоранд. Усули мо бар IMPRESS (Cao et al., 2024) асос ёфтааст, аммо функсияи талафоти дигарро қабул мекунад ва минбаъд барои баланд бардоштани устувории тартиби интихобкунӣ даъвати манфиро (Мияке ва дигарон, 2023) истифода мебарад (ниг. Ба Замимаи I.3 ва Расми 1.3 ва Диққат). 27 барои тафсилот).


Муаллифон:

(1) Роберт Хониг, ETH Zurich ([email protected]);

(2) Хавьер Рандо, ETH Сюрих ([email protected]);

(3) Николас Карлини, Google DeepMind;

(4) Флориан Трамер, ETH Сюрих ([email protected]).


Ин коғаз аст дар архив дастрас аст таҳти иҷозатномаи CC BY 4.0.

[1] Ду скрипти дақиқи танзим асосан дар интихоби китобхона, модел ва гиперпараметрҳо фарқ мекунанд. Мо скрипти стандартии HuggingFace ва Stable Diffusion 2.1-ро истифода мебарем (моделе, ки дар коғази Glaze арзёбӣ шудааст).

L O A D I N G
. . . comments & more!

About Author

Torts HackerNoon profile picture
Torts@torts
Exploring the legal landscape of the digital age. Read my articles to understand the why behind the what.

ТЕГИ овезон кунед

ИН МАКОЛА ДАР...