A. Урлагийн нарийвчилсан жишээ
E. Glaze 2.0-ийн талаарх олдворууд
G. Загварын дууриамал хийх аргууд
H. Одоо байгаа загварын дуураймал хамгаалалт
Зөвхөн хамгаалагдсан урлагийн бүтээлийг ашиглан зураачийн хэв маягийг дуурайж чаддаг бол хэв маягийг дуурайх арга нь бат бөх байдаг гэж бид хэлдэг. Бат бөх дуурайх аргуудыг аль хэдийн санал болгосон боловч бид эдгээр аргуудын хэд хэдэн хязгаарлалтууд болон тэдгээрийн үнэлгээг Хэсэг 4.1-д дурдсан болно. Дараа нь бид эдгээр хязгаарлалтыг шийдвэрлэх өөрийн арга (4.3-р хэсэг) болон үнэлгээ (5-р хэсэг)-ийг санал болгодог.
(1) Зарим дууриамал хамгаалалт нь нарийн тохируулгын тохиргоонд ерөнхийдөө байдаггүй . Хуурамч хуурамчаар үйлдэгчид дийлэнх нь төрөлхийн хиймэл оюун ухаандаа уран бүтээлээ ашиглахгүй байх тухай уран бүтээлчдийн жинхэнэ хүсэлтийг үл тоомсорлодог тул угаасаа муу санаатай байдаг (Хейкила¨, 2022). Амжилттай хамгаалалт нь янз бүрийн хэрэгслийг туршиж үзэх боломжийн нөөцтэй, хуурамчаар үйлдэгчийг тойрч гарах оролдлогыг эсэргүүцэх ёстой. Гэсэн хэдий ч бид урьдчилсан туршилтаар Glaze (Shan et al., 2023a) үүнийг тойрч гарахыг идэвхтэй оролдохоос өмнө анхны үнэлгээнд дурдсанаас хамаагүй муу ажилласан болохыг олж мэдсэн. Glaze-ийн зохиогчидтой ярилцсаны дараа бид бэлэн байгаа нарийн тохируулгын скрипт болон Glaze-ийн анхны үнэлгээнд ашигласан (зохиогчид бидэнтэй хуваалцсан) хоёрын хооронд жижиг ялгааг олж мэдсэн.[1] Нарийн тохируулгын эдгээр бага зэргийн ялгаа нь Glaze-ийн хамгаалалтыг мэдэгдэхүйц доройтуулахад хангалттай (чанарын жишээг Зураг 2-оос үзнэ үү). Бидний бэлэн болсон нарийн тааруулах скрипт нь хэв маягийн дууриамал хамгаалалтыг тойрч гарахаар төлөвлөөгүй тул эдгээр үр дүн нь одоо байгаа хэрэгслүүдийн өгдөг өнгөц, хэврэг хамгаалалтыг аль хэдийн харуулж байна: уран бүтээлчид хуурамчаар тохируулагчийн ашиглах нарийн тохируулгын скрипт эсвэл гиперпараметрийг хянах боломжгүй байдаг тул хамгаалалтууд эдгээр сонголтуудад бат бөх байх ёстой.
(2) Одоо байгаа бат бөх дуурайх оролдлого нь оновчтой биш юм. Хамгаалалтын өмнөх үнэлгээ нь орчин үеийн аргуудыг (тэр ч байтугай бэлэн байсан ч) ашигладаг дунд зэргийн чадвартай хуурамч хуурамч хүмүүсийн чадварыг тусгаж чадахгүй байна. Жишээлбэл, Mist (Liang нар, 2023) хуучирсан, бага нарийвчлалтай цэвэршүүлэх загвар ашиглан DiffPure цэвэршүүлэлтийг үнэлдэг. DiffPure-г илүү сүүлийн үеийн загварт ашигласнаар бид мэдэгдэхүйц сайжруулалтыг ажиглаж байна. Glaze (Shan et al., 2023a) нь DiffPure-ийн аль ч хувилбарын эсрэг үнэлэгдээгүй боловч эхлээд JPEG ашиглан зургийг шахаж, дараа нь тусгай загвараар сайжруулдаг Compressed Upscaling-аас хамгаалдаг. Гэсэн хэдий ч бид JPEG шахалтыг Гауссын чимээ шуугиантай сольсноор дууриамал хамгаалалтыг арилгахад маш амжилттай хувилбар болох Noisy Upscaling-ийг бий болгож байгааг харуулах болно (хоёр аргын харьцуулалтыг Зураг 26-аас үзнэ үү).
(3) Одоо байгаа үнэлгээ нь иж бүрэн бус байна. Анхны үнэлгээ нь янз бүрийн уран бүтээлчид, сануулга, нарийн тохируулгын тохиргоог ашигладаг тул өмнөх хамгаалалтуудын бат бөх байдлыг харьцуулах нь хэцүү байдаг. Түүнчлэн, зарим үнэлгээ нь автомат хэмжигдэхүүнд (жишээ нь, CLIP төстэй байдал) тулгуурладаг бөгөөд энэ нь хэв маягийн дууриамалыг хэмжихэд найдваргүй байдаг (Shan et al., 2023a,b). Хамгаалалтын аргууд нь хэврэг, дууриамал үнэлгээний субъектив байдлаас шалтгаалан нэгдсэн үнэлгээ шаардлагатай гэж бид үзэж байна.
Хэсэг 4.1-д заасан хязгаарлалтыг арилгахын тулд бид энгийн бөгөөд байгалийн бат бөх дуурайх аргуудын эсрэг одоо байгаа хамгаалалтууд хэрхэн үр дүнтэй болохыг найдвартай үнэлэх үнэлгээний нэгдсэн протоколыг нэвтрүүлж байна. Дээрх дугаарлагдсан хязгаарлалт тус бүрийн шийдлүүд нь: (1) Халдагчид хамгийн хүчтэй нээлттэй эхийн загварт зориулсан алдартай нарийн тааруулах скриптийг ашигладаг бөгөөд бүх хамгаалалт нь: Тогтвортой тархалт 2.1. Энэхүү нарийн тохируулгын скриптийг эдгээр хамгаалалтаас үл хамааран сонгосон бөгөөд бид үүнийг хар хайрцаг гэж үздэг. (2) Бид 4.3-р хэсэгт тайлбарласан дуурайлган дуурайх дөрвөн аргыг зохион бүтээдэг. Бид төрөл бүрийн бэлэн хэрэгслүүдийг нэгтгэснээр туршлага багатай халдлага үйлдэгчдэд энгийн, хялбар байдлыг эрхэмлэдэг. (3) Бид нийтлэг зураач, сануулгууд дээр бат бөх дуурайх арга тус бүрийн эсрэг дууриамал хамгаалалт бүрийг үнэлэхийн тулд хэрэглэгчийн судалгааг боловсруулж, явуулдаг.
Одоо бид хамгаалалтын бат бөх байдлыг үнэлэх зорилгоор бүтээсэн дуурайлган дуурайх дөрвөн аргыг тайлбарлаж байна. Бид юуны түрүүнд хамгаалагдсан зургийг урьдчилан боловсруулах шаардлагатай энгийн аргуудыг чухалчилдаг. Эдгээр аргууд нь илүү хүртээмжтэй, техникийн туршлага шаарддаггүй, хар хайрцагны хувилбаруудад (жишээлбэл, API үйлчилгээ болгон нарийн тохируулга хийсэн тохиолдолд) ашиглах боломжтой тул өндөр эрсдэлтэй байдаг. Бүрэн гүйцэд байлгахын тулд бид IMPRESS-ээс санаа авсан цагаан хайрцагны нэг аргыг санал болгож байна (Cao et al., 2024).
Бидний санал болгож буй аргуудыг өмнөх ажилдаа (наад зах нь хэсэгчлэн) авч үзсэн бөгөөд тэдгээр нь хэв маягийг дуурайх хамгаалалтын эсрэг үр дүнгүй болохыг олж мэдсэн (Shan et al., 2023a; Liang et al., 2023; Shan et al., 2023b) ). Гэсэн хэдий ч бид 4.1-д дурдсанчлан эдгээр үнэлгээ нь хэд хэдэн хязгаарлалттай байсан. Тиймээс бид эдгээр аргуудыг (эсвэл тэдгээрийн бага зэрэг хувилбаруудыг) дахин үнэлж, тэдгээр нь өмнө нь мэдэгдэж байснаас хамаагүй илүү амжилттай болохыг харуулах болно.
Хар хайрцагны урьдчилсан боловсруулалтын аргууд.
✦ Гауссын шуугиан . Урьдчилан боловсруулах энгийн алхам болгон бид хамгаалагдсан зургуудад бага хэмжээний Гауссын дуу чимээг нэмдэг. Энэ аргыг ямар ч хар хайрцагны тархалтын загвараас өмнө ашиглаж болно.
✦ DiffPure . Бид DiffPure (Nie et al., 2022) гэж нэрлэгддэг хамгаалалтаас үүссэн цочролыг арилгахын тулд зураг хоорондын загварыг ашигладаг (Хавсралт I.1-ийг үзнэ үү). Энэ арга нь хар хайрцаг боловч цэвэршүүлэгч болон хэв маягийг дуурайхад ашигладаг хоёр өөр загвар шаарддаг. Бид Stable Diffusion XL-ийг цэвэршүүлэгч болгон ашигладаг.
✦ Дуу чимээ ихтэй сайжруулалт . Бид Glaze (Shan et al., 2023a)-д авч үзсэн хоёр үе шаттай өргөтгөх цэвэршүүлэх энгийн бөгөөд үр дүнтэй хувилбарыг танилцуулж байна. Тэдний арга нь эхлээд JPEG шахалтыг (үймрэлтийг багасгахын тулд) гүйцэтгэдэг бөгөөд дараа нь Stable Diffusion Upscaler (Rombach et al., 2022) (чанарын доройтлыг багасгах) ашигладаг. Гэсэн хэдий ч томруулах нь JPEG шахалтын олдворуудыг арилгахын оронд үнэндээ томруулдаг болохыг бид олж мэдсэн. Илүү сайн цэвэршүүлэх аргыг зохион бүтээхийн тулд Upscaler нь Гауссын чимээ шуугианаар нэмэгдүүлсэн зураг дээр сургагдсан болохыг бид харж байна. Тиймээс бид эхлээд Гауссын шуугиан, дараа нь Upscaler ашиглан хамгаалагдсан зургийг цэвэршүүлдэг. Энэхүү чимээ шуугиантай өсгөх арга нь мэдрэгдэхүйц олдворгүй бөгөөд хамгаалалтыг мэдэгдэхүйц бууруулдаг (жишээг Зураг 26, Хавсралт I.2-оос дэлгэрэнгүйг үзнэ үү).
Цагаан хайрцагны аргууд.
✦ СЭТГЭЛДҮҮЛЭХ ++. Бүрэн байдлыг хангахын тулд бид илүү нарийн төвөгтэй аргууд нь хэв маягийн дууриамалын бат бөх байдлыг сайжруулах боломжтой эсэхийг үнэлэхийн тулд цагаан хайрцагны аргыг боловсруулдаг. Манай арга нь IMPRESS (Cao нар, 2024) дээр суурилдаг боловч өөр алдагдлын функцийг хэрэгжүүлж, түүврийн процедурын бат бөх байдлыг сайжруулахын тулд сөрөг өдөөлт (Miyake нар, 2023) болон саармагжуулах аргыг ашигладаг (Хавсралт I.3, Зураг-ыг үзнэ үү). 27 дэлгэрэнгүйг үзнэ үү).
Зохиогчид:
(1) Роберт Хониг, ETH Цюрих ([email protected]);
(2) Javier Rando, ETH Zurich ([email protected]);
(3) Николас Карлини, Google DeepMind;
(4) Флориан Трамер, ETH Цюрих ([email protected]).
Энэ цаас
[1] Хоёр нарийн тааруулах скрипт нь номын сан, загвар, гиперпараметрийн сонголтоороо ялгаатай байдаг. Бид стандарт HuggingFace скрипт болон Stable Diffusion 2.1 (Glaze цаасан дээр үнэлэгдсэн загвар) ашигладаг.