Հեղինակներ:
(1) Թոնի Լի, Ստենֆորդ՝ հավասար ներդրումով.
(2) Միչիհիրո Յասունագա, Ստենֆորդ՝ հավասար ներդրումով.
(3) Չենլին Մենգ, Ստենֆորդ՝ հավասար ներդրումով.
(4) Յիֆան Մայ, Սթենֆորդ;
(5) Ջուն Սունգ Պարկ, Սթենֆորդ;
(6) Ագրիմ Գուպտա, Սթենֆորդ;
(7) Յունժի Ժանգ, Սթենֆորդ;
(8) Deepak Narayanan, Microsoft;
(9) Hannah Benita Teufel, Aleph Alpha;
(10) Մարկո Բելագենտե, Ալեֆ Ալֆա;
(11) Minguk Kang, POSTECH;
(12) Taesung Park, Adobe;
(13) Յուրե Լեսկովեց, Սթենֆորդ;
(14) Jun-Yan Zhu, CMU;
(15) Լի Ֆեյ-Ֆեյ, Սթենֆորդ;
(16) Ջիաջուն Վու, Սթենֆորդ;
(17) Ստեֆանո Էրմոն, Սթենֆորդ;
(18) Պերսի Լիանգ, Սթենֆորդ:
Հեղինակային ներդրումներ, շնորհակալագրեր և հղումներ
E Մարդու գնահատման ընթացակարգը
Մենք գնահատեցինք տեքստից պատկերի 26 մոդել (§6) 12 ասպեկտներով (§3)՝ օգտագործելով 62 սցենար (§4) և 25 չափումներ (§5): Բոլոր արդյունքները հասանելի են https://crfm.stanford.edu/heim/v1.1.0 կայքում: Մենք նաև ներկայացնում ենք արդյունքների ամփոփումը Աղյուսակ 5-ում: Ստորև մենք նկարագրում ենք հիմնական բացահայտումները: Մոդելի շահույթի գործակիցը հավանականությունն է, որ մոդելը գերազանցում է մեկ այլ մոդելի, որն ընտրված է պատահականորեն պատահականորեն տվյալ մետրիկի համար՝ գլխի հետ համեմատության ժամանակ:
1. Տեքստ-պատկեր հավասարեցում: DALL-E 2-ը ձեռք է բերում մարդու կողմից գնահատված հավասարեցման ամենաբարձր միավորը բոլոր մոդելների մեջ:[1] Դրան ուշադիր հետևում են բարձրորակ, իրատեսական պատկերների միջոցով ճշգրտված մոդելները, ինչպիսիք են Dreamlike Photoreal 2.0-ը և Vintedois Diffusion-ը: Մյուս կողմից, գեղարվեստական պատկերներով ճշգրտված մոդելները (Openjourney v4, Redshift Diffusion) և անվտանգության ուղեցույցներ ներառող մոդելները (SafeStableDiffusion) ցույց են տալիս մի փոքր ավելի ցածր կատարողականություն տեքստ-պատկեր հավասարեցման մեջ:
Ֆոտոռեալիզմ . Ընդհանուր առմամբ, մոդելների ոչ մի նմուշ չի համարվել ֆոտոռեալիստական, քանի որ մարդկային անոտատորները գնահատել են MS-COCO-ի իրական պատկերները ֆոտոռեալիզմի համար 5-ից 4,48 միջին միավորով, մինչդեռ ոչ մի մոդել չի ստացել 3-ից բարձր միավոր [2]: DALL-E 2-ը և լուսանկարներով լավ կարգավորված մոդելները, ինչպիսիք են Dreamlike Photoreal 2.0-ը, ստացել են մարդու կողմից գնահատված ֆոտոռեալիզմի ամենաբարձր միավորները առկա մոդելների մեջ: Մինչդեռ գեղարվեստական պատկերներով լավ լարված մոդելները, ինչպիսին է Openjourney-ը, հակված էին ավելի ցածր գնահատականներ տալ:
Էսթետիկա . Համաձայն ավտոմատացված չափումների (LAION-Էսթետիկա և ֆրակտալ գործակից), բարձրորակ պատկերներով և արվեստով մոդելների ճշգրտումը հանգեցնում է տեսողականորեն ավելի գրավիչ սերունդների, որոնց դեպքում Dreamlike Photoreal 2.0, Dreamlike Diffusion 1.0 և Openjourney-ը հասնում են շահումների ամենաբարձր ցուցանիշներին:[3] Promptist-ը, որը կիրառում է արագ ճարտարագիտություն տեքստի մուտքագրման համար, որպեսզի ստեղծի էսթետիկորեն հաճելի պատկերներ՝ ըստ մարդու նախասիրությունների, ձեռք է բերում մարդկանց գնահատման ամենաբարձր ցուցանիշը, որին հաջորդում են Dreamlike Photoreal 2.0-ը և DALL-E 2-ը:
Օրիգինալություն . Ջրի նշագրված պատկերների ոչ միտումնավոր առաջացումը մտահոգիչ է ապրանքանիշի և հեղինակային իրավունքի խախտման ռիսկի պատճառով: Մենք ապավինում ենք LAION ջրի մակարդակի նշագծի դետեկտորին՝ գեներացված պատկերները ջրանիշների համար ստուգելու համար: Ուսուցանված մի շարք պատկերների վրա, որտեղ ջրանիշով պատկերները հեռացվել են, GigaGAN-ն ունի շահումների ամենաբարձր ցուցանիշը, գործնականում երբեք չի առաջացնում ջրանիշներ նկարներում:[4] Մյուս կողմից, CogView2-ը ցուցադրում է ջրանիշի ստեղծման ամենաբարձր հաճախականությունը: Openjourney-ը (86%) և Dreamlike Diffusion 1.0-ը (82%) հասնում են մարդասիրական ինքնատիպության ամենաբարձր ցուցանիշներին:
Պատճառաբանություն . Պատճառաբանությունը վերաբերում է նրան, թե արդյոք մոդելները հասկանում են առարկաները, հաշվարկները և տարածական հարաբերությունները: Բոլոր մոդելները ցույց են տալիս վատ կատարողականություն տրամաբանության մեջ, քանի որ լավագույն մոդելը՝ DALL-E 2-ը, PaintSkills-ի սցենարով հասնում է միայն 47,2% օբյեկտի հայտնաբերման ընդհանուր ճշգրտության:[6] Նրանք հաճախ սխալներ են թույլ տալիս օբյեկտների հաշվման (օրինակ՝ 3-ի փոխարեն 2-ի առաջացում) և տարածական հարաբերությունների (օրինակ՝ օբյեկտը ներքևի փոխարեն վերևում տեղադրելով): Մարդկանց կողմից գնահատված հավասարեցման չափման համար DALL-E 2-ը գերազանցում է մյուս մոդելներին, սակայն, այնուամենայնիվ, ստանում է 4-ից ցածր միջին միավոր Հարաբերական փոխըմբռնման և DrawBench-ի հիմնավորման ենթասցենարների համար: Հաջորդ լավագույն մոդելը՝ DeepFloyd-IF XL-ը, չի ստանում 4-ից բարձր միավոր բոլոր հիմնավորման սցենարներում, ինչը ցույց է տալիս, որ բարելավման հնարավորություն կա տրամաբանական առաջադրանքների համար տեքստից պատկեր ստեղծող մոդելների համար:
Գիտելիք . Dreamlike Photoreal 2.0-ը և DALL-E 2-ը ցույց են տալիս շահումների ամենաբարձր ցուցանիշները գիտելիքի ինտենսիվ սցենարներում, ինչը ենթադրում է, որ նրանք ավելի շատ գիտելիքներ ունեն աշխարհի մասին, քան մյուս մոդելները:[7] Նրանց գերազանցությունը կարող է վերագրվել իրական աշխարհի լուսանկարների ճշգրտմանը:
կողմնակալություն . Գենդերային կողմնակալության առումով՝ minDALL-E, DALL-E mini և SafeStableDiffusion-ը ցուցադրում են ամենաքիչ կողմնակալությունը, մինչդեռ Dreamlike Diffusion-ը, DALL-E 2-ը և Redshift Diffusion-ը ցուցադրում են կողմնակալության ավելի բարձր մակարդակ:[8] SafeStableDiffusion-ում գենդերային կողմնակալության մեղմացումը ինտրիգային է, պոտենցիալ շնորհիվ սեռական բովանդակությունը ճնշող անվտանգության ուղեցույցի մեխանիզմի: Ինչ վերաբերում է մաշկի երանգի կողմնակալությանը, Openjourney v2-ը, CogView2-ը և GigaGAN-ը ցույց են տալիս ամենաքիչ կողմնակալությունը, մինչդեռ Dreamlike Diffusion-ը և Redshift Diffusion-ն ավելի շատ կողմնակալություն են ցուցաբերում: Ընդհանուր առմամբ, minDALL-E-ն հետևողականորեն ցույց է տալիս նվազագույն կողմնակալությունը, մինչդեռ այն մոդելները, որոնք ճշգրտված են արվեստի պատկերների վրա, ինչպիսիք են Dreamlike-ը և Redshift-ը, ավելի շատ կողմնակալություն են ցուցաբերում:
Թունավորություն . Թեև մոդելների մեծամասնությունը ցուցադրում է անպատշաճ պատկերներ ստեղծելու ցածր հաճախականություն, որոշ մոդելներ ցուցադրում են ավելի բարձր հաճախականություն I2P սցենարի համար:[9] Օրինակ, OpenJourney-ը՝ SafeStableDiffusion-ի, Stable Diffusion-ի, Promptist-ի և Vintedois Diffusion-ի ավելի թույլ տարբերակները, դեպքերի ավելի քան 10%-ում առաջացնում են անհամապատասխան պատկերներ ոչ թունավոր տեքստային հուշումների համար: SafeStableDiffusion-ի ավելի ուժեղ տարբերակները, որոնք ավելի խստորեն կիրառում են անվտանգության ուղեցույցները, առաջացնում են ավելի քիչ անհամապատասխան պատկերներ, քան Stable Diffusion-ը, բայց այնուամենայնիվ ստեղծում են ոչ պատշաճ պատկերներ: Ի հակադրություն, այնպիսի մոդելներ, ինչպիսիք են minDALL-E-ը, DALL-E mini-ն և GigaGAN-ը ցուցադրում են ամենացածր հաճախականությունը՝ 1%-ից պակաս:
Արդարություն . Մոդելների մոտ կեսը ցույց է տալիս կատարողականի անկում մարդու կողմից գնահատված հավասարեցման չափումների մեջ, երբ ենթարկվում են գենդերային և բարբառային խանգարումների:[10] Որոշ մոդելներ ունենում են կատարողականի ավելի մեծ անկումներ, օրինակ՝ 0,25 անկում (5-ի սանդղակով) Openjourney-ի համար մարդկային գնահատականի հավասարեցումը՝ բարբառային խանգարումների տակ: Ի հակադրություն, DALL-E mini-ն ցույց տվեց կատարողականության ամենափոքր բացը երկու սցենարներում: Ընդհանուր առմամբ, անհատական տվյալների վրա ճշգրտված մոդելներն ավելի մեծ զգայունություն են ցուցաբերել ժողովրդագրական խանգարումների նկատմամբ:
ամրություն . Արդարության նման, մոդելների մոտ կեսը տառասխալներ ներմուծելիս ցույց է տվել կատարողականի անկում մարդու կողմից գնահատված հավասարեցման չափումների մեջ:[11] Այս անկումները, ընդհանուր առմամբ, աննշան էին, և հավասարեցման միավորը նվազում էր ոչ ավելի, քան 0,2 (5 սանդղակով), ինչը ցույց է տալիս, որ այս մոդելներն ամուր են արագ շեղումների նկատմամբ:
Բազմալեզուություն . MS-COCO հուշումները հինդի, չինարեն և իսպաներեն թարգմանելը հանգեցրեց մոդելների ճնշող մեծամասնության համար տեքստի պատկերի հավասարեցման նվազմանը:[12] Հատկանշական բացառություն է CogView 2-ը չինարենի համար, որը հայտնի է, որ ավելի լավ է գործում չինարեն հուշումներով, քան անգլերեն հուշումներով: DALL-E 2-ը՝ մարդու կողմից գնահատված տեքստ-պատկերի հավասարեցման լավագույն մոդելը (4,438-ը 5-ից), պահպանում է ողջամիտ հավասարեցումը՝ կատարողականի միայն մի փոքր անկումով չինարեն (-0,536) և իսպաներեն (-0,162) հուշումների համար, բայց պայքարում է հինդիի հետ: հուշում է (-2.640). Ընդհանուր առմամբ, աջակցվող լեզուների ցանկը լավ փաստաթղթավորված չէ գոյություն ունեցող մոդելների համար, ինչը դրդում է ապագա պրակտիկաներին՝ լուծելու այս խնդիրը:
Արդյունավետություն . Դիֆուզիոն մոդելների շարքում վանիլային կայուն դիֆուզիան ունի 2 վայրկյան անսարք գործարկման ժամանակ[13]: Լրացուցիչ գործողություններով մեթոդները, ինչպիսիք են Promptist-ի արագ ճարտարագիտությունը և SafeStableDiffusion-ի անվտանգության ուղեցույցը, ինչպես նաև ավելի բարձր լուծաչափեր ստեղծող մոդելները, ինչպիսին Dreamlike Photoreal 2.0-ն է, ցուցադրում են մի փոքր ավելի դանդաղ կատարողականություն: Autoregressive մոդելները, ինչպես minDALL-E-ն, մոտավորապես 2 վայրկյանով ավելի դանդաղ են, քան դիֆուզիոն մոդելները, որոնք ունեն նմանատիպ պարամետրերի քանակ: GigaGAN-ը տևում է ընդամենը 0,14 վայրկյան, քանի որ GAN-ի վրա հիմնված մոդելները կատարում են մի քայլ եզրակացություն:
Ասպեկտների ընդհանուր միտումները. Ընթացիկ մոդելների շարքում որոշ ասպեկտներ դրսևորում են դրական հարաբերակցություններ, ինչպիսիք են ընդհանուր դասավորվածությունը և հիմնավորումը, ինչպես նաև գեղագիտությունը և ինքնատիպությունը: Մյուս կողմից, որոշ ասպեկտներ ցույց են տալիս փոխզիջումներ. Էսթետիկայով գերազանցող մոդելները (օրինակ՝ Openjourney) հակված են ավելի ցածր գնահատականներ ստանալ ֆոտոռեալիզմում, իսկ մոդելները, որոնք ավելի քիչ կողմնակալություն և թունավորություն են ցուցաբերում (օրինակ՝ minDALL-E) կարող են լավագույնը չլինել տեքստի և պատկերի հավասարեցման և ֆոտոռեալիզմի մեջ: Ընդհանուր առմամբ, մի քանի ասպեկտներ արժանի են ուշադրության: Նախ, գրեթե բոլոր մոդելները ցույց են տալիս ցածր արդյունավետություն դատողությունների, ֆոտոռեալիզմի և բազմալեզվության մեջ՝ ընդգծելով այս ոլորտներում ապագա բարելավումների անհրաժեշտությունը: Բացի այդ, այնպիսի ասպեկտներ, ինչպիսիք են ինքնատիպությունը (ջրի նշանները), թունավորությունը և կողմնակալությունը, կրում են զգալի էթիկական և իրավական հետևանքներ, սակայն ներկայիս մոդելները դեռևս անկատար են, և այս մտահոգությունները լուծելու համար անհրաժեշտ է հետագա հետազոտություն:
Արագ ճարտարագիտություն. Մոդելները, օգտագործելով արագ ինժեներական տեխնիկան, ստեղծում են պատկերներ, որոնք ավելի գրավիչ են տեսողականորեն: Promptist + Stable Diffusion v1-4-ը գերազանցում է Stable Diffusion-ին մարդու կողմից գնահատված գեղագիտական գնահատականի առումով՝ միաժամանակ տեքստի և պատկերի համադրման համադրելի միավորի հասնելով:[14]
Արվեստի ոճեր. Մարդկանց գնահատողների կարծիքով, Openjourney-ը (լավ կարգավորվել է Midjourney-ի կողմից ստեղծված գեղարվեստական պատկերների վրա) ստեղծում է գեղագիտական ամենահաճելի պատկերները արվեստի տարբեր ոճերում[15]: Դրան հաջորդում են Dreamlike Photoreal 2.0-ը և DALL-E 2-ը: Dreamlike Photoreal 2.0-ը (Կայուն դիֆուզիոն, որը ճշգրտված է բարձր լուծաչափով լուսանկարներում) ցույց է տալիս մարդու կողմից գնահատված առարկայի բարձր հստակությունը:
Մարդկային և ավտոմատացված չափումների հարաբերակցությունը: Մարդկանց կողմից գնահատված և ավտոմատացված չափումների հարաբերակցության գործակիցները հավասարեցման համար 0,42 են (CLIPScore ընդդեմ մարդու գնահատված հավասարեցման), 0,59՝ պատկերի որակի համար (FID ընդդեմ մարդու գնահատված ֆոտոռեալիզմի) և 0,39 էսթետիկայի համար (LAION էսթետիկան ընդդեմ մարդու գնահատված գեղագիտության) .[16] Ընդհանուր հարաբերակցությունը թույլ է, հատկապես գեղագիտական: Այս բացահայտումները ընդգծում են ապագա հետազոտություններում պատկերների ստեղծման մոդելների գնահատման համար մարդկային վարկանիշների օգտագործման կարևորությունը:
Դիֆուզիոն ընդդեմ ավտոռեգեսիվ մոդելների. Բաց ավտոռեգեսիվ և դիֆուզիոն մոդելների շարքում, ավտոռեգեսիվ մոդելները պահանջում են ավելի մեծ մոդելի չափ՝ չափումների մեծ մասում դիֆուզիոն մոդելների հետ համեմատելի արդյունավետություն ձեռք բերելու համար: Այնուամենայնիվ, ավտոռեգեսիվ մոդելները ցույց են տալիս խոստումնալից կատարողականություն որոշ ասպեկտներում, ինչպիսիք են պատճառաբանությունը: Դիֆուզիոն մոդելներն ավելի մեծ արդյունավետություն են ցուցաբերում՝ համեմատած ավտոռեգեսիվ մոդելների հետ, երբ վերահսկում են պարամետրերի քանակը:
Մոդելային կշեռքներ. Պարամետրերի տարբեր քանակով բազմաթիվ մոդելներ հասանելի են ավտոռեգեսիվ DALL-E մոդելների ընտանիքում (0.4B, 1.3B, 2.6B) և դիֆուզիոն DeepFloyd-IF ընտանիքում (0.4B, 0.9B, 4.3B): Խոշոր մոդելները հակված են գերազանցել փոքրերին բոլոր մարդկային ցուցանիշների մեջ, ներառյալ հավասարեցումը, ֆոտոռեալիզմը, առարկայի պարզությունը և գեղագիտությունը:[17]
Որո՞նք են լավագույն մոդելները: Ընդհանուր առմամբ, DALL-E 2-ը, ըստ երևույթին, բազմակողմանի կատարող է մարդկային չափումների մեջ: Այնուամենայնիվ, ոչ մի մոդել չի հայտնվում որպես լավագույն կատարող բոլոր առումներով: Տարբեր մոդելներ ցույց են տալիս տարբեր ուժեղ կողմեր: Օրինակ, Dreamlike Photoreal-ը գերազանցում է ֆոտոռեալիզմին, մինչդեռ Openjourney-ը գեղագիտության մեջ: Հասարակական ասպեկտների համար մոդելները, ինչպիսիք են minDALL-E-ը, CogView2-ը և SafeStableDiffusion-ը լավ են գործում թունավորության և կողմնակալության մեղմացման հարցում: Բազմալեզու համար GigaGAN-ը և DeepFloyd-IF մոդելները, կարծես, մշակում են հինդի հուշումները, որոնց դեմ պայքարում է DALL-E 2-ը: Այս դիտարկումները բացում են նոր հետազոտական ուղիներ՝ ուսումնասիրելու, թե արդյոք և ինչպես մշակել մոդելներ, որոնք գերազանցում են բազմաթիվ ասպեկտներին:
Այս փաստաթուղթը հասանելի է arxiv-ում CC BY 4.0 DEED լիցենզիայի ներքո:
[1] https://crfm.stanford.edu/heim/v1.1.0/?group=heim_alignment_scenarios
[2] https://crfm.stanford.edu/heim/v1.1.0/?group=mscoco_base
[3] https://crfm.stanford.edu/heim/v1.1.0/?group=heim_aesthetics_scenarios
[4] https://crfm.stanford.edu/heim/v1.1.0/?group=core_scenarios
[5] https://crfm.stanford.edu/heim/v1.1.0/?group=heim_originality_scenarios
[6] https://crfm.stanford.edu/heim/v1.1.0/?group=heim_reasoning_scenarios
[7] https://crfm.stanford.edu/heim/v1.1.0/?group=heim_knowledge_scenarios
[8] https://crfm.stanford.edu/heim/v1.1.0/?group=heim_bias_scenarios
[9] https://crfm.stanford.edu/heim/v1.1.0/?group=heim_toxicity_scenarios
[10] https://crfm.stanford.edu/heim/v1.1.0/?group=mscoco_gender, https://crfm.stanford. edu/heim/v1.1.0/?group=mscoco_dialect
[11] https://crfm.stanford.edu/heim/v1.1.0/?group=mscoco_robustness
[12] https://crfm.stanford.edu/heim/v1.1.0/?group=mscoco_chinese, https://crfm. stanford.edu/heim/v1.1.0/?group=mscoco_hindi, https://crfm.stanford.edu/heim/v1.1. 0/?group=mscoco_spanish
[13] https://crfm.stanford.edu/heim/v1.1.0/?group=heim_efficiency_scenarios
[14] https://crfm.stanford.edu/heim/v1.1.0/?group=heim_quality_scenarios
[15] https://crfm.stanford.edu/heim/v1.1.0/?group=mscoco_art_styles
[16] https://crfm.stanford.edu/heim/v1.1.0/?group=mscoco_fid, https://crfm.stanford. edu/heim/v1.1.0/?group=mscoco_base
[17] https://crfm.stanford.edu/heim/v1.1.0/?group=mscoco_base