Författare:
(1) Tony Lee, Stanford med lika bidrag;
(2) Michihiro Yasunaga, Stanford med lika bidrag;
(3) Chenlin Meng, Stanford med lika bidrag;
(4) Yifan Mai, Stanford;
(5) Joon Sung Park, Stanford;
(6) Agrim Gupta, Stanford;
(7) Yunzhi Zhang, Stanford;
(8) Deepak Narayanan, Microsoft;
(9) Hannah Benita Teufel, Aleph Alpha;
(10) Marco Bellagente, Aleph Alpha;
(11) Minguk Kang, POSTECH;
(12) Taesung Park, Adobe;
(13) Jure Leskovec, Stanford;
(14) Jun-Yan Zhu, CMU;
(15) Li Fei-Fei, Stanford;
(16) Jiajun Wu, Stanford;
(17) Stefano Ermon, Stanford;
(18) Percy Liang, Stanford.
Författarbidrag, erkännanden och referenser
E Procedur för mänsklig utvärdering
Vi utvärderade 26 text-till-bild-modeller (§6) över de 12 aspekterna (§3), med 62 scenarier (§4) och 25 mätvärden (§5). Alla resultat finns tillgängliga på https://crfm.stanford.edu/heim/v1.1.0. Vi ger också resultatsammanfattningen i tabell 5. Nedan beskriver vi de viktigaste resultaten. Vinstfrekvensen för en modell är sannolikheten att modellen överträffar en annan modell som valts likformigt slumpmässigt för ett givet mått i en head-to-head-jämförelse.
1. Text-bildjustering. DALL-E 2 uppnår det högsta betyget för anpassning av människor bland alla modeller.[1] Den följs tätt av modeller som finjusteras med högkvalitativa, realistiska bilder, som Dreamlike Photoreal 2.0 och Vintedois Diffusion. Å andra sidan visar modeller finjusterade med konstbilder (Openjourney v4, Redshift Diffusion) och modeller som innehåller säkerhetsvägledning (SafeStableDiffusion) något lägre prestanda i text-bildjustering.
Fotorealism . I allmänhet ansågs inga av modellernas prover vara fotorealistiska, eftersom mänskliga kommentatorer betygsatte riktiga bilder från MS-COCO med ett genomsnittligt betyg på 4,48 av 5 för fotorealism, medan ingen modell uppnådde ett högre betyg än 3.[2] DALL-E 2 och modeller finjusterade med fotografier, som Dreamlike Photoreal 2.0, fick de högsta betygen för fotorealism bland de tillgängliga modellerna. Medan modeller finjusterade med konstbilder, som Openjourney, tenderade att ge lägre poäng.
Estetik . Enligt automatiserade mätvärden (LAION-estetik och fraktalkoefficient) resulterar finjustering av modeller med högkvalitativa bilder och konst i mer visuellt tilltalande generationer, med Dreamlike Photoreal 2.0, Dreamlike Diffusion 1.0 och Openjourney som uppnår de högsta vinstfrekvenserna.[3] Promptist, som tillämpar snabb teknik på textinmatning för att generera estetiskt tilltalande bilder enligt mänskliga preferenser, uppnår den högsta vinstgraden för mänsklig utvärdering, följt av Dreamlike Photoreal 2.0 och DALL-E 2.
Originalitet . Den oavsiktliga genereringen av vattenstämplade bilder är ett problem på grund av risken för varumärkes- och upphovsrättsintrång. Vi litar på LAION vattenstämpeldetektor för att kontrollera genererade bilder för vattenstämplar. Utbildad på en uppsättning bilder där vattenmärkta bilder togs bort, har GigaGAN den högsta vinstfrekvensen och genererar praktiskt taget aldrig vattenstämplar i bilder.[4] Å andra sidan uppvisar CogView2 den högsta frekvensen för generering av vattenstämplar. Openjourney (86 %) och Dreamlike Diffusion 1.0 (82 %) uppnår de högsta vinstfrekvenserna för mänskligt värderad originalitet.5 Båda är Stable Diffusion-modeller finjusterade på konstbilder av hög kvalitet, vilket gör att modellerna kan generera fler originalbilder.
Resonemang . Resonemang avser om modellerna förstår objekt, räkningar och rumsliga relationer. Alla modeller uppvisar dåliga prestanda i resonemang, eftersom den bästa modellen, DALL-E 2, endast uppnår en total objektdetekteringsnoggrannhet på 47,2 % på PaintSkills-scenariot.[6] De gör ofta misstag i antalet objekt (t.ex. genererar 2 istället för 3) och rumsliga relationer (t.ex. placerar objektet ovanför istället för botten). För den mänskligt rankade inriktningsmetriken överträffar DALL-E 2 andra modeller men får fortfarande ett genomsnittligt betyg på mindre än 4 för relationsförståelse och resonemangsunderscenarierna i DrawBench. Den näst bästa modellen, DeepFloyd-IF XL, uppnår inte högre poäng än 4 för alla resonemangsscenarier, vilket indikerar utrymme för förbättringar för modeller för text-till-bild-generering för resonemangsuppgifter.
Kunskap . Dreamlike Photoreal 2.0 och DALL-E 2 uppvisar de högsta vinstfrekvenserna i kunskapsintensiva scenarier, vilket tyder på att de har mer kunskap om världen än andra modeller.[7] Deras överlägsenhet kan tillskrivas finjustering av verkliga entitetsfotografier.
Bias . När det gäller könsbias uppvisar minDALL-E, DALL-E mini och SafeStableDiffusion minst bias, medan Dreamlike Diffusion, DALL-E 2 och Redshift Diffusion uppvisar högre nivåer av bias.[8] Att lindra könsfördomar i SafeStableDiffusion är spännande, potentiellt på grund av dess säkerhetsvägledningsmekanism som undertrycker sexuellt innehåll. När det gäller hudtonsbias visar Openjourney v2, CogView2 och GigaGAN minst bias, medan Dreamlike Diffusion och Redshift Diffusion uppvisar mer bias. Sammantaget visar minDALL-E konsekvent minst partiskhet, medan modeller finjusterade på konstbilder som Dreamlike och Redshift tenderar att uppvisa mer partiskhet.
Toxicitet . Medan de flesta modeller uppvisar en låg frekvens av att generera olämpliga bilder, uppvisar vissa modeller en högre frekvens för I2P-scenariot.[9] Till exempel, OpenJourney, de svagare varianterna av SafeStableDiffusion, Stable Diffusion, Promptist och Vintedois Diffusion, genererar olämpliga bilder för giftfria textmeddelanden i över 10 % av fallen. De starkare varianterna av SafeStableDiffusion, som i högre grad upprätthåller säkerhetsvägledning, genererar färre olämpliga bilder än Stable Diffusion men producerar fortfarande olämpliga bilder. Däremot uppvisar modeller som minDALL-E, DALL-E mini och GigaGAN den lägsta frekvensen, mindre än 1 %.
Rättvisa . Ungefär hälften av modellerna uppvisar prestandasänkningar i mätvärden för anpassning av människor när de utsätts för köns- och dialektstörningar.[10] Vissa modeller drabbas av större prestandasänkningar, till exempel ett fall på 0,25 (på en skala från 5) i människoklassad inriktning för Openjourney under dialektstörning. Däremot visade DALL-E mini det minsta prestandagapet i båda scenarierna. Sammantaget visade modeller finjusterade på anpassade data större känslighet för demografiska störningar.
Robusthet . I likhet med rättvisa visade ungefär hälften av modellerna prestandasänkningar i mätvärden för anpassning av människor när stavfel infördes.[11] Dessa fall var generellt sett små, med justeringspoängen som inte minskade med mer än 0,2 (på en skala från 5), vilket indikerar att dessa modeller är robusta mot snabba störningar.
Flerspråkighet . Att översätta MS-COCO-meddelandena till hindi, kinesiska och spanska resulterade i minskad text-bildjustering för de allra flesta modeller.[12] Ett anmärkningsvärt undantag är CogView 2 för kinesiska, som är känt för att prestera bättre med kinesiska uppmaningar än med engelska uppmaningar. DALL-E 2, toppmodellen för justering av text-bild med mänskligt betyg (4,438 av 5), bibehåller rimlig justering med endast en liten minskning i prestanda för kinesiska (-0,536) och spanska (-0,162) uppmaningar men kämpar med hindi uppmaningar (-2.640). I allmänhet är listan över språk som stöds inte väl dokumenterad för befintliga modeller, vilket motiverar framtida metoder för att ta itu med detta.
Effektivitet . Bland diffusionsmodeller har vanilla Stable Diffusion en noiserad körtid på 2 sekunder.[13] Metoder med ytterligare operationer, såsom snabb konstruktion i Promptist och säkerhetsvägledning i SafeStableDiffusion, samt modeller som genererar högre upplösningar som Dreamlike Photoreal 2.0, uppvisar något långsammare prestanda. Autoregressiva modeller, som minDALL-E, är ungefär 2 sekunder långsammare än diffusionsmodeller med liknande parameterantal. GigaGAN tar bara 0,14 sekunder eftersom GAN-baserade modeller utför enstegs slutledning.
Övergripande trender i aspekter. Bland de nuvarande modellerna uppvisar vissa aspekter positiva korrelationer, såsom allmän anpassning och resonemang, såväl som estetik och originalitet. Å andra sidan visar vissa aspekter avvägningar; modeller som utmärker sig i estetik (t.ex. Openjourney) tenderar att få lägre poäng i fotorealism, och modeller som uppvisar mindre partiskhet och toxicitet (t.ex. minDALL-E) kanske inte presterar bäst i text-bildjustering och fotorealism. Sammantaget förtjänar flera aspekter uppmärksamhet. För det första, nästan alla modeller uppvisar undermåliga prestanda i resonemang, fotorealism och flerspråkighet, vilket understryker behovet av framtida förbättringar inom dessa områden. Dessutom har aspekter som originalitet (vattenstämplar), toxicitet och bias betydande etiska och juridiska konsekvenser, men nuvarande modeller är fortfarande ofullkomliga, och ytterligare forskning är nödvändig för att ta itu med dessa problem.
Snabb ingenjörskonst. Modeller som använder snabba ingenjörstekniker producerar bilder som är mer visuellt tilltalande. Promptist + Stable Diffusion v1-4 överträffar Stable Diffusion när det gäller människoklassade estetiska poäng samtidigt som man uppnår en jämförbar text-bildjusteringspoäng.[14]
Konststilar. Enligt mänskliga bedömare skapar Openjourney (finjusterad på konstnärliga bilder genererade av Midjourney) de mest estetiskt tilltalande bilderna i de olika konststilarna.[15] Den följs av Dreamlike Photoreal 2.0 och DALL-E 2. DALL-E 2 uppnår det högsta humanrated alignment-poängen. Dreamlike Photoreal 2.0 (Stabil diffusion finjusterad på högupplösta fotografier) visar överlägsen människa-klassad skärpa.
Korrelation mellan mänskliga och automatiserade mätvärden. Korrelationskoefficienterna mellan människoklassade och automatiserade mätvärden är 0,42 för anpassning (CLIPScore vs human-rated alignment), 0,59 för bildkvalitet (FID vs mänskligt rankad fotorealism) och 0,39 för estetik (LAION-estetik vs. mänskligt värderad estetik) .[16] Den övergripande korrelationen är svag, särskilt för estetik. Dessa fynd understryker vikten av att använda mänskliga betyg för att utvärdera bildgenereringsmodeller i framtida forskning.
Diffusion vs autoregressiva modeller. Bland de öppna autoregressiva och diffusionsmodellerna kräver autoregressiva modeller en större modellstorlek för att uppnå prestanda som är jämförbar med diffusionsmodeller över de flesta mätvärden. Ändå visar autoregressiva modeller lovande prestanda i vissa aspekter, såsom resonemang. Diffusionsmodeller uppvisar större effektivitet jämfört med autoregressiva modeller vid kontroll av parameterräkning.
Modellvågar. Flera modeller med varierande parameterantal finns tillgängliga inom den autoregressiva DALL-E-modellfamiljen (0.4B, 1.3B, 2.6B) och diffusions DeepFloyd-IF-familjen (0.4B, 0.9B, 4.3B). Större modeller tenderar att överträffa mindre i alla mänskliga mått, inklusive anpassning, fotorealism, motivets klarhet och estetik.[17]
Vilka är de bästa modellerna? Sammantaget verkar DALL-E 2 vara en mångsidig artist över mänskliga mått. Men ingen enskild modell framstår som den bästa presterande i alla aspekter. Olika modeller visar olika styrkor. Till exempel, Dreamlike Photoreal utmärker sig i fotorealism, medan Openjourney i estetik. För samhälleliga aspekter presterar modeller som minDALL-E, CogView2 och SafeStableDiffusion bra när det gäller toxicitet och bias. För flerspråkighet verkar GigaGAN och DeepFloyd-IF-modellerna hantera hindi-uppmaningar, vilket DALL-E 2 kämpar med. Dessa observationer öppnar nya forskningsvägar för att studera om och hur man utvecklar modeller som utmärker sig över flera aspekter.
Detta dokument är tillgängligt på arxiv under CC BY 4.0 DEED-licens.
[1] https://crfm.stanford.edu/heim/v1.1.0/?group=heim_alignment_scenarios
[2] https://crfm.stanford.edu/heim/v1.1.0/?group=mscoco_base
[3] https://crfm.stanford.edu/heim/v1.1.0/?group=heim_aesthetics_scenarios
[4] https://crfm.stanford.edu/heim/v1.1.0/?group=core_scenarios
[5] https://crfm.stanford.edu/heim/v1.1.0/?group=heim_originality_scenarios
[6] https://crfm.stanford.edu/heim/v1.1.0/?group=heim_reasoning_scenarios
[7] https://crfm.stanford.edu/heim/v1.1.0/?group=heim_knowledge_scenarios
[8] https://crfm.stanford.edu/heim/v1.1.0/?group=heim_bias_scenarios
[9] https://crfm.stanford.edu/heim/v1.1.0/?group=heim_toxicity_scenarios
[10] https://crfm.stanford.edu/heim/v1.1.0/?group=mscoco_gender, https://crfm.stanford. edu/heim/v1.1.0/?group=mscoco_dialect
[11] https://crfm.stanford.edu/heim/v1.1.0/?group=mscoco_robustness
[12] https://crfm.stanford.edu/heim/v1.1.0/?group=mscoco_chinese, https://crfm. stanford.edu/heim/v1.1.0/?group=mscoco_hindi, https://crfm.stanford.edu/heim/v1.1. 0/?group=mscoco_spanish
[13] https://crfm.stanford.edu/heim/v1.1.0/?group=heim_efficiency_scenarios
[14] https://crfm.stanford.edu/heim/v1.1.0/?group=heim_quality_scenarios
[15] https://crfm.stanford.edu/heim/v1.1.0/?group=mscoco_art_styles
[16] https://crfm.stanford.edu/heim/v1.1.0/?group=mscoco_fid, https://crfm.stanford. edu/heim/v1.1.0/?group=mscoco_base
[17] https://crfm.stanford.edu/heim/v1.1.0/?group=mscoco_base