Mga may-akda:
(1) Tony Lee, Stanford na may Pantay na kontribusyon;
(2) Michihiro Yasunaga, Stanford na may Pantay na kontribusyon;
(3) Chenlin Meng, Stanford na may Pantay na kontribusyon;
(4) Yifan Mai, Stanford;
(5) Joon Sung Park, Stanford;
(6) Agrim Gupta, Stanford;
(7) Yunzhi Zhang, Stanford;
(8) Deepak Narayanan, Microsoft;
(9) Hannah Benita Teufel, Aleph Alpha;
(10) Marco Bellagente, Aleph Alpha;
(11) Minguk Kang, POSTECH;
(12) Taesung Park, Adobe;
(13) Jure Leskovec, Stanford;
(14) Jun-Yan Zhu, CMU;
(15) Li Fei-Fei, Stanford;
(16) Jiajun Wu, Stanford;
(17) Stefano Ermon, Stanford;
(18) Percy Liang, Stanford.
Mga kontribusyon ng may-akda, Pagkilala at Mga Sanggunian
E Pamamaraan sa pagsusuri ng tao
Sinuri namin ang 26 na text-to-image na mga modelo (§6) sa 12 aspeto (§3), gamit ang 62 na sitwasyon (§4) at 25 na sukatan (§5). Available ang lahat ng resulta sa https://crfm.stanford.edu/heim/v1.1.0. Nagbibigay din kami ng buod ng resulta sa Talahanayan 5. Sa ibaba, inilalarawan namin ang mga pangunahing natuklasan. Ang rate ng panalo ng isang modelo ay ang posibilidad na ang modelo ay nalampasan ang isa pang modelo na pinili nang pantay-pantay nang random para sa isang ibinigay na sukatan sa isang paghahambing ng ulo-sa-ulo.
1. Pag-align ng text-image. Naabot ng DALL-E 2 ang pinakamataas na marka ng pagkakahanay na na-rate ng tao sa lahat ng mga modelo.[1] Ito ay malapit na sinusundan ng mga modelo na pinong-tune gamit ang mataas na kalidad, makatotohanang mga larawan, tulad ng Dreamlike Photoreal 2.0 at Vintedois Diffusion. Sa kabilang banda, ang mga modelong pinong-tune na may mga larawang sining (Openjourney v4, Redshift Diffusion) at mga modelong may kasamang gabay sa kaligtasan (SafeStableDiffusion) ay nagpapakita ng bahagyang mas mababang pagganap sa pag-align ng text-image.
Photorealism . Sa pangkalahatan, wala sa mga sample ng mga modelo ang itinuring na photorealistic, dahil ang mga annotator ng tao ay nag-rate ng mga tunay na larawan mula sa MS-COCO na may average na marka na 4.48 sa 5 para sa photorealism, habang walang modelong nakakuha ng markang mas mataas sa 3.[2] Nakuha ng DALL-E 2 at mga modelong pinong nakatutok sa mga larawan, gaya ng Dreamlike Photoreal 2.0, ang pinakamataas na marka ng photorealism na na-rate ng tao sa mga available na modelo. Habang ang mga modelong pinong-tune sa mga larawang sining, gaya ng Openjourney, ay may posibilidad na magbunga ng mas mababang mga marka.
Estetika . Ayon sa mga automated na sukatan (LAION-Aesthetics at fractal coefficient), ang mga modelo ng finetuning na may mataas na kalidad na mga larawan at sining ay nagreresulta sa mas nakikitang mga henerasyon, na may Dreamlike Photoreal 2.0, Dreamlike Diffusion 1.0, at Openjourney na nakakamit ang pinakamataas na rate ng panalo.[3] Ang Promptist, na nag-aaplay ng prompt engineering sa mga text input upang makabuo ng aesthetically pleasing na mga larawan ayon sa mga kagustuhan ng tao, ay nakakamit ang pinakamataas na rate ng panalo para sa human evaluation, na sinusundan ng Dreamlike Photoreal 2.0 at DALL-E 2.
Pagka-orihinal . Ang hindi sinasadyang pagbuo ng mga watermark na larawan ay isang alalahanin dahil sa panganib ng trademark at paglabag sa copyright. Umaasa kami sa LAION watermark detector upang suriin ang mga nabuong larawan para sa mga watermark. Sinanay sa isang hanay ng mga larawan kung saan inalis ang mga watermark na larawan, ang GigaGAN ay may pinakamataas na rate ng panalo, halos hindi kailanman bumubuo ng mga watermark sa mga larawan.[4] Sa kabilang banda, ipinapakita ng CogView2 ang pinakamataas na dalas ng pagbuo ng watermark. Ang Openjourney (86%) at Dreamlike Diffusion 1.0 (82%) ay nakakamit ng pinakamataas na rate ng panalo para sa humanrated originality.5 Parehong mga modelo ng Stable Diffusion na pinino sa mga de-kalidad na larawang sining, na nagbibigay-daan sa mga modelo na makabuo ng mas maraming orihinal na larawan.
Pangangatwiran . Ang pangangatwiran ay tumutukoy sa kung naiintindihan ng mga modelo ang mga bagay, bilang, at spatial na relasyon. Ang lahat ng mga modelo ay nagpapakita ng mahinang pagganap sa pangangatwiran, bilang ang pinakamahusay na modelo, ang DALL-E 2, ay nakakamit lamang ng pangkalahatang katumpakan ng pagtuklas ng bagay na 47.2% sa senaryo ng PaintSkills.[6] Madalas silang nagkakamali sa bilang ng mga bagay (hal., pagbuo ng 2 sa halip na 3) at spatial na relasyon (hal., paglalagay ng bagay sa itaas sa halip na ibaba). Para sa sukatan ng pagkakahanay na na-rate ng tao, ang DALL-E 2 ay nahihigitan ng iba pang mga modelo ngunit nakakatanggap pa rin ng average na marka na mas mababa sa 4 para sa Relational Understanding at ang mga sub-scenario ng pangangatwiran ng DrawBench. Ang susunod na pinakamahusay na modelo, ang DeepFloyd-IF XL, ay hindi nakakamit ng markang mas mataas sa 4 sa lahat ng mga senaryo ng pangangatwiran, na nagpapahiwatig ng lugar para sa pagpapabuti para sa mga modelo ng pagbuo ng text-to-image para sa mga gawain sa pangangatwiran.
Kaalaman . Ang Dreamlike Photoreal 2.0 at DALL-E 2 ay nagpapakita ng pinakamataas na rate ng panalo sa mga sitwasyong masinsinang kaalaman, na nagmumungkahi na mayroon silang mas maraming kaalaman tungkol sa mundo kaysa sa iba pang mga modelo.[7] Ang kanilang kahusayan ay maaaring maiugnay sa fine-tuning sa mga real-world na larawan ng entity.
Bias . Sa mga tuntunin ng bias ng kasarian, ang minDALL-E, DALL-E mini, at SafeStableDiffusion ay nagpapakita ng hindi bababa sa bias, habang ang Dreamlike Diffusion, DALL-E 2, at Redshift Diffusion ay nagpapakita ng mas mataas na antas ng bias.[8] Ang pagpapagaan ng bias ng kasarian sa SafeStableDiffusion ay nakakaintriga, posibleng dahil sa mekanismo ng paggabay sa kaligtasan nito na pumipigil sa sekswal na nilalaman. Tungkol sa bias ng kulay ng balat, ang Openjourney v2, CogView2, at GigaGAN ay nagpapakita ng hindi gaanong bias, samantalang ang Dreamlike Diffusion at Redshift Diffusion ay nagpapakita ng higit na bias. Sa pangkalahatan, ang minDALL-E ay patuloy na nagpapakita ng hindi gaanong bias, habang ang mga modelong pinong-tune sa mga larawang sining tulad ng Dreamlike at Redshift ay may posibilidad na magpakita ng higit na bias.
Lason . Bagama't ang karamihan sa mga modelo ay nagpapakita ng mababang dalas ng pagbuo ng mga hindi naaangkop na larawan, ang ilang mga modelo ay nagpapakita ng mas mataas na dalas para sa senaryo ng I2P.[9] Halimbawa, ang OpenJourney, ang mas mahihinang variant ng SafeStableDiffusion, Stable Diffusion, Promptist, at Vintedois Diffusion, ay bumubuo ng mga hindi naaangkop na larawan para sa hindi nakakalason na text prompt sa mahigit 10% ng mga kaso. Ang mas malalakas na variant ng SafeStableDiffusion, na mas mahigpit na nagpapatupad ng gabay sa kaligtasan, ay bumubuo ng mas kaunting hindi naaangkop na mga larawan kaysa sa Stable Diffusion ngunit gumagawa pa rin ng mga hindi naaangkop na larawan. Sa kabaligtaran, ang mga modelo tulad ng minDALL-E, DALL-E mini, at GigaGAN ay nagpapakita ng pinakamababang frequency, mas mababa sa 1%.
Pagkamakatarungan . Humigit-kumulang kalahati ng mga modelo ang nagpapakita ng pagbaba ng pagganap sa mga sukatan ng pagkakahanay na na-rate ng tao kapag sumailalim sa mga kaguluhan sa kasarian at diyalekto.[10] Ang ilang partikular na modelo ay nagkakaroon ng mas malaking pagbaba ng performance, gaya ng 0.25 drop (sa sukat na 5) sa human-rated alignment para sa Openjourney sa ilalim ng dialect perturbation. Sa kabaligtaran, ipinakita ng DALL-E mini ang pinakamaliit na agwat sa pagganap sa parehong mga senaryo. Sa pangkalahatan, ang mga modelong naayos sa custom na data ay nagpakita ng higit na pagiging sensitibo sa mga demograpikong perturbation.
Katatagan . Katulad ng pagiging patas, humigit-kumulang kalahati ng mga modelo ang nagpakita ng pagbaba ng pagganap sa mga sukatan ng pagkakahanay na na-rate ng tao noong ipinakilala ang mga typo.[11] Ang mga patak na ito ay karaniwang maliit, na ang marka ng pag-align ay bumaba nang hindi hihigit sa 0.2 (sa sukat na 5), na nagpapahiwatig na ang mga modelong ito ay matatag laban sa mga kagyat na kaguluhan.
Multilinguality . Ang pagsasalin ng MS-COCO prompt sa Hindi, Chinese, at Spanish ay nagresulta sa pagbaba ng pagkakahanay ng text-image para sa karamihan ng mga modelo.[12] Ang isang kapansin-pansing pagbubukod ay ang CogView 2 para sa Chinese, na kilala na gumaganap nang mas mahusay sa mga Chinese na prompt kaysa sa mga English na prompt. Ang DALL-E 2, ang nangungunang modelo para sa human-rated na text-image alignment (4.438 out of 5), ay nagpapanatili ng makatwirang pagkakahanay na may kaunting pagbaba lang sa performance para sa Chinese (-0.536) at Spanish (-0.162) na mga prompt ngunit nahihirapan sa Hindi mga senyas (-2.640). Sa pangkalahatan, ang listahan ng mga sinusuportahang wika ay hindi naidokumento nang maayos para sa mga kasalukuyang modelo, na nag-uudyok sa mga kasanayan sa hinaharap na tugunan ito.
Kahusayan . Sa mga modelo ng diffusion, ang vanilla Stable Diffusion ay may denoised runtime na 2 segundo.[13] Ang mga pamamaraan na may mga karagdagang operasyon, tulad ng agarang engineering sa Promptist at gabay sa kaligtasan sa SafeStableDiffusion, pati na rin ang mga modelong bumubuo ng mas matataas na resolution tulad ng Dreamlike Photoreal 2.0, ay nagpapakita ng bahagyang mas mabagal na pagganap. Ang mga autoregressive na modelo, tulad ng minDALL-E, ay humigit-kumulang 2 segundo na mas mabagal kaysa sa mga modelo ng diffusion na may katulad na bilang ng parameter. Ang GigaGAN ay tumatagal lamang ng 0.14 segundo habang ang mga modelong nakabatay sa GAN ay nagsasagawa ng single-step inference.
Pangkalahatang mga uso sa mga aspeto. Sa mga kasalukuyang modelo, ang ilang aspeto ay nagpapakita ng mga positibong ugnayan, tulad ng pangkalahatang pagkakahanay at pangangatwiran, pati na rin ang aesthetics at pagka-orihinal. Sa kabilang banda, ang ilang aspeto ay nagpapakita ng mga trade-off; ang mga modelong mahusay sa aesthetics (hal., Openjourney) ay may posibilidad na mas mababa ang marka sa photorealism, at ang mga modelong nagpapakita ng mas kaunting bias at toxicity (hal., minDALL-E) ay maaaring hindi gumanap ng pinakamahusay sa text-image alignment at photorealism. Sa pangkalahatan, maraming aspeto ang nararapat na bigyang pansin. Una, halos lahat ng mga modelo ay nagpapakita ng hindi gaanong pagganap sa pangangatwiran, photorealism, at multilinggwalidad, na nagbibigay-diin sa pangangailangan para sa mga pagpapabuti sa hinaharap sa mga lugar na ito. Bukod pa rito, ang mga aspeto tulad ng pagka-orihinal (mga watermark), toxicity, at pagkiling ay nagdadala ng makabuluhang etikal at legal na implikasyon, ngunit hindi pa rin perpekto ang mga kasalukuyang modelo, at kailangan ng karagdagang pananaliksik upang matugunan ang mga alalahaning ito.
Maagap na engineering. Ang mga modelong gumagamit ng maagang mga diskarte sa engineering ay gumagawa ng mga larawang mas nakakaakit sa paningin. Nahihigitan ng Promptist + Stable Diffusion v1-4 ang Stable Diffusion sa mga tuntunin ng marka ng aesthetics na na-rate ng tao habang nakakakuha ng maihahambing na marka ng pagkakahanay ng text-image.[14]
Mga istilo ng sining. Ayon sa mga taga-rate ng tao, ang Openjourney (pino-pino sa mga masining na imahe na nabuo ng Midjourney) ay lumilikha ng pinaka-aesthetically kasiya-siyang mga imahe sa iba't ibang mga estilo ng sining.[15] Sinusundan ito ng Dreamlike Photoreal 2.0 at DALL-E 2. Naabot ng DALL-E 2 ang pinakamataas na marka ng humanrated alignment. Dreamlike Photoreal 2.0 (Stable Diffusion fine-tuned sa mga larawang may mataas na resolution) ay nagpapakita ng higit na linaw ng paksa na na-rate ng tao.
Kaugnayan sa pagitan ng tao at mga automated na sukatan. Ang mga coefficient ng correlation sa pagitan ng human-rated at automated metrics ay 0.42 para sa alignment (CLIPScore vs human-rated alignment), 0.59 para sa kalidad ng larawan (FID vs human-rated photorealism), at 0.39 para sa aesthetics (LAION aesthetics vs. human-rated aesthetics) .[16] Ang pangkalahatang ugnayan ay mahina, lalo na para sa aesthetics. Binibigyang-diin ng mga natuklasang ito ang kahalagahan ng paggamit ng mga rating ng tao para sa pagsusuri ng mga modelo ng pagbuo ng imahe sa pananaliksik sa hinaharap.
Diffusion vs autoregressive na mga modelo. Kabilang sa mga bukas na autoregressive at diffusion na mga modelo, ang mga autoregressive na modelo ay nangangailangan ng mas malaking laki ng modelo upang makamit ang pagganap na maihahambing sa mga modelo ng diffusion sa karamihan ng mga sukatan. Gayunpaman, ang mga autoregressive na modelo ay nagpapakita ng magandang pagganap sa ilang aspeto, gaya ng pangangatwiran. Ang mga modelo ng pagsasabog ay nagpapakita ng higit na kahusayan kumpara sa mga autoregressive na modelo kapag kinokontrol ang bilang ng parameter.
Mga kaliskis ng modelo. Maraming modelo na may iba't ibang bilang ng parameter ay available sa loob ng autoregressive na DALL-E model family (0.4B, 1.3B, 2.6B) at diffusion DeepFloyd-IF family (0.4B, 0.9B, 4.3B). Ang mga malalaking modelo ay may posibilidad na higitan ang mas maliliit sa lahat ng mga sukatan ng tao, kabilang ang pagkakahanay, photorealism, kalinawan ng paksa, at aesthetics.[17]
Ano ang pinakamahusay na mga modelo? Sa pangkalahatan, lumilitaw na ang DALL-E 2 ay isang versatile performer sa mga sukatan ng tao. Gayunpaman, walang solong modelo ang lumalabas bilang nangungunang tagapalabas sa lahat ng aspeto. Ang iba't ibang mga modelo ay nagpapakita ng iba't ibang lakas. Halimbawa, napakahusay ng Dreamlike Photoreal sa photorealism, habang ang Openjourney sa aesthetics. Para sa mga aspeto ng lipunan, ang mga modelo tulad ng minDALL-E, CogView2, at SafeStableDiffusion ay mahusay na gumaganap sa toxicity at bias mitigation. Para sa multilinggwalidad, ang GigaGAN at ang DeepFloyd-IF na mga modelo ay mukhang humahawak sa mga hindi prompt, na pinaglalabanan ng DALL-E 2. Ang mga obserbasyong ito ay nagbubukas ng mga bagong paraan ng pananaliksik upang pag-aralan kung at kung paano bumuo ng mga modelong mahusay sa maraming aspeto.
Ang papel na ito ay makukuha sa arxiv sa ilalim ng CC BY 4.0 DEED na lisensya.
[1] https://crfm.stanford.edu/heim/v1.1.0/?group=heim_alignment_scenarios
[2] https://crfm.stanford.edu/heim/v1.1.0/?group=mscoco_base
[3] https://crfm.stanford.edu/heim/v1.1.0/?group=heim_aesthetics_scenarios
[4] https://crfm.stanford.edu/heim/v1.1.0/?group=core_scenarios
[5] https://crfm.stanford.edu/heim/v1.1.0/?group=heim_originality_scenarios
[6] https://crfm.stanford.edu/heim/v1.1.0/?group=heim_reasoning_scenarios
[7] https://crfm.stanford.edu/heim/v1.1.0/?group=heim_knowledge_scenarios
[8] https://crfm.stanford.edu/heim/v1.1.0/?group=heim_bias_scenarios
[9] https://crfm.stanford.edu/heim/v1.1.0/?group=heim_toxicity_scenarios
[10] https://crfm.stanford.edu/heim/v1.1.0/?group=mscoco_gender, https://crfm.stanford. edu/heim/v1.1.0/?group=mscoco_dialect
[11] https://crfm.stanford.edu/heim/v1.1.0/?group=mscoco_robustness
[12] https://crfm.stanford.edu/heim/v1.1.0/?group=mscoco_chinese, https://crfm. stanford.edu/heim/v1.1.0/?group=mscoco_hindi, https://crfm.stanford.edu/heim/v1.1. 0/?group=mscoco_spanish
[13] https://crfm.stanford.edu/heim/v1.1.0/?group=heim_efficiency_scenarios
[14] https://crfm.stanford.edu/heim/v1.1.0/?group=heim_quality_scenarios
[15] https://crfm.stanford.edu/heim/v1.1.0/?group=mscoco_art_styles
[16] https://crfm.stanford.edu/heim/v1.1.0/?group=mscoco_fid, https://crfm.stanford. edu/heim/v1.1.0/?group=mscoco_base
[17] https://crfm.stanford.edu/heim/v1.1.0/?group=mscoco_base