Penulis:
(1) Tony Lee, Stanford dengan Kontribusi yang sama;
(2) Michihiro Yasunaga, Stanford dengan Kontribusi yang sama;
(3) Chenlin Meng, Stanford dengan Kontribusi yang sama;
(4) Yifan Mai, Stanford;
(5) Joon Sung Park, Stanford;
(6) Agrim Gupta, Stanford;
(7) Yunzhi Zhang, Stanford;
(8) Deepak Narayanan, Microsoft;
(9) Hannah Benita Teufel, Aleph Alpha;
(10) Marco Bellagente, Aleph Alpha;
(11) Minguk Kang, POSTECH;
(12) Taesung Park, Adobe;
(13) Jure Leskovec, Stanford;
(14) Jun-Yan Zhu, CMU;
(15) Li Fei-Fei, Stanford;
(16) Jiajun Wu, Stanford;
(17) Stefano Ermon, Stanford;
(18) Percy Liang, Stanford.
Kontribusi Penulis, Ucapan Terima Kasih dan Referensi
Kami mengevaluasi 26 model teks-ke-gambar (§6) di 12 aspek (§3), menggunakan 62 skenario (§4) dan 25 metrik (§5). Semua hasil tersedia di https://crfm.stanford.edu/heim/v1.1.0. Kami juga menyediakan ringkasan hasil di Tabel 5. Di bawah ini, kami menjelaskan temuan-temuan utama. Rasio kemenangan suatu model adalah probabilitas bahwa model tersebut mengungguli model lain yang dipilih secara acak dan seragam untuk metrik tertentu dalam perbandingan langsung.
1. Penyelarasan teks-gambar. DALL-E 2 mencapai skor penyelarasan tertinggi yang dinilai manusia di antara semua model.[1] Model ini diikuti oleh model yang disempurnakan menggunakan gambar berkualitas tinggi dan realistis, seperti Dreamlike Photoreal 2.0 dan Vintedois Diffusion. Di sisi lain, model yang disempurnakan dengan gambar seni (Openjourney v4, Redshift Diffusion) dan model yang menyertakan panduan keselamatan (SafeStableDiffusion) menunjukkan kinerja yang sedikit lebih rendah dalam penyelarasan teks-gambar.
Fotorealisme . Secara umum, tidak ada sampel model yang dianggap fotorealistik, karena pencatat manusia menilai gambar asli dari MS-COCO dengan skor rata-rata 4,48 dari 5 untuk fotorealisme, sementara tidak ada model yang mencapai skor lebih tinggi dari 3.[2] DALL-E 2 dan model yang disempurnakan dengan foto, seperti Dreamlike Photoreal 2.0, memperoleh skor fotorealisme berperingkat manusia tertinggi di antara model yang tersedia. Sementara model yang disempurnakan dengan gambar seni, seperti Openjourney, cenderung menghasilkan skor yang lebih rendah.
Estetika . Menurut metrik otomatis (LAION-Estetika dan koefisien fraktal), fine-tuning model dengan gambar dan seni berkualitas tinggi menghasilkan generasi yang lebih menarik secara visual, dengan Dreamlike Photoreal 2.0, Dreamlike Diffusion 1.0, dan Openjourney mencapai tingkat kemenangan tertinggi.[3] Promptist, yang menerapkan rekayasa prompt pada masukan teks untuk menghasilkan gambar yang menyenangkan secara estetika sesuai dengan preferensi manusia, mencapai tingkat kemenangan tertinggi untuk evaluasi manusia, diikuti oleh Dreamlike Photoreal 2.0 dan DALL-E 2.
Orisinalitas . Pembuatan gambar bertanda air secara tidak sengaja menjadi perhatian karena risiko pelanggaran merek dagang dan hak cipta. Kami mengandalkan detektor tanda air LAION untuk memeriksa gambar yang dibuat untuk mengetahui tanda airnya. Dilatih pada serangkaian gambar yang gambar bertanda airnya telah dihapus, GigaGAN memiliki rasio kemenangan tertinggi, hampir tidak pernah membuat tanda air dalam gambar.[4] Di sisi lain, CogView2 menunjukkan frekuensi pembuatan tanda air tertinggi. Openjourney (86%) dan Dreamlike Diffusion 1.0 (82%) mencapai rasio kemenangan tertinggi untuk orisinalitas yang dinilai manusia.5 Keduanya adalah model Difusi Stabil yang disetel dengan baik pada gambar seni berkualitas tinggi, yang memungkinkan model untuk membuat gambar yang lebih orisinal.
Penalaran . Penalaran mengacu pada apakah model memahami objek, hitungan, dan hubungan spasial. Semua model menunjukkan kinerja yang buruk dalam penalaran, karena model terbaik, DALL-E 2, hanya mencapai akurasi deteksi objek keseluruhan sebesar 47,2% pada skenario PaintSkills.[6] Mereka sering membuat kesalahan dalam hitungan objek (misalnya, menghasilkan 2 bukannya 3) dan hubungan spasial (misalnya, menempatkan objek di atas bukannya di bawah). Untuk metrik penyelarasan yang dinilai manusia, DALL-E 2 mengungguli model lain tetapi masih menerima skor rata-rata kurang dari 4 untuk Pemahaman Relasional dan sub-skenario penalaran DrawBench. Model terbaik berikutnya, DeepFloyd-IF XL, tidak mencapai skor lebih tinggi dari 4 di semua skenario penalaran, yang menunjukkan ruang untuk perbaikan untuk model pembuatan teks-ke-gambar untuk tugas-tugas penalaran.
Pengetahuan . Dreamlike Photoreal 2.0 dan DALL-E 2 menunjukkan tingkat kemenangan tertinggi dalam skenario intensif pengetahuan, menunjukkan bahwa mereka memiliki lebih banyak pengetahuan tentang dunia daripada model lain.[7] Keunggulan mereka dapat dikaitkan dengan penyempurnaan pada foto entitas dunia nyata.
Bias . Dalam hal bias gender, minDALL-E, DALL-E mini, dan SafeStableDiffusion menunjukkan bias paling sedikit, sementara Dreamlike Diffusion, DALL-E 2, dan Redshift Diffusion menunjukkan tingkat bias yang lebih tinggi.[8] Mitigasi bias gender dalam SafeStableDiffusion menarik, mungkin karena mekanisme panduan keamanannya yang menekan konten seksual. Mengenai bias warna kulit, Openjourney v2, CogView2, dan GigaGAN menunjukkan bias paling sedikit, sedangkan Dreamlike Diffusion dan Redshift Diffusion menunjukkan lebih banyak bias. Secara keseluruhan, minDALL-E secara konsisten menunjukkan bias paling sedikit, sementara model yang disempurnakan pada gambar seni seperti Dreamlike dan Redshift cenderung menunjukkan lebih banyak bias.
Toksisitas . Sementara sebagian besar model menunjukkan frekuensi rendah dalam menghasilkan gambar yang tidak pantas, model tertentu menunjukkan frekuensi yang lebih tinggi untuk skenario I2P.[9] Misalnya, OpenJourney, varian yang lebih lemah dari SafeStableDiffusion, Stable Diffusion, Promptist, dan Vintedois Diffusion, menghasilkan gambar yang tidak pantas untuk perintah teks yang tidak beracun dalam lebih dari 10% kasus. Varian SafeStableDiffusion yang lebih kuat, yang lebih kuat menegakkan panduan keselamatan, menghasilkan lebih sedikit gambar yang tidak pantas daripada Stable Diffusion tetapi masih menghasilkan gambar yang tidak pantas. Sebaliknya, model seperti minDALL-E, DALL-E mini, dan GigaGAN menunjukkan frekuensi terendah, kurang dari 1%.
Keadilan . Sekitar setengah dari model menunjukkan penurunan kinerja dalam metrik penyelarasan yang dinilai manusia ketika mengalami gangguan gender dan dialek.[10] Model tertentu mengalami penurunan kinerja yang lebih besar, seperti penurunan 0,25 (pada skala 5) dalam penyelarasan yang dinilai manusia untuk Openjourney di bawah gangguan dialek. Sebaliknya, DALL-E mini menunjukkan kesenjangan kinerja terkecil dalam kedua skenario. Secara keseluruhan, model yang disetel dengan baik pada data khusus menunjukkan sensitivitas yang lebih besar terhadap gangguan demografis.
Ketahanan . Mirip dengan keadilan, sekitar setengah dari model menunjukkan penurunan kinerja dalam metrik penyelarasan yang dinilai manusia ketika kesalahan ketik diperkenalkan.[11] Penurunan ini umumnya kecil, dengan skor penyelarasan menurun tidak lebih dari 0,2 (pada skala 5), yang menunjukkan bahwa model ini kuat terhadap gangguan cepat.
Multilingualitas . Penerjemahan perintah MS-COCO ke dalam bahasa Hindi, Mandarin, dan Spanyol mengakibatkan penurunan penyelarasan teks-gambar untuk sebagian besar model.[12] Pengecualian penting adalah CogView 2 untuk bahasa Mandarin, yang diketahui berkinerja lebih baik dengan perintah Mandarin daripada perintah bahasa Inggris. DALL-E 2, model teratas untuk penyelarasan teks-gambar yang dinilai manusia (4,438 dari 5), mempertahankan penyelarasan yang wajar dengan hanya sedikit penurunan kinerja untuk perintah Mandarin (-0,536) dan Spanyol (-0,162) tetapi berjuang dengan perintah Hindi (-2,640). Secara umum, daftar bahasa yang didukung tidak terdokumentasi dengan baik untuk model yang ada, yang memotivasi praktik masa depan untuk mengatasi hal ini.
Efisiensi . Di antara model difusi, Stable Diffusion versi standar memiliki waktu proses tanpa derau selama 2 detik.[13] Metode dengan operasi tambahan, seperti rekayasa cepat dalam Promptist dan panduan keselamatan dalam SafeStableDiffusion, serta model yang menghasilkan resolusi lebih tinggi seperti Dreamlike Photoreal 2.0, menunjukkan kinerja yang sedikit lebih lambat. Model autoregresif, seperti minDALL-E, sekitar 2 detik lebih lambat daripada model difusi dengan jumlah parameter yang sama. GigaGAN hanya membutuhkan waktu 0,14 detik karena model berbasis GAN melakukan inferensi langkah tunggal.
Tren keseluruhan dalam aspek. Di antara model saat ini, aspek tertentu menunjukkan korelasi positif, seperti penyelarasan dan penalaran umum, serta estetika dan orisinalitas. Di sisi lain, beberapa aspek menunjukkan trade-off; model yang unggul dalam estetika (misalnya, Openjourney) cenderung mendapat skor lebih rendah dalam fotorealisme, dan model yang menunjukkan lebih sedikit bias dan toksisitas (misalnya, minDALL-E) mungkin tidak berkinerja terbaik dalam penyelarasan teks-gambar dan fotorealisme. Secara keseluruhan, beberapa aspek perlu mendapat perhatian. Pertama, hampir semua model menunjukkan kinerja di bawah standar dalam penalaran, fotorealisme, dan multilingualitas, yang menyoroti perlunya perbaikan di masa mendatang di area ini. Selain itu, aspek seperti orisinalitas (tanda air), toksisitas, dan bias membawa implikasi etika dan hukum yang signifikan, namun model saat ini masih belum sempurna, dan penelitian lebih lanjut diperlukan untuk mengatasi masalah ini.
Rekayasa cepat. Model yang menggunakan teknik rekayasa cepat menghasilkan gambar yang lebih menarik secara visual. Promptist + Stable Diffusion v1-4 mengungguli Stable Diffusion dalam hal skor estetika yang dinilai manusia sambil mencapai skor penyelarasan teks-gambar yang sebanding.[14]
Gaya seni. Menurut penilai manusia, Openjourney (disesuaikan pada gambar artistik yang dihasilkan oleh Midjourney) menciptakan gambar yang paling estetis di berbagai gaya seni.[15] Diikuti oleh Dreamlike Photoreal 2.0 dan DALL-E 2. DALL-E 2 mencapai skor penyelarasan tertinggi yang dinilai manusia. Dreamlike Photoreal 2.0 (Difusi Stabil yang disesuaikan pada foto beresolusi tinggi) menunjukkan kejernihan subjek yang dinilai manusia yang superior.
Korelasi antara metrik manusia dan otomatis. Koefisien korelasi antara metrik yang dinilai manusia dan otomatis adalah 0,42 untuk penyelarasan (CLIPScore vs penyelarasan yang dinilai manusia), 0,59 untuk kualitas gambar (FID vs fotorealisme yang dinilai manusia), dan 0,39 untuk estetika (estetika LAION vs. estetika yang dinilai manusia).[16] Korelasi keseluruhannya lemah, terutama untuk estetika. Temuan ini menekankan pentingnya menggunakan penilaian manusia untuk mengevaluasi model pembuatan gambar dalam penelitian mendatang.
Model difusi vs autoregresif. Di antara model autoregresif dan difusi terbuka, model autoregresif memerlukan ukuran model yang lebih besar untuk mencapai kinerja yang sebanding dengan model difusi di sebagian besar metrik. Meskipun demikian, model autoregresif menunjukkan kinerja yang menjanjikan dalam beberapa aspek, seperti penalaran. Model difusi menunjukkan efisiensi yang lebih besar dibandingkan dengan model autoregresif saat mengendalikan jumlah parameter.
Skala model. Beberapa model dengan jumlah parameter yang bervariasi tersedia dalam keluarga model DALL-E autoregresif (0,4B, 1,3B, 2,6B) dan keluarga DeepFloyd-IF difusi (0,4B, 0,9B, 4,3B). Model yang lebih besar cenderung mengungguli model yang lebih kecil dalam semua metrik manusia, termasuk penyelarasan, fotorealisme, kejelasan subjek, dan estetika.[17]
Apa saja model terbaik? Secara keseluruhan, DALL-E 2 tampaknya memiliki performa yang serba guna dalam berbagai metrik manusia. Namun, tidak ada satu model pun yang muncul sebagai yang berkinerja terbaik dalam semua aspek. Berbagai model menunjukkan kekuatan yang berbeda. Misalnya, Dreamlike Photoreal unggul dalam fotorealisme, sementara Openjourney unggul dalam estetika. Untuk aspek sosial, model seperti minDALL-E, CogView2, dan SafeStableDiffusion berkinerja baik dalam mitigasi toksisitas dan bias. Untuk multilingualitas, model GigaGAN dan DeepFloyd-IF tampaknya menangani perintah bahasa Hindi, yang menjadi kendala DALL-E 2. Pengamatan ini membuka jalan penelitian baru untuk mempelajari apakah dan bagaimana mengembangkan model yang unggul dalam berbagai aspek.
Makalah ini tersedia di arxiv di bawah lisensi CC BY 4.0 DEED.
[1] https://crfm.stanford.edu/heim/v1.1.0/?group=heim_alignment_scenarios
[2] https://crfm.stanford.edu/heim/v1.1.0/?group=mscoco_base
[3] https://crfm.stanford.edu/heim/v1.1.0/?group=heim_aesthetics_scenarios
[4] https://crfm.stanford.edu/heim/v1.1.0/?group=core_scenarios
[5] https://crfm.stanford.edu/heim/v1.1.0/?group=heim_originality_scenarios
[6] https://crfm.stanford.edu/heim/v1.1.0/?group=heim_reasoning_scenarios
[7] https://crfm.stanford.edu/heim/v1.1.0/?group=heim_knowledge_scenarios
[8] https://crfm.stanford.edu/heim/v1.1.0/?group=heim_bias_scenarios
[9] https://crfm.stanford.edu/heim/v1.1.0/?group=heim_toxicity_scenarios
[10] https://crfm.stanford.edu/heim/v1.1.0/?group=mscoco_gender, https://crfm.stanford.edu/heim/v1.1.0/?group=mscoco_dialect
[11] https://crfm.stanford.edu/heim/v1.1.0/?group=mscoco_robustness
[12] https://crfm.stanford.edu/heim/v1.1.0/?group=mscoco_chinese, https://crfm.stanford.edu/heim/v1.1.0/?group=mscoco_hindi, https://crfm.stanford.edu/heim/v1.1.0/?group=mscoco_spanish
[13] https://crfm.stanford.edu/heim/v1.1.0/?group=heim_efficiency_scenarios
[14] https://crfm.stanford.edu/heim/v1.1.0/?group=heim_quality_scenarios
[15] https://crfm.stanford.edu/heim/v1.1.0/?group=mscoco_art_styles
[16] https://crfm.stanford.edu/heim/v1.1.0/?group=mscoco_fid, https://crfm.stanford.edu/heim/v1.1.0/?group=mscoco_base (dalam bahasa Inggris).
[17] https://crfm.stanford.edu/heim/v1.1.0/?group=mscoco_base