229 lượt đọc

Chủ nghĩa hiện thực, sự thiên vị và hơn thế nữa: Kết quả từ việc đánh giá 26 mô hình chuyển văn bản thành hình ảnh

từ tác giả Auto Encoder: How to Ignore the Signal Noise8m2024/10/12

dài quá đọc không nổi

Nghiên cứu này đánh giá 26 mô hình văn bản thành hình ảnh trên 12 khía cạnh chính bằng cách sử dụng 62 kịch bản và 25 số liệu. DALL-E 2 dẫn đầu về căn chỉnh văn bản-hình ảnh, trong khi Dreamlike Photoreal vượt trội về tính chân thực của ảnh. Mặc dù có nhiều điểm mạnh, hầu hết các mô hình đều thiếu sót về mặt lý luận, tính chân thực của ảnh và tính đa ngôn ngữ, với sự thiên vị và tính độc hại vẫn là những mối quan tâm đáng kể. Các mô hình như minDALL-E và SafeStableDiffusion làm giảm sự thiên vị tốt, trong khi Dreamlike Diffusion và Openjourney tỏa sáng về tính độc đáo và tính thẩm mỹ. Kết quả đầy đủ, bao gồm tỷ lệ chiến thắng chi tiết, được tóm tắt trong Bảng 5.

featured image - Chủ nghĩa hiện thực, sự thiên vị và hơn thế nữa: Kết quả từ việc đánh giá 26 mô hình chuyển văn bản thành hình ảnh

Tác giả:

(1) Tony Lee, Stanford với sự đóng góp ngang nhau;

(2) Michihiro Yasunaga, Stanford với đóng góp ngang nhau;

(3) Chenlin Meng, Stanford với đóng góp ngang nhau;

(4) Mai Di Phàm, Stanford;

(5) Joon Sung Park, Stanford;

(6) Agrim Gupta, Stanford;

(7) Yunzhi Zhang, Stanford;

(8) Deepak Narayanan, Microsoft;

(9) Hannah Benita Teufel, Aleph Alpha;

(10) Marco Bellagente, Aleph Alpha;

(11) Minguk Kang, POSTECH;

(12) Taesung Park, Adobe;

(13) Jure Leskovec, Stanford;

(14) Jun-Yan Zhu, CMU;

(15) Lý Phi Phi, Stanford;

(16) Jiajun Wu, Stanford;

(17) Stefano Ermon, Stanford;

(18) Percy Lương, Stanford.

Bảng liên kết

Tóm tắt và 1 Giới thiệu

7 Thí nghiệm và kết quả

8 Công trình liên quan

9 Kết luận

10 Hạn chế

Đóng góp của tác giả, Lời cảm ơn và Tài liệu tham khảo

E Quy trình đánh giá con người

7 Thí nghiệm và kết quả

Chúng tôi đã đánh giá 26 mô hình văn bản thành hình ảnh (§6) trên 12 khía cạnh (§3), sử dụng 62 kịch bản (§4) và 25 số liệu (§5). Tất cả các kết quả đều có tại https://crfm.stanford.edu/heim/v1.1.0. Chúng tôi cũng cung cấp tóm tắt kết quả trong Bảng 5. Dưới đây, chúng tôi mô tả những phát hiện chính. Tỷ lệ chiến thắng của một mô hình là xác suất mô hình đó vượt trội hơn một mô hình khác được chọn ngẫu nhiên đồng đều cho một số liệu nhất định trong quá trình so sánh trực tiếp.

1. Căn chỉnh văn bản-hình ảnh. DALL-E 2 đạt điểm căn chỉnh do con người đánh giá cao nhất trong số tất cả các mô hình.[1] Tiếp theo là các mô hình được tinh chỉnh bằng hình ảnh thực tế, chất lượng cao, chẳng hạn như Dreamlike Photoreal 2.0 và Vintedois Diffusion. Mặt khác, các mô hình được tinh chỉnh bằng hình ảnh nghệ thuật (Openjourney v4, Redshift Diffusion) và các mô hình kết hợp hướng dẫn an toàn (SafeStableDiffusion) cho thấy hiệu suất căn chỉnh văn bản-hình ảnh thấp hơn một chút.

Siêu thực . Nhìn chung, không có mẫu mô hình nào được coi là siêu thực, vì các chú thích viên của con người đã đánh giá các hình ảnh thực từ MS-COCO với điểm trung bình là 4,48 trên 5 cho siêu thực, trong khi không có mô hình nào đạt điểm cao hơn 3.[2] DALL-E 2 và các mô hình được tinh chỉnh bằng ảnh, chẳng hạn như Dreamlike Photoreal 2.0, đạt được điểm siêu thực do con người đánh giá cao nhất trong số các mô hình có sẵn. Trong khi các mô hình được tinh chỉnh bằng hình ảnh nghệ thuật, chẳng hạn như Openjourney, có xu hướng mang lại điểm thấp hơn.
Thẩm mỹ . Theo các số liệu tự động (LAION-Thẩm mỹ và hệ số fractal), các mô hình tinh chỉnh với hình ảnh và tác phẩm nghệ thuật chất lượng cao tạo ra các thế hệ hấp dẫn hơn về mặt thị giác, với Dreamlike Photoreal 2.0, Dreamlike Diffusion 1.0 và Openjourney đạt được tỷ lệ chiến thắng cao nhất.[3] Promptist, áp dụng kỹ thuật nhắc nhở vào các đầu vào văn bản để tạo ra hình ảnh đẹp mắt theo sở thích của con người, đạt được tỷ lệ chiến thắng cao nhất trong đánh giá của con người, tiếp theo là Dreamlike Photoreal 2.0 và DALL-E 2.
Tính nguyên bản . Việc tạo ra hình ảnh có hình mờ không chủ ý là mối quan ngại do nguy cơ vi phạm nhãn hiệu và bản quyền. Chúng tôi dựa vào trình phát hiện hình mờ LAION để kiểm tra hình mờ trong hình ảnh đã tạo. Được đào tạo trên một tập hợp hình ảnh mà hình ảnh có hình mờ đã bị xóa, GigaGAN có tỷ lệ thắng cao nhất, hầu như không bao giờ tạo hình mờ trong hình ảnh.[4] Mặt khác, CogView2 thể hiện tần suất tạo hình mờ cao nhất. Openjourney (86%) và Dreamlike Diffusion 1.0 (82%) đạt tỷ lệ thắng cao nhất về tính nguyên bản do con người đánh giá.5 Cả hai đều là mô hình Stable Diffusion được tinh chỉnh trên hình ảnh nghệ thuật chất lượng cao, cho phép các mô hình tạo ra nhiều hình ảnh nguyên bản hơn.
Lý luận . Lý luận đề cập đến việc các mô hình có hiểu các đối tượng, số lượng và mối quan hệ không gian hay không. Tất cả các mô hình đều cho thấy hiệu suất kém trong lý luận, vì mô hình tốt nhất, DALL-E 2, chỉ đạt được độ chính xác phát hiện đối tượng tổng thể là 47,2% trong kịch bản PaintSkills.[6] Chúng thường mắc lỗi trong việc đếm các đối tượng (ví dụ: tạo ra 2 thay vì 3) và các mối quan hệ không gian (ví dụ: đặt đối tượng ở trên thay vì ở dưới). Đối với số liệu căn chỉnh do con người đánh giá, DALL-E 2 vượt trội hơn các mô hình khác nhưng vẫn nhận được điểm trung bình dưới 4 cho Hiểu biết quan hệ và các kịch bản phụ lý luận của DrawBench. Mô hình tốt nhất tiếp theo, DeepFloyd-IF XL, không đạt được điểm cao hơn 4 trong tất cả các kịch bản lý luận, cho thấy còn chỗ để cải thiện đối với các mô hình tạo văn bản thành hình ảnh cho các tác vụ lý luận.
Kiến thức . Dreamlike Photoreal 2.0 và DALL-E 2 thể hiện tỷ lệ chiến thắng cao nhất trong các tình huống đòi hỏi nhiều kiến thức, cho thấy chúng sở hữu nhiều kiến thức về thế giới hơn các mô hình khác.[7] Ưu thế của chúng có thể là do tinh chỉnh trên các bức ảnh thực thể trong thế giới thực.
Độ lệch . Về độ lệch giới tính, minDALL-E, DALL-E mini và SafeStableDiffusion thể hiện độ lệch ít nhất, trong khi Dreamlike Diffusion, DALL-E 2 và Redshift Diffusion thể hiện mức độ lệch cao hơn.[8] Việc giảm thiểu độ lệch giới tính trong SafeStableDiffusion rất thú vị, có khả năng là do cơ chế hướng dẫn an toàn của nó ngăn chặn nội dung khiêu dâm. Về độ lệch tông màu da, Openjourney v2, CogView2 và GigaGAN thể hiện độ lệch ít nhất, trong khi Dreamlike Diffusion và Redshift Diffusion thể hiện độ lệch nhiều hơn. Nhìn chung, minDALL-E luôn thể hiện độ lệch ít nhất, trong khi các mô hình được tinh chỉnh trên các hình ảnh nghệ thuật như Dreamlike và Redshift có xu hướng thể hiện độ lệch nhiều hơn.
Độc tính . Trong khi hầu hết các mô hình thể hiện tần suất thấp trong việc tạo ra các hình ảnh không phù hợp, một số mô hình nhất định thể hiện tần suất cao hơn đối với kịch bản I2P.[9] Ví dụ, OpenJourney, các biến thể yếu hơn của SafeStableDiffusion, Stable Diffusion, Promptist và Vintedois Diffusion, tạo ra các hình ảnh không phù hợp cho các lời nhắc văn bản không độc hại trong hơn 10% trường hợp. Các biến thể mạnh hơn của SafeStableDiffusion, thực thi hướng dẫn an toàn mạnh mẽ hơn, tạo ra ít hình ảnh không phù hợp hơn Stable Diffusion nhưng vẫn tạo ra các hình ảnh không phù hợp. Ngược lại, các mô hình như minDALL-E, DALL-E mini và GigaGAN thể hiện tần suất thấp nhất, dưới 1%.

Công bằng . Khoảng một nửa số mô hình cho thấy hiệu suất giảm trong các số liệu căn chỉnh do con người đánh giá khi chịu nhiễu loạn giới tính và phương ngữ.[10] Một số mô hình có hiệu suất giảm lớn hơn, chẳng hạn như giảm 0,25 (trên thang điểm 5) trong căn chỉnh do con người đánh giá đối với Openjourney dưới nhiễu loạn phương ngữ. Ngược lại, DALL-E mini cho thấy khoảng cách hiệu suất nhỏ nhất trong cả hai trường hợp. Nhìn chung, các mô hình được tinh chỉnh trên dữ liệu tùy chỉnh cho thấy độ nhạy cao hơn đối với nhiễu loạn nhân khẩu học.
Độ bền vững . Tương tự như tính công bằng, khoảng một nửa số mô hình cho thấy hiệu suất giảm trong các số liệu căn chỉnh do con người đánh giá khi lỗi đánh máy được đưa vào.[11] Những sự sụt giảm này thường không đáng kể, với điểm căn chỉnh giảm không quá 0,2 (trên thang điểm 5), cho thấy các mô hình này mạnh mẽ trước các nhiễu loạn tức thời.
Đa ngôn ngữ . Việc dịch các lời nhắc MS-COCO sang tiếng Hindi, tiếng Trung và tiếng Tây Ban Nha dẫn đến việc căn chỉnh văn bản-hình ảnh bị giảm đối với phần lớn các mô hình.[12] Một ngoại lệ đáng chú ý là CogView 2 dành cho tiếng Trung, được biết là hoạt động tốt hơn với các lời nhắc tiếng Trung so với các lời nhắc tiếng Anh. DALL-E 2, mô hình hàng đầu về căn chỉnh văn bản-hình ảnh được con người đánh giá (4,438 trên 5), duy trì sự căn chỉnh hợp lý với hiệu suất chỉ giảm nhẹ đối với các lời nhắc tiếng Trung (-0,536) và tiếng Tây Ban Nha (-0,162) nhưng lại gặp khó khăn với các lời nhắc tiếng Hindi (-2,640). Nhìn chung, danh sách các ngôn ngữ được hỗ trợ không được ghi chép rõ ràng đối với các mô hình hiện có, điều này thúc đẩy các hoạt động thực hành trong tương lai để giải quyết vấn đề này.
Hiệu suất . Trong số các mô hình khuếch tán, Stable Diffusion vani có thời gian chạy khử nhiễu là 2 giây.[13] Các phương pháp có các hoạt động bổ sung, chẳng hạn như kỹ thuật nhanh trong Promptist và hướng dẫn an toàn trong SafeStableDiffusion, cũng như các mô hình tạo ra độ phân giải cao hơn như Dreamlike Photoreal 2.0, thể hiện hiệu suất chậm hơn một chút. Các mô hình tự hồi quy, như minDALL-E, chậm hơn khoảng 2 giây so với các mô hình khuếch tán có số lượng tham số tương tự. GigaGAN chỉ mất 0,14 giây vì các mô hình dựa trên GAN thực hiện suy luận một bước.
Xu hướng chung về các khía cạnh. Trong số các mô hình hiện tại, một số khía cạnh thể hiện mối tương quan tích cực, chẳng hạn như sự liên kết và lý luận chung, cũng như tính thẩm mỹ và tính độc đáo. Mặt khác, một số khía cạnh cho thấy sự đánh đổi; các mô hình vượt trội về tính thẩm mỹ (ví dụ: Openjourney) có xu hướng đạt điểm thấp hơn về tính chân thực và các mô hình thể hiện ít thiên vị và độc hại hơn (ví dụ: minDALL-E) có thể không hoạt động tốt nhất về căn chỉnh văn bản-hình ảnh và tính chân thực. Nhìn chung, một số khía cạnh đáng được chú ý. Thứ nhất, hầu hết tất cả các mô hình đều thể hiện hiệu suất kém về lý luận, tính chân thực và đa ngôn ngữ, làm nổi bật nhu cầu cải thiện trong tương lai ở các lĩnh vực này. Ngoài ra, các khía cạnh như tính độc đáo (hình mờ), tính độc hại và thiên vị mang lại những hàm ý đáng kể về mặt đạo đức và pháp lý, nhưng các mô hình hiện tại vẫn chưa hoàn hảo và cần phải nghiên cứu thêm để giải quyết những lo ngại này.
Kỹ thuật nhanh chóng. Các mô hình sử dụng các kỹ thuật kỹ thuật nhanh chóng tạo ra hình ảnh hấp dẫn hơn về mặt thị giác. Promptist + Stable Diffusion v1-4 vượt trội hơn Stable Diffusion về mặt điểm thẩm mỹ do con người đánh giá trong khi đạt được điểm căn chỉnh văn bản-hình ảnh tương đương.[14]
Phong cách nghệ thuật. Theo đánh giá của con người, Openjourney (tinh chỉnh trên hình ảnh nghệ thuật do Midjourney tạo ra) tạo ra những hình ảnh đẹp nhất về mặt thẩm mỹ trong nhiều phong cách nghệ thuật khác nhau.[15] Tiếp theo là Dreamlike Photoreal 2.0 và DALL-E 2. DALL-E 2 đạt điểm căn chỉnh cao nhất do con người đánh giá. Dreamlike Photoreal 2.0 (Tăng cường ổn định tinh chỉnh trên ảnh có độ phân giải cao) cho thấy độ rõ nét của chủ thể do con người đánh giá cao hơn.
Hệ số tương quan giữa số liệu do con người đánh giá và số liệu tự động. Hệ số tương quan giữa số liệu do con người đánh giá và số liệu tự động là 0,42 đối với căn chỉnh (CLIPScore so với căn chỉnh do con người đánh giá), 0,59 đối với chất lượng hình ảnh (FID so với tính chân thực của ảnh do con người đánh giá) và 0,39 đối với tính thẩm mỹ (thẩm mỹ LAION so với thẩm mỹ do con người đánh giá).[16] Hệ số tương quan chung là yếu, đặc biệt là đối với tính thẩm mỹ. Những phát hiện này nhấn mạnh tầm quan trọng của việc sử dụng xếp hạng của con người để đánh giá các mô hình tạo hình ảnh trong nghiên cứu trong tương lai.
Mô hình khuếch tán so với mô hình tự hồi quy. Trong số các mô hình tự hồi quy và khuếch tán mở, mô hình tự hồi quy yêu cầu kích thước mô hình lớn hơn để đạt được hiệu suất tương đương với mô hình khuếch tán trên hầu hết các số liệu. Tuy nhiên, mô hình tự hồi quy cho thấy hiệu suất đầy hứa hẹn ở một số khía cạnh, chẳng hạn như lý luận. Mô hình khuếch tán thể hiện hiệu quả cao hơn so với mô hình tự hồi quy khi kiểm soát số lượng tham số.
Thang đo mô hình. Nhiều mô hình với số lượng tham số khác nhau có sẵn trong họ mô hình DALL-E tự hồi quy (0,4B, 1,3B, 2,6B) và họ khuếch tán DeepFloyd-IF (0,4B, 0,9B, 4,3B). Các mô hình lớn hơn có xu hướng vượt trội hơn các mô hình nhỏ hơn về mọi số liệu của con người, bao gồm căn chỉnh, tính chân thực của ảnh, độ rõ nét của chủ thể và tính thẩm mỹ.[17]
Các mô hình nào là tốt nhất? Nhìn chung, DALL-E 2 có vẻ là một mô hình đa năng trên các số liệu của con người. Tuy nhiên, không có mô hình nào nổi lên là mô hình có hiệu suất cao nhất trong mọi khía cạnh. Các mô hình khác nhau cho thấy những điểm mạnh khác nhau. Ví dụ, Dreamlike Photoreal vượt trội về tính chân thực, trong khi Openjourney về tính thẩm mỹ. Đối với các khía cạnh xã hội, các mô hình như minDALL-E, CogView2 và SafeStableDiffusion hoạt động tốt về độc tính và giảm thiểu thiên vị. Đối với đa ngôn ngữ, các mô hình GigaGAN và DeepFloyd-IF dường như xử lý được các lời nhắc bằng tiếng Hindi, mà DALL-E 2 gặp khó khăn. Những quan sát này mở ra những hướng nghiên cứu mới để nghiên cứu xem có nên và cách phát triển các mô hình vượt trội trên nhiều khía cạnh hay không.

Bài báo này có sẵn trên arxiv theo giấy phép CC BY 4.0 DEED.

[1] https://crfm.stanford.edu/heim/v1.1.0/?group=heim_alignment_scenarios

[2] https://crfm.stanford.edu/heim/v1.1.0/?group=mscoco_base

[3] https://crfm.stanford.edu/heim/v1.1.0/?group=heim_aesthetics_scenarios

[4] https://crfm.stanford.edu/heim/v1.1.0/?group=core_scenarios

[5] https://crfm.stanford.edu/heim/v1.1.0/?group=heim_origenity_scenarios

[6] https://crfm.stanford.edu/heim/v1.1.0/?group=heim_reasoning_scenarios

[7] https://crfm.stanford.edu/heim/v1.1.0/?group=heim_know_scenarios

[8] https://crfm.stanford.edu/heim/v1.1.0/?group=heim_bias_scenarios

[9] https://crfm.stanford.edu/heim/v1.1.0/?group=heim_toxity_scenarios

[10] https://crfm.stanford.edu/heim/v1.1.0/?group=mscoco_gender, https://crfm.stanford.edu/heim/v1.1.0/?group=mscoco_dialect

[11] https://crfm.stanford.edu/heim/v1.1.0/?group=mscoco_robustness

[12] https://crfm.stanford.edu/heim/v1.1.0/?group=mscoco_chinese, https://crfm.stanford.edu/heim/v1.1.0/?group=mscoco_hindi, https://crfm.stanford.edu/heim/v1.1.0/?group=mscoco_spanish

[13] https://crfm.stanford.edu/heim/v1.1.0/?group=heim_efficiency_scenarios

[14] https://crfm.stanford.edu/heim/v1.1.0/?group=heim_quality_scenarios

[15] https://crfm.stanford.edu/heim/v1.1.0/?group=mscoco_art_styles

[16] https://crfm.stanford.edu/heim/v1.1.0/?group=mscoco_fid, https://crfm.stanford.edu/heim/v1.1.0/?group=mscoco_base

[17] https://crfm.stanford.edu/heim/v1.1.0/?group=mscoco_base