Autores:
(1) Tony Lee, Stanford con igual contribución;
(2) Michihiro Yasunaga, Stanford con igual contribución;
(3) Chenlin Meng, Stanford con igual contribución;
(4) Yifan Mai, Stanford;
(5) Parque Joon Sung, Stanford;
(6) Agrim Gupta, Stanford;
(7) Yunzhi Zhang, Stanford;
(8) Deepak Narayanan, Microsoft;
(9) Hannah Benita Teufel, Aleph Alfa;
(10) Marco Bellagente, Aleph Alpha;
(1) Minguk Kang, POSTECH;
(12) Parque Taesung, Adobe;
(13) Jure Leskovec, Stanford;
(14) Jun-Yan Zhu, Universidad de Medicina;
(15) Li Fei-Fei, Stanford;
(16) Jiajun Wu, Stanford;
(17) Stefano Ermon, Stanford;
(18) Percy Liang, Stanford.
Contribuciones de los autores, agradecimientos y referencias
E Procedimiento de evaluación humana
Evaluamos 26 modelos de texto a imagen (§6) en los 12 aspectos (§3), utilizando 62 escenarios (§4) y 25 métricas (§5). Todos los resultados están disponibles en https://crfm.stanford.edu/heim/v1.1.0. También proporcionamos el resumen de los resultados en la Tabla 5. A continuación, describimos los hallazgos clave. La tasa de éxito de un modelo es la probabilidad de que el modelo supere a otro modelo seleccionado de manera uniforme al azar para una métrica dada en una comparación directa.
1. Alineación texto-imagen. DALL-E 2 logra la puntuación de alineación más alta calificada por humanos entre todos los modelos.[1] Le siguen de cerca los modelos ajustados con imágenes realistas de alta calidad, como Dreamlike Photoreal 2.0 y Vintedois Diffusion. Por otro lado, los modelos ajustados con imágenes artísticas (Openjourney v4, Redshift Diffusion) y los modelos que incorporan una guía de seguridad (SafeStableDiffusion) muestran un rendimiento ligeramente inferior en la alineación texto-imagen.
Fotorrealismo . En general, ninguna de las muestras de los modelos se consideró fotorrealista, ya que los anotadores humanos calificaron las imágenes reales de MS-COCO con una puntuación media de 4,48 sobre 5 en fotorrealismo, mientras que ningún modelo logró una puntuación superior a 3.[2] DALL-E 2 y los modelos ajustados con fotografías, como Dreamlike Photoreal 2.0, obtuvieron las puntuaciones de fotorrealismo calificadas por humanos más altas entre los modelos disponibles. Mientras que los modelos ajustados con imágenes artísticas, como Openjourney, tendieron a producir puntuaciones más bajas.
Estética . Según las métricas automatizadas (LAION-Estética y coeficiente fractal), el ajuste fino de los modelos con imágenes y arte de alta calidad da como resultado generaciones visualmente más atractivas, con Dreamlike Photoreal 2.0, Dreamlike Diffusion 1.0 y Openjourney logrando las tasas de éxito más altas.[3] Promptist, que aplica ingeniería de indicaciones a las entradas de texto para generar imágenes estéticamente agradables según las preferencias humanas, logra la tasa de éxito más alta para la evaluación humana, seguido de Dreamlike Photoreal 2.0 y DALL-E 2.
Originalidad . La generación involuntaria de imágenes con marca de agua es una preocupación debido al riesgo de infracción de marca registrada y derechos de autor. Confiamos en el detector de marcas de agua LAION para verificar las imágenes generadas en busca de marcas de agua. Entrenado en un conjunto de imágenes donde se eliminaron las imágenes con marca de agua, GigaGAN tiene la tasa de ganancia más alta, prácticamente nunca genera marcas de agua en las imágenes. [4] Por otro lado, CogView2 exhibe la frecuencia más alta de generación de marcas de agua. Openjourney (86%) y Dreamlike Diffusion 1.0 (82%) logran las tasas de ganancia más altas para la originalidad calificada por humanos.5 Ambos son modelos de difusión estable ajustados en imágenes de arte de alta calidad, lo que permite que los modelos generen imágenes más originales.
Razonamiento . El razonamiento se refiere a si los modelos entienden objetos, recuentos y relaciones espaciales. Todos los modelos muestran un desempeño deficiente en razonamiento, ya que el mejor modelo, DALL-E 2, solo logra una precisión general de detección de objetos del 47,2 % en el escenario PaintSkills.[6] A menudo cometen errores en el recuento de objetos (por ejemplo, generar 2 en lugar de 3) y relaciones espaciales (por ejemplo, colocar el objeto arriba en lugar de abajo). Para la métrica de alineación calificada por humanos, DALL-E 2 supera a otros modelos, pero aún recibe una puntuación promedio de menos de 4 para Comprensión relacional y los subescenarios de razonamiento de DrawBench. El siguiente mejor modelo, DeepFloyd-IF XL, no logra una puntuación superior a 4 en todos los escenarios de razonamiento, lo que indica que hay margen de mejora para los modelos de generación de texto a imagen para tareas de razonamiento.
Conocimiento . Dreamlike Photoreal 2.0 y DALL-E 2 muestran las tasas de éxito más altas en escenarios de conocimiento intensivo, lo que sugiere que poseen más conocimiento sobre el mundo que otros modelos.[7] Su superioridad puede atribuirse al ajuste fino de fotografías de entidades del mundo real.
Sesgo . En términos de sesgo de género, minDALL-E, DALL-E mini y SafeStableDiffusion exhiben el menor sesgo, mientras que Dreamlike Diffusion, DALL-E 2 y Redshift Diffusion demuestran niveles más altos de sesgo.[8] La mitigación del sesgo de género en SafeStableDiffusion es intrigante, posiblemente debido a su mecanismo de guía de seguridad que suprime el contenido sexual. Con respecto al sesgo de tono de piel, Openjourney v2, CogView2 y GigaGAN muestran el menor sesgo, mientras que Dreamlike Diffusion y Redshift Diffusion exhiben más sesgo. En general, minDALL-E muestra consistentemente el menor sesgo, mientras que los modelos ajustados en imágenes de arte como Dreamlike y Redshift tienden a exhibir más sesgo.
Toxicidad . Si bien la mayoría de los modelos muestran una baja frecuencia de generación de imágenes inapropiadas, ciertos modelos muestran una frecuencia más alta para el escenario I2P.[9] Por ejemplo, OpenJourney, las variantes más débiles de SafeStableDiffusion, Stable Diffusion, Promptist y Vintedois Diffusion, generan imágenes inapropiadas para indicaciones de texto no tóxicas en más del 10 % de los casos. Las variantes más fuertes de SafeStableDiffusion, que hacen cumplir las pautas de seguridad con mayor firmeza, generan menos imágenes inapropiadas que Stable Diffusion, pero aún así producen imágenes inapropiadas. En contraste, modelos como minDALL-E, DALL-E mini y GigaGAN muestran la frecuencia más baja, menos del 1 %.
Equidad . Alrededor de la mitad de los modelos presentan caídas de rendimiento en las métricas de alineación calificadas por humanos cuando se los somete a perturbaciones de género y dialecto.[10] Algunos modelos sufren caídas de rendimiento más grandes, como una caída de 0,25 (en una escala de 5) en la alineación calificada por humanos para Openjourney bajo perturbación de dialecto. Por el contrario, DALL-E mini mostró la brecha de rendimiento más pequeña en ambos escenarios. En general, los modelos ajustados con datos personalizados mostraron una mayor sensibilidad a las perturbaciones demográficas.
Robustez . De manera similar a la imparcialidad, aproximadamente la mitad de los modelos mostraron caídas de rendimiento en las métricas de alineación calificadas por humanos cuando se introdujeron errores tipográficos.[11] Estas caídas fueron generalmente menores, y la puntuación de alineación disminuyó en no más de 0,2 (en una escala de 5), lo que indica que estos modelos son robustos frente a perturbaciones inmediatas.
Multilingüismo . La traducción de los mensajes MS-COCO al hindi, chino y español dio como resultado una disminución de la alineación de texto-imagen para la gran mayoría de los modelos.[12] Una excepción notable es CogView 2 para chino, que se sabe que funciona mejor con mensajes chinos que con mensajes en inglés. DALL-E 2, el modelo superior para la alineación de texto-imagen calificada por humanos (4,438 de 5), mantiene una alineación razonable con solo una ligera caída en el rendimiento para los mensajes en chino (-0,536) y español (-0,162), pero tiene dificultades con los mensajes en hindi (-2,640). En general, la lista de idiomas admitidos no está bien documentada para los modelos existentes, lo que motiva futuras prácticas para abordar esto.
Eficiencia . Entre los modelos de difusión, el Stable Diffusion original tiene un tiempo de ejecución sin ruido de 2 segundos.[13] Los métodos con operaciones adicionales, como la ingeniería rápida en Promptist y la guía de seguridad en SafeStableDiffusion, así como los modelos que generan resoluciones más altas como Dreamlike Photoreal 2.0, muestran un rendimiento ligeramente más lento. Los modelos autorregresivos, como minDALL-E, son aproximadamente 2 segundos más lentos que los modelos de difusión con un recuento de parámetros similar. GigaGAN solo tarda 0,14 segundos, ya que los modelos basados en GAN realizan una inferencia de un solo paso.
Tendencias generales en aspectos. Entre los modelos actuales, ciertos aspectos muestran correlaciones positivas, como la alineación general y el razonamiento, así como la estética y la originalidad. Por otro lado, algunos aspectos muestran desventajas; los modelos que se destacan en estética (por ejemplo, Openjourney) tienden a obtener una puntuación más baja en fotorrealismo, y los modelos que muestran menos sesgo y toxicidad (por ejemplo, minDALL-E) pueden no tener el mejor desempeño en alineación de texto-imagen y fotorrealismo. En general, varios aspectos merecen atención. En primer lugar, casi todos los modelos muestran un desempeño inferior en razonamiento, fotorrealismo y multilingüismo, lo que resalta la necesidad de futuras mejoras en estas áreas. Además, aspectos como la originalidad (marcas de agua), la toxicidad y el sesgo tienen implicaciones éticas y legales significativas, pero los modelos actuales aún son imperfectos y se necesita más investigación para abordar estas preocupaciones.
Ingeniería rápida. Los modelos que utilizan técnicas de ingeniería rápida producen imágenes que son más atractivas visualmente. Promptist + Stable Diffusion v1-4 supera a Stable Diffusion en términos de puntuación estética calificada por humanos, al tiempo que logra una puntuación de alineación de texto-imagen comparable.[14]
Estilos artísticos. Según los evaluadores humanos, Openjourney (afinado con imágenes artísticas generadas por Midjourney) crea las imágenes más agradables estéticamente en los distintos estilos artísticos.[15] Le siguen Dreamlike Photoreal 2.0 y DALL-E 2. DALL-E 2 logra la puntuación de alineación más alta según la evaluación humana. Dreamlike Photoreal 2.0 (Stable Diffusion afinado con fotografías de alta resolución) demuestra una claridad del sujeto superior según la evaluación humana.
Correlación entre métricas humanas y automatizadas. Los coeficientes de correlación entre las métricas calificadas por humanos y las métricas automatizadas son 0,42 para la alineación (CLIPScore vs. alineación calificada por humanos), 0,59 para la calidad de imagen (FID vs. fotorrealismo calificado por humanos) y 0,39 para la estética (estética LAION vs. estética calificada por humanos).[16] La correlación general es débil, en particular para la estética. Estos hallazgos enfatizan la importancia de usar calificaciones humanas para evaluar modelos de generación de imágenes en futuras investigaciones.
Modelos de difusión y autorregresivos. Entre los modelos de difusión y autorregresivos abiertos, los modelos autorregresivos requieren un tamaño de modelo mayor para lograr un rendimiento comparable al de los modelos de difusión en la mayoría de las métricas. Sin embargo, los modelos autorregresivos muestran un rendimiento prometedor en algunos aspectos, como el razonamiento. Los modelos de difusión muestran una mayor eficiencia en comparación con los modelos autorregresivos cuando se controla el recuento de parámetros.
Escalas de modelos. Existen múltiples modelos con distintos recuentos de parámetros dentro de la familia de modelos autorregresivos DALL-E (0,4 B, 1,3 B, 2,6 B) y la familia de difusión DeepFloyd-IF (0,4 B, 0,9 B, 4,3 B). Los modelos más grandes tienden a superar a los más pequeños en todas las métricas humanas, incluidas la alineación, el fotorrealismo, la claridad del sujeto y la estética.[17]
¿Cuáles son los mejores modelos? En general, DALL-E 2 parece tener un desempeño versátil en todas las métricas humanas. Sin embargo, ningún modelo emerge como el mejor en todos los aspectos. Diferentes modelos muestran diferentes fortalezas. Por ejemplo, Dreamlike Photoreal sobresale en fotorrealismo, mientras que Openjourney en estética. En cuanto a los aspectos sociales, modelos como minDALL-E, CogView2 y SafeStableDiffusion tienen un buen desempeño en toxicidad y mitigación de sesgos. En cuanto al multilingüismo, los modelos GigaGAN y DeepFloyd-IF parecen manejar indicaciones en hindi, con las que DALL-E 2 tiene dificultades. Estas observaciones abren nuevas vías de investigación para estudiar si se deben desarrollar modelos que destaquen en múltiples aspectos y cómo hacerlo.
Este artículo está disponible en arxiv bajo la licencia CC BY 4.0 DEED.
[1] https://crfm.stanford.edu/heim/v1.1.0/?group=heim_alignment_scenarios
[2] https://crfm.stanford.edu/heim/v1.1.0/?group=mscoco_base
[3] https://crfm.stanford.edu/heim/v1.1.0/?group=heim_aesthetics_scenarios
[4] https://crfm.stanford.edu/heim/v1.1.0/?group=core_scenarios
[5] https://crfm.stanford.edu/heim/v1.1.0/?group=heim_originality_scenarios
[6] https://crfm.stanford.edu/heim/v1.1.0/?group=heim_reasoning_scenarios
[7] https://crfm.stanford.edu/heim/v1.1.0/?group=heim_knowledge_scenarios
[8] https://crfm.stanford.edu/heim/v1.1.0/?group=heim_bias_scenarios
[9] https://crfm.stanford.edu/heim/v1.1.0/?group=heim_toxicity_scenarios
[10] https://crfm.stanford.edu/heim/v1.1.0/?group=mscoco_gender, https://crfm.stanford.edu/heim/v1.1.0/?group=mscoco_dialect
[11] https://crfm.stanford.edu/heim/v1.1.0/?group=mscoco_robustness
[12] https://crfm.stanford.edu/heim/v1.1.0/?group=mscoco_chinese, https://crfm.stanford.edu/heim/v1.1.0/?group=mscoco_hindi, https://crfm.stanford.edu/heim/v1.1.0/?group=mscoco_spanish
[13] https://crfm.stanford.edu/heim/v1.1.0/?group=heim_efficiency_scenarios
[14] https://crfm.stanford.edu/heim/v1.1.0/?group=heim_quality_scenarios
[15] https://crfm.stanford.edu/heim/v1.1.0/?group=mscoco_art_styles
[16] https://crfm.stanford.edu/heim/v1.1.0/?group=mscoco_fid, https://crfm.stanford.edu/heim/v1.1.0/?group=mscoco_base
[17] https://crfm.stanford.edu/heim/v1.1.0/?group=mscoco_base