231 測定値

フォトリアリズム、バイアス、そしてそれ以上: 26 のテキストから画像への変換モデルの評価結果

に Auto Encoder: How to Ignore the Signal Noise8m2024/10/12

長すぎる; 読むには

この調査では、62 のシナリオと 25 の指標を使用して、12 の主要な側面にわたって 26 のテキストから画像へのモデルを評価します。DALL-E 2 はテキストと画像の配置でリードし、Dreamlike Photoreal はフォトリアリズムで優れています。これらの長所にもかかわらず、ほとんどのモデルは推論、フォトリアリズム、多言語性で不十分であり、バイアスと毒性が依然として大きな懸念事項となっています。minDALL-E や SafeStableDiffusion などのモデルはバイアスをうまく軽減しますが、Dreamlike Diffusion と Openjourney は独創性と美観で優れています。詳細な勝率を含む完全な結果は、表 5 にまとめられています。

featured image - フォトリアリズム、バイアス、そしてそれ以上: 26 のテキストから画像への変換モデルの評価結果

著者:

（１）スタンフォード大学のトニー・リー氏（同額寄付）

（２）スタンフォード大学の安永道弘氏（同額寄付）

（３）スタンフォード大学のChenlin Meng氏（同額寄付）

（4）イーファン・マイ、スタンフォード大学

（５）スタンフォード大学のパーク・ジュンソン氏

（6）アグリム・グプタ、スタンフォード大学

（7）ユンジ・チャン、スタンフォード大学

（８）ディーパック・ナラヤナン、マイクロソフト

(9) ハンナ・ベニータ・トイフェル、アレフ・アルファ。

（10）マルコ・ベラジェンテ、アレフ・アルファ

（11）ミングク・カン、POSTECH

（12）テソン・パーク、アドビ

（13）ジュレ・レスコベック、スタンフォード大学

（14）ジュンヤン・チュー、CMU

（15）李飛飛、スタンフォード大学

（16）Jiajun Wu、スタンフォード大学

（17）ステファノ・エルモン、スタンフォード大学

（18）パーシー・リャン、スタンフォード大学

リンク一覧

7 実験と結果

我々は、62 のシナリオ (§4) と 25 の指標 (§5) を使用して、12 の側面 (§3) にわたって 26 のテキストから画像へのモデル (§6) を評価しました。すべての結果は https://crfm.stanford.edu/heim/v1.1.0 で確認できます。また、表 5 に結果の概要を示します。以下では、主な調査結果について説明します。モデルの勝率とは、特定の指標に対して一様にランダムに選択された別のモデルを直接比較した場合に、そのモデルがそれよりも優れている確率です。

1.テキストと画像のアライメント。DALL -E 2は、すべてのモデルの中で人間が評価した最高のアライメントスコアを達成しました。[1] Dreamlike Photoreal 2.0やVintedois Diffusionなど、高品質でリアルな画像を使用して微調整されたモデルがこれに続きます。一方、アート画像で微調整されたモデル（Openjourney v4、Redshift Diffusion）や安全ガイダンスを組み込んだモデル（SafeStableDiffusion）は、テキストと画像のアライメントでわずかに低いパフォーマンスを示しています。

フォトリアリズム。一般的に、モデルのサンプルはどれもフォトリアリスティックであるとはみなされませんでした。人間の注釈者は、MS-COCOからの実際の画像をフォトリアリズムについて5点満点中平均4.48点と評価しましたが、どのモデルも3点以上を獲得しませんでした。[2] DALL-E 2と、Dreamlike Photoreal 2.0などの写真で微調整されたモデルは、利用可能なモデルの中で最高の人間によるフォトリアリズムスコアを獲得しました。一方、Openjourneyなどのアート画像で微調整されたモデルは、より低いスコアを生み出す傾向がありました。
美学。自動化されたメトリクス（LAION-Aestheticsとフラクタル係数）によると、高品質の画像とアートでモデルを微調整すると、視覚的に魅力的な生成が得られ、Dreamlike Photoreal 2.0、Dreamlike Diffusion 1.0、Openjourneyが最も高い勝率を達成しました。[3] プロンプトエンジニアリングをテキスト入力に適用して、人間の好みに応じて美的に心地よい画像を生成するPromptistは、人間による評価で最高の勝率を達成し、Dreamlike Photoreal 2.0とDALL-E 2がそれに続きました。
独創性。意図せずに透かし入り画像が生成されると、商標権や著作権を侵害するリスクがあるため懸念されます。生成された画像に透かしがないかチェックするために、LAION透かし検出器を使用しています。透かし入り画像が削除された画像セットでトレーニングされたGigaGANは、最高の勝率を示し、画像に透かしを生成することは事実上ありません。[4]一方、CogView2は透かし生成の頻度が最も高いです。Openjourney（86％）とDreamlike Diffusion 1.0（82％）は、人間による独創性の評価で最高の勝率を達成しています。5どちらも高品質のアート画像で微調整されたStable Diffusionモデルであり、モデルはより独創的な画像を生成できます。
推論。推論とは、モデルがオブジェクト、数、空間関係を理解しているかどうかを指します。すべてのモデルは推論のパフォーマンスが低く、最も優れたモデルであるDALL-E 2でも、PaintSkillsシナリオで全体的なオブジェクト検出精度が47.2%にしか達していません。[6] これらのモデルは、オブジェクトの数（3つではなく2つを生成するなど）や空間関係（オブジェクトを下ではなく上に配置するなど）で間違いを犯すことがよくあります。人間が評価する配置メトリックでは、DALL-E 2は他のモデルよりも優れていますが、関係理解とDrawBenchの推論サブシナリオでは平均スコアが4未満です。次に優れたモデルであるDeepFloyd-IF XLは、すべての推論シナリオで4を超えるスコアを達成せず、推論タスク用のテキストから画像への生成モデルに改善の余地があることを示しています。
知識。Dreamlike Photoreal 2.0とDALL-E 2は、知識集約型のシナリオで最も高い勝率を示しており、他のモデルよりも世界についての知識が豊富であることを示唆しています。[7] これらのモデルの優位性は、現実世界のエンティティの写真を微調整したことによるものと考えられます。
バイアス。性別バイアスに関しては、minDALL-E、DALL-E mini、SafeStableDiffusionは最もバイアスが少なく、Dreamlike Diffusion、DALL-E 2、Redshift Diffusionはより高いレベルのバイアスを示しています。[8] SafeStableDiffusionにおける性別バイアスの緩和は興味深いもので、おそらく性的コンテンツを抑制する安全ガイダンスメカニズムによるものです。肌の色のバイアスに関しては、Openjourney v2、CogView2、GigaGANは最もバイアスが少なく、Dreamlike DiffusionとRedshift Diffusionはより多くのバイアスを示しています。全体的に、minDALL-Eは一貫して最もバイアスが少ないことを示していますが、DreamlikeやRedshiftなどのアートイメージで微調整されたモデルはより多くのバイアスを示す傾向があります。
毒性。ほとんどのモデルは不適切な画像を生成する頻度が低いですが、特定のモデルはI2Pシナリオで高い頻度を示しています。[9] たとえば、OpenJourney、SafeStableDiffusionの弱いバリアント、Stable Diffusion、Promptist、およびVintedois Diffusionは、10％以上のケースで非毒性のテキストプロンプトに対して不適切な画像を生成します。安全ガイダンスをより強力に施行するSafeStableDiffusionの強力なバリアントは、Stable Diffusionよりも不適切な画像を生成する回数が少ないですが、それでも不適切な画像を生成します。対照的に、minDALL-E、DALL-E mini、およびGigaGANなどのモデルは、1％未満の最も低い頻度を示しています。

公平性。モデルの約半数は、性別や方言の変動にさらされると、人間が評価したアライメント指標でパフォーマンスの低下を示します。[10] 一部のモデルでは、方言の変動下でのOpenjourneyの人間が評価したアライメントで0.25（5段階評価）の低下など、より大きなパフォーマンスの低下が見られます。対照的に、DALL-E miniは両方のシナリオで最も小さなパフォーマンスギャップを示しました。全体的に、カスタムデータで微調整されたモデルは、人口動態の変動に対してより大きな感受性を示しました。
堅牢性。公平性と同様に、約半数のモデルは、タイプミスが導入されると、人間が評価するアライメントメトリックでパフォーマンスの低下を示しました。[11] これらの低下は一般的に軽微で、アライメントスコアは0.2（5段階評価）以下しか低下せず、これらのモデルがプロンプトの摂動に対して堅牢であることを示しています。
多言語性。MS-COCOプロンプトをヒンディー語、中国語、スペイン語に翻訳すると、大多数のモデルでテキストと画像のアライメントが低下しました。[12]注目すべき例外は中国語のCogView 2で、英語のプロンプトよりも中国語のプロンプトの方がパフォーマンスが良いことが知られています。人間によるテキストと画像のアライメントのトップモデルであるDALL-E 2（5点満点中4.438点）は、中国語（-0.536）とスペイン語（-0.162）のプロンプトではパフォーマンスがわずかに低下しただけで、妥当なアライメントを維持していますが、ヒンディー語のプロンプト（-2.640）では苦戦しています。一般に、サポートされている言語のリストは既存のモデルで十分に文書化されていないため、将来のプラクティスではこれを解決する必要があります。
効率。拡散モデルの中で、通常のStable Diffusionはノイズ除去後の実行時間が2秒です。[13] PromptistのプロンプトエンジニアリングやSafeStableDiffusionの安全ガイダンスなどの追加操作を伴う方法や、Dreamlike Photoreal 2.0のような高解像度を生成するモデルでは、パフォーマンスがわずかに低下します。minDALL-Eのような自己回帰モデルは、同様のパラメータ数の拡散モデルよりも約2秒遅くなります。GigaGANでは、GANベースのモデルがシングルステップ推論を実行するため、わずか0.14秒しかかかりません。
側面の全体的な傾向。現在のモデルの中には、一般的な整合と推論、美観と独創性など、特定の側面が正の相関関係を示しています。一方、いくつかの側面はトレードオフを示しています。美観に優れたモデル (例: Openjourney) はフォトリアリズムのスコアが低くなる傾向があり、バイアスと毒性の少ないモデル (例: minDALL-E) はテキストと画像の整合とフォトリアリズムで最高のパフォーマンスを発揮しない可能性があります。全体として、いくつかの側面は注目に値します。まず、ほとんどすべてのモデルが推論、フォトリアリズム、多言語性において平均以下のパフォーマンスを示しており、これらの分野で将来的に改善する必要があることを示しています。さらに、独創性 (透かし)、毒性、バイアスなどの側面は重大な倫理的および法的影響を伴いますが、現在のモデルはまだ不完全であり、これらの懸念に対処するにはさらなる研究が必要です。
プロンプトエンジニアリング。プロンプトエンジニアリング技術を使用したモデルは、より視覚的に魅力的な画像を生成します。Promptist + Stable Diffusion v1-4は、人間が評価した美観スコアの点でStable Diffusionを上回り、同等のテキストと画像の配置スコアを達成しています。[14]
アートスタイル。人間の評価者によると、Openjourney（Midjourneyによって生成された芸術的な画像に基づいて微調整）は、さまざまなアートスタイルの中で最も美的に心地よい画像を作成します。[15] これに続いて、Dreamlike Photoreal 2.0とDALL-E 2が続きます。DALL-E 2は、人間が評価した最高のアライメントスコアを達成しました。Dreamlike Photoreal 2.0（高解像度の写真に基づいて微調整されたStable Diffusion）は、人間が評価した優れた被写体の鮮明さを示しています。
人間と自動化されたメトリクスの相関。人間が評価したメトリクスと自動化されたメトリクスの相関係数は、アライメント（CLIPScore対人間が評価したアライメント）では0.42、画像品質（FID対人間が評価したフォトリアリズム）では0.59、美観（LAION美観対人間が評価した美観）では0.39です。[16] 全体的な相関は弱く、特に美観に関しては弱いです。これらの調査結果は、将来の研究で画像生成モデルを評価するために人間の評価を使用することの重要性を強調しています。
拡散モデルと自己回帰モデル。オープンな自己回帰モデルと拡散モデルのうち、自己回帰モデルは、ほとんどのメトリックで拡散モデルに匹敵するパフォーマンスを実現するために、より大きなモデルサイズを必要とします。ただし、自己回帰モデルは、推論などのいくつかの側面で有望なパフォーマンスを示します。拡散モデルは、パラメータ数を制御する場合、自己回帰モデルと比較して高い効率を示します。
モデルの規模。自己回帰DALL-Eモデルファミリー（0.4B、1.3B、2.6B）と拡散DeepFloyd-IFファミリー（0.4B、0.9B、4.3B）には、さまざまなパラメータ数を持つ複数のモデルが用意されています。大きなモデルは、位置合わせ、フォトリアリズム、被写体の鮮明さ、美観など、すべての人間の評価基準において、小さなモデルよりも優れている傾向があります。[17]
最高のモデルはどれでしょうか?全体的に、DALL-E 2 は人間の評価基準全体で多用途に使えるようです。ただし、すべての側面で最高のパフォーマンスを発揮する単一のモデルは存在しません。モデルによって強みは異なります。たとえば、Dreamlike Photoreal はフォトリアリズムに優れ、Openjourney は美学に優れています。社会的側面では、minDALL-E、CogView2、SafeStableDiffusion などのモデルは毒性とバイアスの緩和に優れています。多言語性では、GigaGAN と DeepFloyd-IF モデルはヒンディー語のプロンプトを処理できるようですが、DALL-E 2 はこれに苦労しています。これらの観察により、複数の側面で優れたモデルを開発できるかどうか、またどのように開発できるかを研究するための新しい研究の道が開かれます。

この論文は、CC BY 4.0 DEED ライセンスの下でarxiv で公開されています。

[1] https://crfm.stanford.edu/heim/v1.1.0/?group=heim_alignment_scenarios

[2] https://crfm.stanford.edu/heim/v1.1.0/?group=mscoco_base

[3] https://crfm.stanford.edu/heim/v1.1.0/?group=heim_aesthetics_scenarios

[4] https://crfm.stanford.edu/heim/v1.1.0/?group=core_scenarios

[5] https://crfm.stanford.edu/heim/v1.1.0/?group=heim_originality_scenarios

[6] https://crfm.stanford.edu/heim/v1.1.0/?group=heim_reasoning_scenarios

[7] https://crfm.stanford.edu/heim/v1.1.0/?group=heim_knowledge_scenarios

[8] https://crfm.stanford.edu/heim/v1.1.0/?group=heim_bias_scenarios

[9] https://crfm.stanford.edu/heim/v1.1.0/?group=heim_有毒性_scenarios

[10] https://crfm.stanford.edu/heim/v1.1.0/?group=mscoco_gender、https://crfm.stanford.edu/heim/v1.1.0/?group=mscoco_dialect

[11] https://crfm.stanford.edu/heim/v1.1.0/?group=mscoco_robustness

[12] https://crfm.stanford.edu/heim/v1.1.0/?group=mscoco_chinese、https://crfm.stanford.edu/heim/v1.1.0/?group=mscoco_hindi、https://crfm.stanford.edu/heim/v1.1.0/?group=mscoco_spanish

[13] https://crfm.stanford.edu/heim/v1.1.0/?group=heim_efficiency_scenarios

[14] https://crfm.stanford.edu/heim/v1.1.0/?group=heim_quality_scenarios

[15] https://crfm.stanford.edu/heim/v1.1.0/?group=mscoco_art_styles

[16] https://crfm.stanford.edu/heim/v1.1.0/?group=mscoco_fid、https://crfm.stanford.edu/heim/v1.1.0/?group=mscoco_base

[17] https://crfm.stanford.edu/heim/v1.1.0/?group=mscoco_base