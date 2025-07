著者: (1) Vishaal Udandarao, Tubingen AI Center, University of Tubingen, University of Cambridge, and equal contribution; (2)Ameya Prabhu, Tubingen AI Center, University of Tubingen, University of Oxford, and equal contribution; (3) Adhiraj Ghosh, Tubingen AI Center, University of Tubingen (4) Yash Sharma, Tubingen AI Center, University of Tubingen フィリップ・H・S・トール(Oxford University of Oxford) (6)アデル・ビビー、オックスフォード大学 (7) サミュエル・アルバニー、ケンブリッジ大学および同等のアドバイス、コインフリップで決定する。 (8) Matthias Bethge, Tubingen AI Center, University of Tubingen and equal advising, order decided by a coin flip。

Authors:

(1) Vishaal Udandarao, Tubingen AI Center, University of Tubingen, University of Cambridge, and equal contribution;

(2)Ameya Prabhu, Tubingen AI Center, University of Tubingen, University of Oxford, and equal contribution;

(3) Adhiraj Ghosh, Tubingen AI Center, University of Tubingen

(4) Yash Sharma, Tubingen AI Center, University of Tubingen

フィリップ・H・S・トール(Oxford University of Oxford)

(6)アデル・ビビー、オックスフォード大学

(7) サミュエル・アルバニー、ケンブリッジ大学および同等のアドバイス、コインフリップで決定する。

(8) Matthias Bethge, Tubingen AI Center, University of Tubingen and equal advising, order decided by a coin flip。

抽象と1 導入

2 データのプレトレーニングと周波数の定量化の概念

3 プレトレーニングの周波数と「ゼロショット」のパフォーマンスと3.1 実験設定の比較

3.2 結果:プレトレーニングの頻度は「ゼロショット」のパフォーマンスを予測する

4 コンセプトの周波数パフォーマンスのスケーリング傾向と、プレトレーニングおよびダウンストリームデータにおける類似サンプルのための 4.1 コントロール

4.2 純粋に合成概念とデータ分布へのテスト一般化

5 プレトレーニングコンセプト周波数からの追加的な洞察

タイトル:Testing the Tail: Let It Wag!

7 関連事業

8 結論と開かれた問題、認識、参照

Part I

Appendix

A. Concept frequency is predictive of performance across prompting strategies. コンセプトの周波数は、推奨戦略を通じてのパフォーマンスを予測する。

B. Concept Frequency is Predictive of Performance Across Retrieval Metrics. Concept Frequency is Predictive of Performance Across Retrieval Metrics. Concept Frequency is Predictive of Performance Across Retrieval Metrics.

C. Concept Frequency is Predictive of Performance for T2I モデル

D. Concept Frequency is Predictive of Performance across Concepts only from Image and Text Domains. D. Concept Frequency is Predictive of Performance across Concepts only from Image and Text Domains. コンセプトの周波数は、イメージおよびテキストのドメインからのコンセプト間のパフォーマンスを予測します。

A.実験の詳細

Q.なぜ、そしてどのようにしてRAM++を使用するのですか?

G. Misalignment Degree Resultsの詳細

H. T2I モデル:評価

タイトル:Let It Wag!

抽象

Web でスクロールされたプレトレーニングデータセットは、分類/リサイクル用 CLIP や画像生成用 Stable-Diffusion などの多形モデルの印象的な「ゼロショット」評価パフォーマンスに基づいていますが、「ゼロショット」の概念がどれほど有意義かは不明です。一般化このような多形モデルは、彼らのプレトレーニングデータセットが「ゼロショット」評価中にターゲットとなる下流コンセプトをどの程度含んでいるかは不明である。下流コンセプトにおけるマルチモダルモデルのパフォーマンスは、そのプレトレーニングデータセットにおけるこれらのコンセプトの頻度によってどのように影響されますか。





この問題を34モデルと5つの標準プレトレーニングデータセット(CC-3M、CC-12M、YFCC-15M、LAION-400M、LAION-Aesthetics)で徹底的に調査し、300GBを超えるデータアーティファクトを生成しました。私たちは、「ゼロショット」一般化を示すことから遠く離れて、マルチモダルモデルは「ゼロショット」パフォーマンスの線形改善を達成するために、サンプル非効率なログラインスケーリングトレンドに従って膨大なデータを必要としています。この傾向は、プレトレーニングとダウンストリーミングデータセットのサンプルレベルの類似性をチェックするときにも、また、純粋に合成データ配布をテストするときにも続きます。気をつけてください!われわれの研究は、大規模なトレーニングパラダイムの下で「ゼロショット」一般化能力の鍵を発見することを意味するトレーニングデータの急速な必要性を明らかにした。

1 導入

CLIP [91] および Stable Diffusion [96] のような多様なモデルは、下流のタスクにおけるパフォーマンスを革命的に変えた - CLIP は現在「ゼロショット」画像認識 [133, 72, 126, 48, 132] と画像テキストの取得 [46, 64, 24, 117, 129] のデファクト標準となり、Stable Diffusion は現在「ゼロショット」テキスト対画像(T2I)の生成 [93, 17, 96, 41] のデファクト標準となっています。現代のマルチモダルモデルは本当に「ゼロショット」の一般化を可能にしているのか?





この問題に対処するために、我々は2つの主な要因を含む比較分析を実施した:(1)さまざまな下流課題におけるモデルのパフォーマンスおよび(2)プレトレーニングデータセット内のテストコンセプトの頻度。我々は、分類、検出、および画像生成をカバーする27の下流課題から4 029のコンセプトの包括的なリストをまとめ、これらのコンセプトに対するパフォーマンスを評価した。我々の分析は、さまざまなスケール、データクレーニング方法およびソース(CC-3M [107]、CC-12M [27],YFCC-15M [113]、LAION-Aesthetics [103]、LAION-400M [102])を含む5つの大規模なプレトレーニングデータセットをmodel performance scales linearly as the concept frequency in pre-training data grows exponentially. モデルパフォーマンススケールは、コンセプトの周波数が前訓練データの数値で増加するにつれて、線形的に拡大します。 イ、We find that this log-linear trend is robust to control for correlated factors (similar samples in pre-training and test data [79]) and testing across different concept distributions along with samples generated entirely synthetically [51]. このロゴ線形の傾向は、関連する要因(プレトレーニングおよびテストデータにおける類似のサンプル)を制御し、完全に合成的に生成されたサンプルとともに異なるコンセプト分布をテストするのに強力である。





われわれの結果は、CLIPやStable Diffusionなどの多形モデルの印象的な実験的パフォーマンスは、その膨大なプレトレーニングデータセット内のテストコンセプトの存在に大きく関与することができ、したがって、その報告された実験的パフォーマンスは「ゼロショット」一般化を構成しないことを示唆している。





私たちの分析では、プレトレーニングデータに遭遇した概念の分布をさらに文書化し、次のように発見します。





• Concept Distribution:すべてのプレトレーニングデータセットを通じて、概念の分布は長尾(セクション5の図5を参照)、コンセプトの大部分が希少であることを示すが、観察された極端なサンプル効率の欠如を考慮して、希少なものは、マルチモダルプレトレーニング中に適切に学ばない。





• Concept Correlation across Pretraining Datasets:異なるプレトレーニングデータセットにおけるコンセプトの分布は強く関連している(セクション5の表4を参照)、これは、ウェブクローリングは、異なるプレトレーニングデータクレーニング戦略における驚くほど類似したコンセプトの分布を生み出し、明示的な再バランスを取る努力を必要とすることを示唆している(11、125)。





• Image-Text Misalignment between Concepts in Pretraining Data:コンセプトはしばしば一つのモダルに表示されるが、他のモダルに表示されることはなく、これは重大な誤差を意味する(第5節の表3を参照)。当社のリリースされたデータアーティファクトは、モダルが誤差する例を正確に示すことによって、画像とテキストの調和努力をスケールするのに役立ちます。





トレーニングセット内のコンセプトの周波数を制御する多形モデルの一般化パフォーマンスの単純な基準を提供するために、我々は新しい長尾テストデータセットを導入した。『Let It Wag!』現在のモデルは、公開データセット(例えば、LAION-2B、DataComp-1B、46))と閉鎖データセット(例えば、OpenAI-WIT、WebLI、29)の両方で訓練され、私たちの観測が閉鎖データセットにも移行する可能性があることを示すパフォーマンスの大幅な低下を示しています。





いくつかの以前の研究(91, 46, 82, 42, 83, 74)は、プレトレーニングデータがパフォーマンスに影響を与える役割を調査しました。Mayilvahanan et al. [79]は、CLIPのパフォーマンスがトレーニングとテストデータセットの類似性と関連していることを示しました。大規模な言語モデルの質問回答(62)と数値推論(94)などの特定の分野の他の研究では、高トレーニングテストセットの類似性は、観測されたパフォーマンスレベル(127)を完全に考慮していない。私たちの複数のプレトレーニング画像テキストデータセットの包括的な分析は、(1)コンセプトの頻度がゼロショットパフォーマンスを決定することを示し、(2)現在の大規模なマルチモダ





この論文は CC BY 4.0 DEED ライセンスの下で archiv で利用できます。

この紙は ARCHIV で利用可能 CC BY 4.0 DEED ライセンス

[1] 分類タスクのクラスカテゴリ、検索タスクのテキストタイトルのオブジェクト、生成タスクのテキストプロンプトのオブジェクトについては、セクション 2 を参照して、コンセプトを定義する方法の詳細を参照してください。