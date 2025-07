Նրա գրասենյակներ : (1) Vishaal Udandarao, Tubingen AI Center, University of Tubingen, University of Cambridge, եւ միասին գործառույթը: (2) Ameya Prabhu, Tubingen AI Center, University of Tubingen, University of Oxford, եւ միասին գործառույթը: (3) Adhiraj Ghosh, Tubingen AI Center, Tubingen համալսարան (4) Yash Sharma, Tubingen AI Center, University of Tubingen; Philip H.S. Torr, Oxford համալսարան Adel Bibi, Oxford համալսարան (7) Samuel Albanie, University of Cambridge- ի եւ միասին խորհուրդներ, որոշում է գույքի flip- ի միջոցով: (8) Matthias Bethge, Tubingen AI Center, University of Tubingen եւ միասին խորհուրդներ, որոշում է մետինե flip.

Authors:

(1) Vishaal Udandarao, Tubingen AI Center, University of Tubingen, University of Cambridge, եւ միասին գործառույթը:

(2) Ameya Prabhu, Tubingen AI Center, University of Tubingen, University of Oxford, եւ միասին գործառույթը:

(3) Adhiraj Ghosh, Tubingen AI Center, Tubingen համալսարան

(4) Yash Sharma, Tubingen AI Center, University of Tubingen;

Philip H.S. Torr, Oxford համալսարան

Adel Bibi, Oxford համալսարան

(7) Samuel Albanie, University of Cambridge- ի եւ միասին խորհուրդներ, որոշում է գույքի flip- ի միջոցով:

(8) Matthias Bethge, Tubingen AI Center, University of Tubingen եւ միասին խորհուրդներ, որոշում է մետինե flip.

Abstract եւ 1-ի ներառումը

2 Ապրանքներ, որոնք օգտագործվում են նախընտրական տվյալների եւ կատեգորիաների համար

3 Տեղադրում Pretraining Frequency & «Zero-Shot» կատարման եւ 3.1 փորձնական տեղադրման

3.2 Ապրանքը: Pre-Training Frequency- ը «Zero-Shot» կատարման նախընտրական է

4 Stress-Testing Concept Frequency-Performance Scaling Trend- ը եւ 4.1 Controling- ը հարմար մոդելերի համար Pre-Training եւ Downstream տվյալների համար

4.2 Testing Generalization to Purely Synthetic Concept եւ Data Distribution- ը

5 Ապրանքներ, որոնք առաջադրվում են Pretraining Concept Frequencies- ում

6 Ապրանքներ, որոնք պետք է ստանալ: Let It Wag!

7 Արդյունաբերական աշխատանքներ

8 Հասկածություններ եւ open problems, recognitions, and references

Part I

Appendix

A. Concept Frequency- ը պրոֆեսիոնալ պրոֆեսիոնալ պրոֆեսիոնալ պրոֆեսիոնալ պրոֆեսիոնալ պրոֆեսիոնալ է

B. Concept Frequency- ը նախընտրական է Retrieval Metrics- ի կատարման համար

C. Concept Frequency- ը predictive է T2I մոդելների կատարման համար

D. Concept Frequency- ը միայն Image- ի եւ Text Domains- ի համոզվածների մեջ կատարման նախընտրական է:

E. փորձարկման մանրամասներ

Ինչպե՞ս եւ ինչպե՞ս օգտագործենք RAM++-ը

G. Տեղինակներ Misalignment Degree- ի արդյունքների մասին

H. T2I մոդելներ: Հասկածություն

I. Կառուցման արդյունքները: Let It Wag!

Ապրիլ

Web-scrolled pre-training data sets հիմնված են «zero-shot» evaluation կատարումը multimodal մոդելների, ինչպիսիք են CLIP համար classification/recrieval եւ Stable-Diffusion համար image generation.Generalization-նԱյսպիսի multimodal մոդելների համար, քանի որ չգիտվում է, թե ինչպիսիք են իրենց pre-training data sets- ի հետ, որոնք ներառում են "zero-shot" evaluation- ի ընթացքում կտորված ներսում: Այս աշխատանքում մենք հարցում ենք:Ինչպե՞ս է multimodal մոդելների կատարումը downstream մոդելների ազդեցություն է հաճախականությունը այդ մոդելների իրենց pre-training data sets:





Մենք ամբողջականորեն ուսումնասիրում ենք այս հարցը 34 մոդելերի եւ 5 ստանդարտ pre-training data sets (CC-3M, CC-12M, YFCC-15M, LAION-400M, LAION-Aesthetics) հետ, որը արտադրում է ավելի քան 300GB data artefacts. Մենք միշտ գտնում ենք, որ, այնտեղից հետո, որ "zero-shot" generalization, multimodal մոդելերը պահանջում են ավելի շատ տվյալներ, որպեսզի հասկանալ linear improvements է downstream "zero-shot" կատարումը, հետո մոդելը հզոր է log-linear scaling ճշգրտության. Այս մոդելը վերահսկվում է նույնիսկ, երբ վերահսկվում է մոդելային մակարդակի միասինության միջեւ pre-training եւ downstream data sets [79], եւ փորձարկմանՏեսեք այն!Մեր հետազոտությունը ցույց է տալիս, որ դասընթացային տվյալների արտոնագրական պահանջը, որը նշանակում է, որ «zero-shot» արտոնագրության հզորությունը մեծ քանակի դասընթացային մոդելների ընթացքում դեռ պետք է գտնվում է:

1 Առաջարկ

Հիմնական մոդելներ, ինչպիսիք են CLIP [91] եւ Stable Diffusion [96], առաջադեմ գործառույթների կատարումը վերլուծել են: CLIP- ը այժմ է «zero-shot» տեսանյութի վերլուծման [133, 72, 126, 48, 132] եւ տեսանյութի տեսանյութի վերլուծման [46, 64, 24, 117, 129] de-facto ստանդարտը «zero-shot» text-to-image (T2I) արտադրության [93, 17, 96, 41] համար: Այս աշխատանքում մենք ուսումնասիրում ենք այս փորձնական հաջողությունը սեղմելով սեղմած տեսանյութի վերլուծման [69], որը նշանակում է, որ մոդելը կարող է օգտագործել իր իմանքը նոր տեսանյութերի համար:-Ինչպե՞ս կարող են «zero-shot» բաղադրատոմսերը ստեղծել։





Այս մասին փորձարկելու համար, մենք կատարում ենք համեմատական վերլուծություն, որը ներառում է երկու հիմնական գործառույթներ: (1) մոդելների կատարումը տարբեր վերլուծական գործառույթների մեջ եւ (2) փորձարկման մոդելների լայնությունը իրենց նախապատրաստման տվյալների սերտիֆիկների մեջ: Մենք ստեղծել ենք 4 029 մոդելների համեմատական ցուցակը[1] 27 վերլուծական գործառույթների վրա, որոնք ներառում են դասընթաց, վերլուծություն, եւ տեսանյութերի արտադրություն, եւ գնահատել ենք կատարումը այդ մոդելների հետ: Մեր վերլուծությունը ներառում է 5 մեծ քանակի նախապատրաստման տվյալների սերտիֆիկների հետ տարբեր քանակներ, տվյալների վերլուծման մեթոդներ եւ սերտիֆիկներ (CC-3M [107], CC-12M [27],Model performance scales linearly as the concept frequency in pretraining data grows exponentially Արդյոք,Մենք գտնում ենք, որ այս log-linear ճշգրիտությունը հզոր է վերահսկել correlated գործառույթների համար (մասնավոր մանրամասներ pre-training եւ փորձարկման տվյալների [79]) եւ փորձարկման տարբեր մանրամասների մանրամասների հետ, ինչպես նաեւ մանրամասներ արտադրված ամբողջականորեն սինթետիկ [51]:





Մեր արդյունքները ցույց են տալիս, որ multimodal մոդելների, ինչպիսիք են CLIP- ը եւ Stable Diffusion- ը, տպագրական արդյունավետությունը մեծապես կարող է տպագրվել փորձարկման մոդելների վրա, որոնք ներսում են իրենց խոշոր pre-training data sets- ում, այնպես որ այդ մոդելների նշված փորձարկման արդյունավետությունը չի ստեղծել «zero-shot» բովանդակությունը: Բացի այդ, այդ մոդելները պահանջում են ավելի շատ տվյալներ մի մոդելի մասին, որպեսզի linearly բարելավել իրենց արդյունավետությունը այդ մոդելի հետ կապված աշխատանքների վրա, ինչպիսիք են անսահմանափակ բովանդակության անսահմանափակությունը:





Մեր analytics- ում, մենք լրացուցիչ տպագրում ենք թարգմանությունների թարգմանությունը, որոնք հանդիպում են pre-training տվյալների եւ գտնում ենք, որ:





• Concept Distribution:Հիմնական տեղեկատվություն, որը հայտնաբերվում է, որ սերտիֆիկների արտադրանքը շատ մեծ է, ինչպիսիք են, որ սերտիֆիկների արտադրանքը շատ փոքր է, բայց այնպես էլ, որ սերտիֆիկների արտադրանքը շատ փոքր է, այնպես էլ, որ սերտիֆիկների արտադրանքը շատ փոքր է:





• Concept Correlation across Pretraining Datasets:Արդյոք, թե ինչ է այն, թե ինչ է, թե ինչ է, թե ինչ է, թե ինչ է, թե ինչ է, թե ինչ է, թե ինչ է, թե ինչ է, թե ինչ է, թե ինչ է, թե ինչ է, թե ինչ է, թե ինչ է, թե ինչ է, թե ինչ է, թե ինչ է, թե ինչ է, թե ինչ է, թե ինչ է, թե ինչ է, թե ինչ է, թե ինչ է, թե ինչ է, թե ինչ է, թե ինչ է, թե ինչ է, թե ինչ է, թե ինչ է, թե ինչ է, թե ինչ է, թե ինչ է, թե ինչ է, թե ինչ է, թե ինչ է, թե ինչ է:





• Image-Text Misalignment between Concepts in Pretraining Data:Տեսակները սովորաբար հայտնվում են մեկ մոդուլում, բայց ոչ մի այլ, որը նշանակում է, որ կարեւոր սխալավորումը (լուսանկարներ: Tab. 3 in Sec. 5). Մեր ազատված տվյալների բաղադրիչները կարող են օգնել սխալավորման փորձերը մոդուլների սխալավորումը, այնպես որ ճշգրտաբար ցույց են տալիս, թե ինչպես մոդուլները սխալավորվում են: Նշում է, որ երկու մոդուլների միջեւ log-linear ճշգրտությունը ուժեղ է այս սխալավորման համար:





Որպես որ մենք ապահովում ենք հեշտ մանրամասներ generalization կատարման համար multimodal մոդելների, որը վերահսկում է դիզայնի տպագրության տպագրության դասընթացը, մենք ներկայացնում ենք նոր Long-tail test data set, որը կոչվում է:«Մենք պետք է վախենենք!»Գլխավոր մոդելներ, որոնք ուսուցվում են այնպես էլ openly available datasets- ում (հարկե, LAION-2B [103], DataComp-1B [46]) եւ closed-source datasets- ում (հարկե, OpenAI-WIT [91], WebLI [29]))- ում, լայնորեն կանգնած են կատարումը, որը ցույց է տալիս, որ մեր ստուգումները կարող են փոխվել նաեւ closed-source datasets- ում: Մենք բացահայտում ենք բոլոր մեր տվյալների օպտակտները (լայն 300GB- ից ավելի), որը կանգնած է multimodal foundations մոդելների pré-training datasets- ից վերլուծման ծախսերը, որպեսզի ավելի data-centric հասկանալը multimodal մոդել





Կարդալ, թե ինչ է անում, թե ինչ է անում, թե ինչ է անում, թե ինչ է անում, թե ինչ է անում, թե ինչ է անում, թե ինչ է անում, թե ինչ է անում, թե ինչ է անում, թե ինչ է անում, թե ինչ է անում, թե ինչ է անում, թե ինչ է անում, թե ինչ է անում, թե ինչ է անում, թե ինչ է անում, թե ինչ է անում, թե ինչ է անում, թե ինչ է անում, թե ինչ է անում, թե ինչ է անում, թե ինչ է անում, թե ինչ է անում, թե ինչ է անում, թե ինչ է անում, թե ինչ է անում, թե ինչ է անում, թե ինչ է անում, թե ինչ է անում, թե ինչ է անում, թե ինչ է անում, թե ինչ է անում, թե ինչ





Այս գրասենյակը հասանելի է CC BY 4.0 DEED License- ի կողմից.

[1] Class categories for classification tasks, objects in the text subtitles for retrieval tasks, and objects in the text prompts for generating tasks, տեսնել Section 2 համար ավելի մանրամասներ, թե ինչպես մենք սահմանափակում ենք դիզայններ.