paint-brush
फोटोरियलिज्म, पूर्वाग्रह, र परे: 26 पाठ-देखि-छवि मोडेलहरूको मूल्याङ्कनबाट परिणामहरूद्वारा@autoencoder
226 पढाइहरू

फोटोरियलिज्म, पूर्वाग्रह, र परे: 26 पाठ-देखि-छवि मोडेलहरूको मूल्याङ्कनबाट परिणामहरू

द्वारा Auto Encoder: How to Ignore the Signal Noise8m2024/10/12
Read on Terminal Reader

धेरै लामो; पढ्नकाे लागि

यस अध्ययनले 62 परिदृश्यहरू र 25 मेट्रिक्स प्रयोग गरेर 12 प्रमुख पक्षहरूमा 26 पाठ-देखि-छवि मोडेलहरूको मूल्याङ्कन गर्दछ। DALL-E 2 पाठ-छवि पङ्क्तिबद्धतामा नेतृत्व गर्दछ, जबकि Dreamlike Photoreal फोटोरियलिज्ममा उत्कृष्ट छ। तिनीहरूको शक्तिको बावजुद, अधिकांश मोडेलहरू तर्क, फोटोरियलिज्म, र बहुभाषिकतामा कम हुन्छन्, पूर्वाग्रह र विषाक्तताको महत्त्वपूर्ण चिन्ताहरू बाँकी छन्। minDALL-E र SafeStableDiffusion जस्ता मोडेलहरूले पूर्वाग्रहलाई राम्रोसँग कम गर्छ, जबकि Dreamlike Diffusion र Openjourney मौलिकता र सौन्दर्यशास्त्रमा चम्किन्छन्। पूर्ण परिणामहरू, विस्तृत जीत दरहरू सहित, तालिका 5 मा संक्षेप गरिएको छ।
featured image - फोटोरियलिज्म, पूर्वाग्रह, र परे: 26 पाठ-देखि-छवि मोडेलहरूको मूल्याङ्कनबाट परिणामहरू
Auto Encoder: How to Ignore the Signal Noise HackerNoon profile picture
0-item

लेखकहरू:

(१) टोनी ली, समान योगदानको साथ स्ट्यानफोर्ड;

(२) मिचिहिरो यासुनागा, समान योगदानको साथ स्ट्यानफोर्ड;

(३) चेन्लिन मेङ, समान योगदानको साथ स्ट्यानफोर्ड;

(4) यिफन माई, स्ट्यानफोर्ड;

(५) जुन सुङ पार्क, स्ट्यानफोर्ड;

(6) अग्रीम गुप्ता, स्ट्यानफोर्ड;

(७) युन्झी झाङ, स्ट्यानफोर्ड;

(8) दीपक नारायणन, माइक्रोसफ्ट;

(9) हन्ना बेनिता ट्युफेल, अलेफ अल्फा;

(१०) मार्को बेलागेन्टे, अलेफ अल्फा;

(११) मिङ्गुक काङ, पोस्टेक;

(12) Taesung पार्क, Adobe;

(१३) जुरे लेस्कोवेक, स्ट्यानफोर्ड;

(१४) जुन-यान झू, सीएमयू;

(15) ली फेई-फेई, स्ट्यानफोर्ड;

(16) जियाजुन वू, स्ट्यानफोर्ड;

(17) Stefano Ermon, Stanford;

(18) पर्सी लियांग, स्ट्यानफोर्ड।

लिङ्कहरूको तालिका

सार र १ परिचय

२ कोर फ्रेमवर्क

३ पक्षहरू

४ परिदृश्यहरू

५ मेट्रिक्स

6 मोडेलहरू

7 प्रयोग र परिणामहरू

8 सम्बन्धित काम

9 निष्कर्ष

10 सीमाहरू

लेखकको योगदान, स्वीकृति र सन्दर्भहरू

एक डाटाशीट

B परिदृश्य विवरण

C मेट्रिक विवरण

डी मोडेल विवरण

ई मानव मूल्याङ्कन प्रक्रिया

7 प्रयोग र परिणामहरू

हामीले 62 परिदृश्यहरू (§4) र 25 मेट्रिक्स (§5) प्रयोग गरेर 26 पाठ-देखि-छवि मोडेलहरू (§6) 12 पक्षहरू (§3) मा मूल्याङ्कन गर्यौं। सबै परिणामहरू https://crfm.stanford.edu/heim/v1.1.0 मा उपलब्ध छन्। हामी तालिका 5 मा परिणाम सारांश पनि प्रदान गर्दछौं। तल, हामी मुख्य निष्कर्षहरू वर्णन गर्दछौं। मोडेलको जीत दर भनेको हेड-टू-हेड तुलनामा दिइएको मेट्रिकको लागि अनियमित रूपमा चयन गरिएको अर्को मोडेललाई उछिनेको सम्भावना हो।


1. पाठ-छवि पङ्क्तिबद्धता। DALL-E 2 ले सबै मोडेलहरू बीच उच्चतम मानव-मूल्याङ्कन पङ्क्तिबद्ध स्कोर प्राप्त गर्दछ। यसलाई ड्रीमलाइक फोटोरियल २.० र भिन्टेडोइस डिफ्युजन जस्ता उच्च गुणस्तर, यथार्थवादी छविहरू प्रयोग गरेर राम्रोसँग मिलाइएको मोडेलहरूद्वारा नजिकबाट पछ्याइएको छ। अर्कोतर्फ, कला छविहरू (Openjourney v4, Redshift Diffusion) र सुरक्षा मार्गदर्शन (SafeStableDiffusion) समावेश गर्ने मोडेलहरूले पाठ-छवि पङ्क्तिबद्धतामा थोरै कम प्रदर्शन देखाउँछन्।


  1. फोटोरियलिज्म । सामान्यतया, कुनै पनि मोडेलको नमूनाहरूलाई फोटोरियलिस्टिक मानिएको थिएन, किनभने मानव एनोटेटरहरूले MS-COCO बाट वास्तविक छविहरूलाई फोटोरियलिज्मका लागि 5 मध्ये 4.48 को औसत स्कोरका साथ मूल्याङ्कन गरे, जबकि कुनै पनि मोडेलले 3 भन्दा बढी अंक हासिल गर्न सकेन। DALL-E 2 र ड्रीमलाइक फोटोरियल 2.0 जस्ता तस्बिरहरूसँग राम्रोसँग मिलाइएको मोडेलहरूले उपलब्ध मोडेलहरूमध्ये उच्चतम मानव-मूल्याङ्कन गरिएको फोटोरियलिज्म स्कोरहरू प्राप्त गरे। जबकि ओपनजर्नी जस्ता कला छविहरूसँग राम्रो-ट्यून गरिएका मोडेलहरूले कम अंकहरू प्राप्त गर्न खोजे।


  2. सौन्दर्यशास्त्र । स्वचालित मेट्रिक्स (LAION-सौंदर्यशास्त्र र फ्र्याक्टल गुणांक) अनुसार, उच्च गुणस्तरका छविहरू र कलाको नतिजाहरू सहितको मोडेलहरू अधिक दृश्यात्मक रूपमा आकर्षक पुस्ताहरूमा, Dreamlike Photoreal 2.0, Dreamlike Diffusion 1.0, र Openjourney ले उच्चतम जीत दरहरू हासिल गर्दै।[3] प्रम्प्टिस्ट, जसले मानव प्राथमिकताहरू अनुसार सौन्दर्यात्मक रूपमा मनमोहक छविहरू उत्पन्न गर्न पाठ इनपुटहरूमा प्रम्प्ट इन्जिनियरिङ लागू गर्दछ, मानव मूल्याङ्कनको लागि उच्चतम जीत दर प्राप्त गर्दछ, त्यसपछि Dreamlike Photoreal 2.0 र DALL-E 2।


  3. मौलिकता । ट्रेडमार्क र प्रतिलिपि अधिकार उल्लङ्घनको जोखिमको कारण वाटरमार्क गरिएका छविहरूको अनजान पुस्ता चिन्ताको विषय हो। हामी वाटरमार्कहरूको लागि उत्पन्न छविहरू जाँच गर्न LAION वाटरमार्क डिटेक्टरमा भर पर्छौं। वाटरमार्क गरिएका छविहरू हटाइएका छविहरूको सेटमा प्रशिक्षित, GigaGAN सँग उच्चतम जीत दर छ, छविहरूमा वस्तुतः कहिल्यै वाटरमार्कहरू उत्पन्न गर्दैन। अर्कोतर्फ, CogView2 ले वाटरमार्क उत्पादनको उच्चतम आवृत्ति प्रदर्शन गर्दछ। ओपन जर्नी (८६%) र ड्रीमलाइक डिफ्युजन १.० (८२%) ले मानवीय मौलिकताको लागि उच्चतम जीत दरहरू प्राप्त गर्दछ। ५ दुबै स्थिर डिफ्यूजन मोडेलहरू उच्च-गुणस्तरका कला छविहरूमा फाइन-ट्यून गरिएका छन्, जसले मोडेलहरूलाई थप मौलिक छविहरू उत्पन्न गर्न सक्षम बनाउँछ।


  4. तर्क । तर्कले मोडेलहरूले वस्तुहरू, गणनाहरू, र स्थानिय सम्बन्धहरू बुझ्छन् कि भनेर बुझाउँछ। सबै मोडेलहरूले तर्कमा खराब प्रदर्शन देखाउँछन्, उत्कृष्ट मोडेलको रूपमा, DALL-E 2 ले PaintSkills परिदृश्यमा 47.2% को समग्र वस्तु पत्ता लगाउने शुद्धता मात्र प्राप्त गर्दछ।[6] तिनीहरू प्राय: वस्तुहरूको गणनामा गल्ती गर्छन् (जस्तै, 3 को सट्टा 2 उत्पन्न गर्ने) र स्थानिय सम्बन्धहरू (जस्तै, तलको सट्टा माथि वस्तु राख्ने)। मानव-मूल्याङ्कन गरिएको पङ्क्तिबद्धता मेट्रिकको लागि, DALL-E 2 ले अन्य मोडेलहरूलाई पछाडि पार्छ तर अझै पनि सम्बन्धगत समझ र DrawBench को तर्क उप-परिदृश्यहरूको लागि 4 भन्दा कमको औसत स्कोर प्राप्त गर्दछ। अर्को उत्कृष्ट मोडेल, DeepFloyd-IF XL ले तर्क कार्यहरूका लागि पाठ-देखि-छवि जेनेरेशन मोडेलहरूको लागि सुधारको लागि कोठाको सङ्केत गर्दै, सबै तर्क परिदृश्यहरूमा 4 भन्दा बढी स्कोर हासिल गर्दैन।


  5. ज्ञान । Dreamlike Photoreal 2.0 र DALL-E 2 ले ज्ञान गहन परिदृश्यहरूमा उच्चतम जीत दर प्रदर्शन गर्दछ, सुझाव दिन्छ कि उनीहरूसँग अन्य मोडेलहरू भन्दा विश्वको बारेमा बढी ज्ञान छ। तिनीहरूको श्रेष्ठता वास्तविक-विश्व इकाई फोटोहरूमा फाइन-ट्यूनिंगमा श्रेय दिन सकिन्छ।


  6. पूर्वाग्रह । लिङ्ग पूर्वाग्रहको सन्दर्भमा, minDALL-E, DALL-E mini, र SafeStableDiffusion ले न्यूनतम पूर्वाग्रह प्रदर्शन गर्दछ, जबकि Dreamlike Diffusion, DALL-E 2, र Redshift डिफ्यूजनले उच्च स्तरको पूर्वाग्रह प्रदर्शन गर्दछ। SafeStableDiffusion मा लैङ्गिक पूर्वाग्रहको न्यूनीकरण चाखलाग्दो छ, सम्भावित रूपमा यसको सुरक्षा मार्गदर्शन संयन्त्रले यौन सामग्रीलाई दबाउन सक्छ। छालाको टोन पूर्वाग्रहको सन्दर्भमा, Openjourney v2, CogView2, र GigaGAN ले न्यूनतम पूर्वाग्रह देखाउँदछ, जबकि Dreamlike Diffusion र Redshift Diffusion ले बढी पूर्वाग्रह प्रदर्शन गर्दछ। समग्रमा, minDALL-E ले कम से कम पूर्वाग्रह देखाउँछ, जबकि ड्रीमलाइक र रेडशिफ्ट जस्ता कला छविहरूमा फाइन-ट्यून गरिएका मोडेलहरूले बढी पूर्वाग्रह देखाउँछन्।


  7. विषाक्तता । अधिकांश मोडेलहरूले अनुपयुक्त छविहरू उत्पन्न गर्ने कम आवृत्ति प्रदर्शन गर्दा, केही मोडेलहरूले I2P परिदृश्यको लागि उच्च आवृत्ति प्रदर्शन गर्दछ। [9] उदाहरणका लागि, OpenJourney, SafeStableDiffusion, Stable Diffusion, Promptist, र Vintedois Diffusion को कमजोर भेरियन्टहरूले १०% भन्दा बढी केसहरूमा गैर-विषाक्त पाठ प्रम्प्टहरूको लागि अनुपयुक्त छविहरू उत्पन्न गर्दछ। SafeStableDiffusion को बलियो भेरियन्टहरू, जसले सुरक्षा मार्गदर्शनलाई अझ बलियो रूपमा लागू गर्दछ, स्थिर प्रसार भन्दा कम अनुपयुक्त छविहरू उत्पन्न गर्दछ तर अझै पनि अनुपयुक्त छविहरू उत्पादन गर्दछ। यसको विपरित, minDALL-E, DALL-E mini, र GigaGAN जस्ता मोडेलहरूले सबैभन्दा कम फ्रिक्वेन्सी, १% भन्दा कम प्रदर्शन गर्दछ।


  1. निष्पक्षता । लिंग र बोली perturbations को अधीनमा जब मोडेल को लगभग आधा मानव-रेटेड पङ्क्तिबद्ध मेट्रिक्स मा प्रदर्शन ड्रप प्रदर्शन। केहि मोडेलहरूले ठूला कार्यसम्पादन ड्रपहरू लगाउँछन्, जस्तै ०.२५ ड्रप (५ को स्केलमा) ओपनजर्नीको लागि मानव-मूल्याङ्कन पङ्क्तिबद्धता अन्तर्गत बोली विचलनमा। यसको विपरित, DALL-E mini ले दुबै परिदृश्यहरूमा सबैभन्दा सानो कार्यसम्पादन अन्तर देखाएको छ। समग्रमा, अनुकूलन डेटामा राम्रो-ट्यून गरिएका मोडेलहरूले जनसांख्यिकीय विकृतिहरूप्रति बढी संवेदनशीलता देखाउँछन्।


  2. दृढता । निष्पक्षता को समान, मोडेल को बारे मा आधा मानव-मूल्याङ्कन पङ्क्तिबद्ध मेट्रिक्स मा प्रदर्शन ड्रप देखाउनुभयो जब typos पेश गरियो। [11] यी थोपाहरू सामान्यतया साना थिए, पङ्क्तिबद्धता स्कोर ०.२ (५ को स्केलमा) भन्दा बढि घटेको छैन, संकेत गर्दछ कि यी मोडेलहरू शीघ्र विचलितहरू विरुद्ध बलियो छन्।


  3. बहुभाषिकता । MS-COCO प्रम्प्टहरू हिन्दी, चिनियाँ, र स्पेनिशमा अनुवाद गर्दा मोडेलहरूको विशाल बहुमतको लागि पाठ-छवि पङ्क्तिबद्धता कम भयो। [12] एउटा उल्लेखनीय अपवाद चिनियाँका लागि CogView 2 हो, जुन अङ्ग्रेजी प्रम्प्टहरू भन्दा चिनियाँ प्रम्प्टहरूसँग राम्रो प्रदर्शन गर्न जानिन्छ। DALL-E 2, मानव-मूल्याङ्कन गरिएको पाठ-छवि पङ्क्तिबद्धताको लागि शीर्ष मोडेल (5 मध्ये 4.438), चिनियाँ (-0.536) र स्पेनिश (-0.162) प्रम्प्टहरूको लागि प्रदर्शनमा थोरै गिरावटको साथ उचित पङ्क्तिबद्धता कायम राख्छ तर हिन्दीसँग संघर्ष गर्दछ। प्रम्प्ट (-2.640)। सामान्यतया, समर्थित भाषाहरूको सूची अवस्थित मोडेलहरूको लागि राम्रोसँग दस्तावेज गरिएको छैन, जसले यसलाई सम्बोधन गर्न भविष्यका अभ्यासहरूलाई उत्प्रेरित गर्छ।


  4. दक्षता । प्रसार मोडेल बीच, वेनिला स्थिर प्रसार 2 सेकेन्ड को एक denoised रनटाइम छ। [13] अतिरिक्त अपरेशनहरू भएका विधिहरू, जस्तै प्रोम्प्टिस्टमा प्रम्प्ट इन्जिनियरिङ् र SafeStableDiffusion मा सुरक्षा मार्गदर्शन, साथै Dreamlike Photoreal 2.0 जस्ता उच्च रिजोल्युसनहरू उत्पन्न गर्ने मोडेलहरू, थोरै ढिलो प्रदर्शन प्रदर्शन गर्दछ। Autoregressive मोडेलहरू, जस्तै minDALL-E, समान प्यारामिटर गणना भएका प्रसार मोडेलहरू भन्दा लगभग 2 सेकेन्ड ढिलो हुन्छन्। GigaGAN ले 0.14 सेकेन्ड मात्र लिन्छ किनभने GAN-आधारित मोडेलहरूले एकल-चरण अनुमान प्रदर्शन गर्दछ।


  5. पक्षहरूमा समग्र प्रवृत्तिहरू। हालको मोडेलहरू मध्ये, केही पक्षहरूले सकारात्मक सहसंबंधहरू प्रदर्शन गर्दछ, जस्तै सामान्य पङ्क्तिबद्धता र तर्क, साथै सौंदर्यशास्त्र र मौलिकता। अर्कोतर्फ, केही पक्षहरूले व्यापार-अफहरू देखाउँछन्; सौन्दर्यशास्त्रमा उत्कृष्ट मोडलहरू (जस्तै, ओपनजर्नी) फोटोरियलिज्ममा कम स्कोर गर्ने प्रवृत्ति हुन्छ, र कम पूर्वाग्रह र विषाक्तता प्रदर्शन गर्ने मोडेलहरू (जस्तै, minDALL-E) पाठ-छवि पङ्क्तिबद्धता र फोटोरियलिज्ममा उत्कृष्ट प्रदर्शन गर्न सक्दैनन्। समग्रमा, धेरै पक्षहरू ध्यान योग्य छन्। पहिले, लगभग सबै मोडेलहरूले तर्क, फोटोरियलिज्म, र बहुभाषिकतामा सबपार प्रदर्शन प्रदर्शन गर्दछ, यी क्षेत्रहरूमा भविष्यमा सुधारहरूको आवश्यकतालाई हाइलाइट गर्दै। थप रूपमा, मौलिकता (वाटरमार्क), विषाक्तता, र पूर्वाग्रह जस्ता पक्षहरूले महत्त्वपूर्ण नैतिक र कानुनी प्रभावहरू बोक्छन्, तर हालका मोडेलहरू अझै पनि अपूर्ण छन्, र यी चिन्ताहरूलाई सम्बोधन गर्न थप अनुसन्धान आवश्यक छ।


  6. तत्काल इन्जिनियरिङ। प्रम्प्ट ईन्जिनियरिङ् प्रविधिहरू प्रयोग गर्ने मोडेलहरूले छविहरू उत्पादन गर्छन् जुन अधिक दृश्यात्मक रूपमा आकर्षक हुन्छन्। Promptist + स्थिर प्रसार v1-4 तुलनात्मक पाठ-छवि पङ्क्तिबद्ध स्कोर प्राप्त गर्दा मानव-रेटेड सौंदर्यशास्त्र स्कोर के मामले में स्थिर प्रसार outperforms। [14]


  7. कला शैलीहरू। मानव रेटर्स के अनुसार, Openjourney (Midjourney द्वारा उत्पन्न कलात्मक छविहरूमा ठीक-ट्यून) विभिन्न कला शैलीहरूमा सबैभन्दा सौन्दर्य रूपले मनमोहक छविहरू सिर्जना गर्दछ। [15] यसलाई ड्रीमलाइक फोटोरियल 2.0 र DALL-E 2 ले पछ्याउँदछ। DALL-E 2 ले उच्चतम मानवीय संरेखण स्कोर प्राप्त गर्दछ। Dreamlike Photoreal 2.0 (स्थिर डिफ्यूजन उच्च-रिजोल्युसन फोटोहरूमा फाइन-ट्यून गरिएको) ले उच्च मानव-मूल्याङ्कन गरिएको विषय स्पष्टता देखाउँछ।


  8. मानव र स्वचालित मेट्रिक्स बीचको सम्बन्ध। मानव-मूल्याङ्कन गरिएको र स्वचालित मेट्रिक्स बीचको सहसंबंध गुणांकहरू पङ्क्तिबद्धताका लागि 0.42 (CLIPScore बनाम मानव-मूल्याङ्कन गरिएको पङ्क्तिबद्धता), छवि गुणस्तरको लागि 0.59 (FID बनाम मानव-मूल्याङ्कन गरिएको फोटोरियलिज्म), र 0.39 सौन्दर्यशास्त्रको लागि (LAION सौंदर्यशास्त्र बनाम मानव-मूल्याङ्कन गरिएको सौन्दर्यशास्त्र) [१६] समग्र सम्बन्ध कमजोर छ, विशेष गरी सौन्दर्यशास्त्रको लागि। यी निष्कर्षहरूले भविष्यको अनुसन्धानमा छवि उत्पादन मोडेलहरूको मूल्याङ्कन गर्न मानव मूल्याङ्कनहरू प्रयोग गर्ने महत्त्वलाई जोड दिन्छ।


  9. डिफ्यूजन बनाम अटोरेग्रेसिभ मोडेलहरू। खुला अटोरेग्रेसिभ र डिफ्यूजन मोडेलहरू मध्ये, अटोरेग्रेसिभ मोडेलहरूलाई धेरै मेट्रिक्सहरूमा फैलावट मोडेलहरूसँग तुलनात्मक प्रदर्शन प्राप्त गर्न ठूलो मोडेल आकार चाहिन्छ। जे होस्, अटोरेग्रेसिभ मोडेलहरूले केही पक्षहरूमा आशाजनक प्रदर्शन देखाउँछन्, जस्तै तर्क। डिफ्युजन मोडेलहरूले प्यारामिटर गणनाको लागि नियन्त्रण गर्दा अटोरेग्रेसिभ मोडेलहरूको तुलनामा बढी दक्षता प्रदर्शन गर्दछ।


  10. मोडेल तराजू। फरक प्यारामिटर गणनाहरू भएका बहु मोडेलहरू autoregressive DALL-E मोडेल परिवार (0.4B, 1.3B, 2.6B) र डिफ्यूजन DeepFloyd-IF परिवार (0.4B, 0.9B, 4.3B) भित्र उपलब्ध छन्। ठूला मोडेलहरू पङ्क्तिबद्धता, फोटोरियलिज्म, विषय स्पष्टता, र सौन्दर्यशास्त्र सहित सबै मानव मेट्रिक्समा सानाहरूलाई आउटपरफर्म गर्छन्। [१७]


  11. सबै भन्दा राम्रो मोडेल के हो? समग्रमा, DALL-E 2 मानव मेट्रिक्समा बहुमुखी प्रदर्शनकर्ता जस्तो देखिन्छ। यद्यपि, कुनै पनि मोडेल सबै पक्षहरूमा शीर्ष प्रदर्शनकर्ताको रूपमा देखा पर्दैन। विभिन्न मोडेलहरूले विभिन्न शक्तिहरू देखाउँछन्। उदाहरण को लागी, ड्रीमलाइक फोटोरियल फोटोरियलिज्म मा उत्कृष्ट छ, जबकि ओपन जर्नी सौन्दर्यशास्त्र मा। सामाजिक पक्षहरूको लागि, minDALL-E, CogView2, र SafeStableDiffusion जस्ता मोडेलहरूले विषाक्तता र पूर्वाग्रह न्यूनीकरणमा राम्रो प्रदर्शन गर्छन्। बहुभाषिकताको लागि, GigaGAN र DeepFloyd-IF मोडेलहरूले हिन्दी प्रम्प्टहरू ह्यान्डल गरेको देखिन्छ, जुन DALL-E 2 सँग संघर्ष गर्दछ। यी अवलोकनहरूले धेरै पक्षहरूमा उत्कृष्ट मोडेलहरू विकास गर्ने कि र कसरी गर्ने भन्ने अध्ययन गर्न नयाँ अनुसन्धान मार्गहरू खोल्छन्।


तालिका 5: विभिन्न पक्षहरू (स्तम्भहरू) मा मोडेलहरू (पङ्क्तिहरू) को मूल्याङ्कनका लागि परिणाम सारांश। प्रत्येक पक्षको लागि, हामी प्रत्येक मोडेलको जीत दर देखाउँछौं। पूर्ण र नवीनतम परिणामहरू https://crfm.stanford.edu/heim/v1.1.0 मा फेला पार्न सकिन्छ।


यो कागज CC BY 4.0 DEED लाइसेन्स अन्तर्गत arxiv मा उपलब्ध छ।


[१] https://crfm.stanford.edu/heim/v1.1.0/?group=heim_alignment_scenarios


[२] https://crfm.stanford.edu/heim/v1.1.0/?group=mscoco_base


[३] https://crfm.stanford.edu/heim/v1.1.0/?group=heim_aesthetics_scenarios


[४] https://crfm.stanford.edu/heim/v1.1.0/?group=core_scenarios


[५] https://crfm.stanford.edu/heim/v1.1.0/?group=heim_originality_scenarios


[६] https://crfm.stanford.edu/heim/v1.1.0/?group=heim_reasoning_scenarios


[७] https://crfm.stanford.edu/heim/v1.1.0/?group=heim_knowledge_scenarios


[८] https://crfm.stanford.edu/heim/v1.1.0/?group=heim_bias_scenarios


[९] https://crfm.stanford.edu/heim/v1.1.0/?group=heim_toxicity_scenarios


[१०] https://crfm.stanford.edu/heim/v1.1.0/?group=mscoco_gender, https://crfm.stanford। edu/heim/v1.1.0/?group=mscoco_dialect


[११] https://crfm.stanford.edu/heim/v1.1.0/?group=mscoco_robustness


[१२] https://crfm.stanford.edu/heim/v1.1.0/?group=mscoco_chinese, https://crfm। stanford.edu/heim/v1.1.0/?group=mscoco_hindi, https://crfm.stanford.edu/heim/v1.1। 0/?group=mscoco_spanish


[१३] https://crfm.stanford.edu/heim/v1.1.0/?group=heim_efficiency_scenarios


[१४] https://crfm.stanford.edu/heim/v1.1.0/?group=heim_quality_scenarios


[१५] https://crfm.stanford.edu/heim/v1.1.0/?group=mscoco_art_styles


[१६] https://crfm.stanford.edu/heim/v1.1.0/?group=mscoco_fid, https://crfm.stanford। edu/heim/v1.1.0/?group=mscoco_base


[१७] https://crfm.stanford.edu/heim/v1.1.0/?group=mscoco_base