यह पेपर CC 4.0 लाइसेंस के तहत arxiv पर उपलब्ध है।   लेखक:  (1) जेमिनी टीम, गूगल।  लिंक की तालिका   सार एवं परिचय   मॉडल वास्तुकला   प्रशिक्षण अवसंरचना   प्रशिक्षण डेटासेट   मूल्यांकन   जिम्मेदार तैनाती   चर्चा एवं निष्कर्ष, सन्दर्भ   योगदान और आभार   अनुबंध  यह रिपोर्ट मल्टीमॉडल मॉडल, जेमिनी, के एक नए परिवार का परिचय देती है, जो छवि, ऑडियो, वीडियो और पाठ समझ में उल्लेखनीय क्षमताओं का प्रदर्शन करता है। जेमिनी परिवार में अल्ट्रा, प्रो और नैनो आकार शामिल हैं, जो जटिल तर्क कार्यों से लेकर ऑन-डिवाइस मेमोरी-बाधित उपयोग-मामलों तक के अनुप्रयोगों के लिए उपयुक्त हैं। बेंचमार्क की एक विस्तृत श्रृंखला पर मूल्यांकन से पता चलता है कि हमारा सबसे सक्षम जेमिनी अल्ट्रा मॉडल इन बेंचमार्क में से 30 में से 30 में अत्याधुनिक है - विशेष रूप से अच्छी तरह से अध्ययन किए गए परीक्षा बेंचमार्क एमएमएलयू पर मानव-विशेषज्ञ प्रदर्शन हासिल करने वाला पहला मॉडल है। और हमारे द्वारा जांचे गए 20 मल्टीमॉडल बेंचमार्क में से प्रत्येक में कला की स्थिति में सुधार करना। हमारा मानना है कि क्रॉस-मोडल तर्क और भाषा समझ में जेमिनी मॉडल की नई क्षमताएं विभिन्न प्रकार के उपयोग के मामलों को सक्षम करेंगी और हम उन्हें उपयोगकर्ताओं के लिए जिम्मेदारी से तैनात करने के प्रति अपने दृष्टिकोण पर चर्चा करते हैं।  1 परिचय  हम जेमिनी प्रस्तुत करते हैं, जो Google में विकसित अत्यधिक सक्षम मल्टीमॉडल मॉडल का एक परिवार है। हमने प्रत्येक संबंधित डोमेन में अत्याधुनिक समझ और तर्क प्रदर्शन के साथ-साथ तौर-तरीकों में मजबूत सामान्यवादी क्षमताओं के साथ एक मॉडल बनाने के उद्देश्य से जेमिनी को छवि, ऑडियो, वीडियो और टेक्स्ट डेटा में संयुक्त रूप से प्रशिक्षित किया।  जेमिनी 1.0, हमारा पहला संस्करण, तीन आकारों में आता है: अत्यधिक जटिल कार्यों के लिए अल्ट्रा, उन्नत प्रदर्शन और बड़े पैमाने पर तैनाती के लिए प्रो, और ऑन-डिवाइस अनुप्रयोगों के लिए नैनो। प्रत्येक आकार को विशेष रूप से विभिन्न कम्प्यूटेशनल सीमाओं और अनुप्रयोग आवश्यकताओं को संबोधित करने के लिए तैयार किया गया है। हम भाषा, कोडिंग, तर्क और मल्टीमॉडल कार्यों की एक विस्तृत श्रृंखला को कवर करने वाले आंतरिक और बाहरी बेंचमार्क के व्यापक सूट पर जेमिनी मॉडल के प्रदर्शन का मूल्यांकन करते हैं।  जेमिनी ने बड़े पैमाने पर भाषा मॉडलिंग में अत्याधुनिक प्रगति की है (अनिल एट अल., 2023; ब्राउन एट अल., 2020; चौधरी एट अल., 2023; हॉफमैन एट अल., 2022; ओपनएआई, 2023ए; रेडफोर्ड एट) अल., 2019; राय एट अल., 2021), इमेज अंडरस्टैंडिंग (एलेराक एट अल., 2022; चेन एट अल., 2022; डोसोवित्स्की एट अल., 2020; ओपनएआई, 2023बी; रीड एट अल., 2022; यू एट अल., 2022ए), ऑडियो प्रोसेसिंग (रेडफोर्ड एट अल., 2023; झांग एट अल., 2023), और वीडियो समझ (अलायराक एट अल., 2022; चेन एट अल., 2023)। यह अनुक्रम मॉडल (सटस्केवर एट अल., 2014), तंत्रिका नेटवर्क पर आधारित गहन शिक्षण में काम का एक लंबा इतिहास (लेकुन एट अल., 2015), और मशीन लर्निंग वितरित सिस्टम (बरहम एट अल.) पर काम पर भी आधारित है। 2022; ब्रैडबरी एट अल., 2018; डीन एट अल., 2012) जो बड़े पैमाने पर प्रशिक्षण को सक्षम बनाता है।  हमारा सबसे सक्षम मॉडल, जेमिनी अल्ट्रा, हमारे द्वारा रिपोर्ट किए गए 32 बेंचमार्क में से 30 में नए अत्याधुनिक परिणाम प्राप्त करता है, जिसमें 12 लोकप्रिय पाठ और तर्क बेंचमार्क में से 10, 9 छवि समझ बेंचमार्क में से 9, 6 वीडियो समझ बेंचमार्क में से 6 शामिल हैं। , और 5 में से 5 वाक् पहचान और वाक् अनुवाद बेंचमार्क। जेमिनी अल्ट्रा एमएमएलयू (हेंड्रिक्स एट अल., 2021ए) पर मानव-विशेषज्ञ प्रदर्शन हासिल करने वाला पहला मॉडल है - परीक्षाओं के एक सेट के माध्यम से ज्ञान और तर्क का परीक्षण करने वाला एक प्रमुख बेंचमार्क - 90% से अधिक स्कोर के साथ। पाठ से परे, जेमिनी अल्ट्रा चुनौतीपूर्ण मल्टीमॉडल तर्क कार्यों पर उल्लेखनीय प्रगति करता है। उदाहरण के लिए, हाल के एमएमएमयू बेंचमार्क (यू एट अल., 2023) पर, जिसमें कॉलेज स्तर के विषय ज्ञान और जानबूझकर तर्क की आवश्यकता वाले बहु-विषयक कार्यों पर छवियों के बारे में प्रश्न शामिल हैं, जेमिनी अल्ट्रा ने एक नया अत्याधुनिक स्कोर हासिल किया है। 62.4% का, पिछले सर्वश्रेष्ठ मॉडल से 5 प्रतिशत से अधिक अंकों से बेहतर प्रदर्शन करते हुए। यह वीडियो प्रश्न उत्तर और ऑडियो समझ बेंचमार्क के लिए एक समान प्रदर्शन लिफ्ट प्रदान करता है।  गुणात्मक मूल्यांकन प्रभावशाली क्रॉसमोडल तर्क क्षमताओं को प्रदर्शित करता है, जो मॉडल को ऑडियो, छवियों और पाठ के इनपुट अनुक्रम को मूल रूप से समझने और तर्क करने में सक्षम बनाता है (चित्र 5 और तालिका 13 देखें)। उदाहरण के तौर पर चित्र 1 में दर्शाई गई शैक्षिक सेटिंग पर विचार करें। एक शिक्षक ने एक स्कीयर के ढलान से नीचे जाने की भौतिकी समस्या तैयार की है, और एक छात्र ने इसके समाधान पर काम किया है। जेमिनी की मल्टीमॉडल तर्क क्षमताओं का उपयोग करते हुए, मॉडल अव्यवस्थित लिखावट को समझने में सक्षम है, समस्या के सूत्रीकरण को सही ढंग से समझता है, समस्या और समाधान दोनों को गणितीय टाइपसेटिंग में परिवर्तित करता है, तर्क के उस विशिष्ट चरण की पहचान करता है जहां छात्र समस्या को हल करने में गलत हो गया, और फिर समस्या का कार्यशील सही समाधान दें। यह रोमांचक शैक्षिक संभावनाओं को खोलता है, और हमारा मानना है कि जेमिनी मॉडल की नई मल्टीमॉडल और तर्क क्षमताओं का कई क्षेत्रों में नाटकीय अनुप्रयोग है।   बड़े भाषा मॉडल की तर्क क्षमताएं सामान्यवादी एजेंटों के निर्माण की दिशा में वादा दिखाती हैं जो अधिक जटिल बहु-चरणीय समस्याओं से निपट सकते हैं। अल्फ़ाकोड टीम ने अल्फ़ाकोड 2 (लेब्लॉन्ड एट अल, 2023) बनाया, जो एक नया जेमिनी-संचालित एजेंट है, जो प्रतिस्पर्धी प्रोग्रामिंग समस्याओं को हल करने में उत्कृष्टता प्राप्त करने के लिए जेमिनी की तर्क क्षमताओं को खोज और टूल-उपयोग के साथ जोड़ता है। अल्फाकोड 2 कोडफोर्सेस प्रतिस्पर्धी प्रोग्रामिंग प्लेटफॉर्म पर शीर्ष 15% प्रवेशकों में शुमार है, जो शीर्ष 50% (ली एट अल., 2022) में अपने अत्याधुनिक पूर्ववर्ती की तुलना में एक बड़ा सुधार है।  साथ में, हम जेमिनी नैनो के साथ दक्षता की सीमा को आगे बढ़ाते हैं, जो ऑन-डिवाइस परिनियोजन को लक्षित करने वाले छोटे मॉडलों की एक श्रृंखला है। ये मॉडल ऑन-डिवाइस कार्यों में उत्कृष्टता प्राप्त करते हैं, जैसे सारांशीकरण, पढ़ने की समझ, पाठ पूरा करने के कार्य, और अपने आकार के सापेक्ष तर्क, एसटीईएम, कोडिंग, मल्टीमॉडल और बहुभाषी कार्यों में प्रभावशाली क्षमताओं का प्रदर्शन करते हैं।  निम्नलिखित अनुभागों में, हम पहले मॉडल वास्तुकला, प्रशिक्षण बुनियादी ढांचे और प्रशिक्षण डेटासेट का अवलोकन प्रदान करते हैं। फिर हम जेमिनी मॉडल परिवार का विस्तृत मूल्यांकन प्रस्तुत करते हैं, जिसमें पाठ, कोड, छवि, ऑडियो और वीडियो में अच्छी तरह से अध्ययन किए गए बेंचमार्क और मानव-वरीयता मूल्यांकन शामिल हैं - जिसमें अंग्रेजी प्रदर्शन और बहुभाषी क्षमताएं दोनों शामिल हैं। हम जिम्मेदार तैनाती के प्रति अपने दृष्टिकोण पर भी चर्चा करते हैं, [2] जिसमें प्रभाव आकलन, मॉडल नीतियों के विकास, मूल्यांकन और तैनाती निर्णयों से पहले नुकसान को कम करने की हमारी प्रक्रिया शामिल है। अंत में, हम जेमिनी के व्यापक निहितार्थों, इसकी सीमाओं के साथ-साथ इसके संभावित अनुप्रयोगों पर चर्चा करते हैं - एआई में अनुसंधान और नवाचार के एक नए युग का मार्ग प्रशस्त करते हैं।  [2] हम जेमिनी अल्ट्रा मॉडल की सामान्य उपलब्धता से पहले इस रिपोर्ट को अधिक विवरण के साथ अपडेट करने की योजना बना रहे हैं।

EScholar Technologies

EScholar

यह ऑडियो कहानी की मूल भाषा में निर्मित है!

जेमिनी - अत्यधिक सक्षम मल्टीमॉडल मॉडल का परिवार: सार और परिचय

About Author

टिप्पणियाँ

लेबल

इस लेख में चित्रित किया गया था

Related Stories

State of the Noonion: A New Era For Brands and Writers

उपयोगकर्ता-केंद्रित क्रिप्टो उत्पाद बनाना: ग्राहक प्रतिक्रिया का महत्व

10 Reasons Why Publishing on HackerNoon Will Skyrocket Your Reach and Impact

He/Him/Master of Discovery

State of the Noonion: A New Era For Brands and Writers

उपयोगकर्ता-केंद्रित क्रिप्टो उत्पाद बनाना: ग्राहक प्रतिक्रिया का महत्व

10 Reasons Why Publishing on HackerNoon Will Skyrocket Your Reach and Impact

He/Him/Master of Discovery

Light-Mode

Classic

Newspaper

Minty

Dark-Mode

Neon Noir

Minty

HN StartUps