लेखक:  (1) जियानहुई पांग, मकाऊ विश्वविद्यालय से, और यह काम तब किया गया था जब जियानहुई पांग और फंगहुआ यी टेनसेंट एआई लैब में इंटर्नशिप कर रहे थे (nlp2ct.pangjh3@gmail.com);  (2) फ़ांगहुआ ये, यूनिवर्सिटी कॉलेज लंदन, और यह काम तब किया गया था जब जियानहुई पांग और फ़ांगहुआ ये टेनसेंट एआई लैब (fanghua.ye.19@ucl.ac.uk) में इंटर्नशिप कर रहे थे;  (3) डेरेक एफ. वोंग, मकाऊ विश्वविद्यालय;  (4) लोंगयुए वांग, टेनसेंट एआई लैब, और संवाददाता लेखक।  लिंक की तालिका   सार और 1 परिचय   2। संबंधित कार्य  3 एंकर-आधारित बड़े भाषा मॉडल   3.1 पृष्ठभूमि   3.2 एंकर-आधारित स्व-ध्यान नेटवर्क   3.3 एंकर-आधारित अनुमान   4 प्रयोग और 4.1 हमारा कार्यान्वयन   4.2 डेटा और प्रशिक्षण प्रक्रिया   4.3 मूल्यांकन   5 परिणाम   6 विश्लेषण   7 निष्कर्ष, सीमाएँ, नैतिकता कथन और संदर्भ   अधिक प्रयोगात्मक परिणाम   बी डेटा सेटिंग्स  4.3 मूल्यांकन  हमारी जांच में, हम अपने परिणामों का मूल्यांकन करने के लिए अलग-अलग टेक्स्ट लंबाई वाले बेंचमार्क के विविध संग्रह का उपयोग करते हैं, जिसमें ओपनबुकक्यूए (ओबीक्यूए) (मिहैलोव एट अल., 2018), विनोग्रांडे (डब्ल्यूजी) (सकागुची एट अल., 2021), एआरसी-ईज़ी (एआरसी-ई) और एआरसीचैलेंज (एआरसी-सी) (क्लार्क एट अल., 2018), पीआईक्यूए (बिस्क एट अल., 2020), हेलास्वैग (एचएस) (ज़ेलर्स एट अल., 2019), एससीआईक्यू (वेलबल एट अल., 2017), और बूलक्यू (क्लार्क एट अल., 2019) शामिल हैं। ये बेंचमार्क तर्क, समझ, भौतिक दुनिया की समझ और भविष्य की घटनाओं की भविष्यवाणी सहित विभिन्न पहलुओं का व्यापक मूल्यांकन प्रदान करते हैं। महत्वपूर्ण रूप से, वे अलग-अलग लंबाई के पाठों को कवर करते हैं, जिससे विभिन्न कार्यों और पाठ जटिलताओं में हमारे मॉडल के प्रदर्शन का गहन मूल्यांकन करने में सुविधा होती है, जो OBQA में छोटे इनपुट संदर्भों से लेकर BoolQ में लंबे पाठों तक होते हैं। हमारे मॉडलों की सटीकता और दक्षता को मापने के लिए, हम शून्य-शॉट और पाँच-शॉट सेटिंग्स दोनों के लिए तीन अलग-अलग मीट्रिक का उपयोग करके तीन आयामों में उनका मूल्यांकन करते हैं। पाँच-शॉट सेटिंग में AnLLMAC के लिए, हम प्रत्येक प्रदर्शन के अंत में एंकर टोकन को शामिल करते हैं।    इस पारंपरिक मीट्रिक का उपयोग मॉडल की भविष्यवाणी की सटीकता को मापने के लिए किया जाता है। पिछले अध्ययनों (गाओ एट अल., 2023) के अनुसार, हम पूर्वानुमान के रूप में उच्चतम संभावनाओं वाले विकल्पों को चुनते हैं और स्वर्ण-मानक लेबल का उपयोग करके सटीकता की गणना करते हैं। • सटीकता (Acc)।    (C⇓)। पांच-शॉट मूल्यांकन के संदर्भ में, प्रदर्शनों को बाद में पुनः उपयोग के लिए GPU मेमोरी में कैश किया जा सकता है। फिर भी, विस्तारित प्रदर्शनों के लिए बढ़ी हुई मेमोरी खपत की आवश्यकता हो सकती है। यह मीट्रिक AnSAN तकनीक की मेमोरी दक्षता का आकलन करने के लिए डिज़ाइन किया गया है। • कुंजी/मान कैश रिडक्शन    (T⇑)। वांग एट अल. (2023) के समान, कैश्ड कुंजियों/मानों का लाभ उठाते हुए, हम अनुमान त्वरण अनुपात प्रस्तुत करते हैं, जो AnSAN तकनीक की अनुमान दक्षता के संकेतक के रूप में कार्य करता है। • अनुमान त्वरण अनुपात  ध्यान दें कि हम पहले सभी मॉडलों के लिए पूर्ण ध्यान अनुमान परिणामों की रिपोर्ट करते हैं, फिर AnSAN विधि (+AnSAN) लागू करके परिणाम प्रस्तुत करते हैं, अनुक्रम जानकारी को एंकर टोकन में संपीड़ित करते हैं।  यह पेपर   है। arxiv पर CC BY 4.0 DEED लाइसेंस के अंतर्गत उपलब्ध

Part of HackerNoon's growing list of open-source research papers, promoting free access to academic material.

Anchoring.tech

Anchoring provides a steady start, grounding decisions and perspectives in clarity and confidence.

anchoring's blog

यह ऑडियो कहानी की मूल भाषा में निर्मित है!

AnLLMs की बेंचमार्किंग: OpenBookQA से BoolQ तक की अंतर्दृष्टि

About Author

टिप्पणियाँ

लेबल

इस लेख में चित्रित किया गया था

Related Stories

फ़ोरम से फ़ीड तक: सोशल मीडिया एल्गोरिदम डिजिटल इंटरैक्शन को कैसे आकार देते हैं

फ्लोकी का वल्लाह भारत के श्रीलंका दौरे के लिए सहयोगी प्रायोजक के रूप में शामिल हुआ

10 Reasons Why Publishing on HackerNoon Will Skyrocket Your Reach and Impact

क्रिप्टो ग्रोथ: प्रभावी उपयोगकर्ता व्यक्तित्व बनाना

फ़ोरम से फ़ीड तक: सोशल मीडिया एल्गोरिदम डिजिटल इंटरैक्शन को कैसे आकार देते हैं

फ्लोकी का वल्लाह भारत के श्रीलंका दौरे के लिए सहयोगी प्रायोजक के रूप में शामिल हुआ

10 Reasons Why Publishing on HackerNoon Will Skyrocket Your Reach and Impact

क्रिप्टो ग्रोथ: प्रभावी उपयोगकर्ता व्यक्तित्व बनाना

Light-Mode

Classic

Newspaper

Minty

Dark-Mode

Neon Noir

Minty

HN StartUps