लेखक:  (1) जियानहुई पांग, मकाऊ विश्वविद्यालय से, और यह काम तब किया गया था जब जियानहुई पांग और फंगहुआ यी टेनसेंट एआई लैब में इंटर्नशिप कर रहे थे (nlp2ct.pangjh3@gmail.com);  (2) फ़ांगहुआ ये, यूनिवर्सिटी कॉलेज लंदन, और यह काम तब किया गया था जब जियानहुई पांग और फ़ांगहुआ ये टेनसेंट एआई लैब (fanghua.ye.19@ucl.ac.uk) में इंटर्नशिप कर रहे थे;  (3) डेरेक एफ. वोंग, मकाऊ विश्वविद्यालय;  (4) लोंगयुए वांग, टेनसेंट एआई लैब, और संवाददाता लेखक।  लिंक की तालिका   सार और 1 परिचय   2। संबंधित कार्य  3 एंकर-आधारित बड़े भाषा मॉडल   3.1 पृष्ठभूमि   3.2 एंकर-आधारित स्व-ध्यान नेटवर्क   3.3 एंकर-आधारित अनुमान   4 प्रयोग और 4.1 हमारा कार्यान्वयन   4.2 डेटा और प्रशिक्षण प्रक्रिया   4.3 मूल्यांकन   5 परिणाम   6 विश्लेषण   7 निष्कर्ष, सीमाएँ, नैतिकता कथन और संदर्भ   अधिक प्रयोगात्मक परिणाम   बी डेटा सेटिंग्स  4.3 मूल्यांकन  हमारी जांच में, हम अपने परिणामों का मूल्यांकन करने के लिए अलग-अलग टेक्स्ट लंबाई वाले बेंचमार्क के विविध संग्रह का उपयोग करते हैं, जिसमें ओपनबुकक्यूए (ओबीक्यूए) (मिहैलोव एट अल., 2018), विनोग्रांडे (डब्ल्यूजी) (सकागुची एट अल., 2021), एआरसी-ईज़ी (एआरसी-ई) और एआरसीचैलेंज (एआरसी-सी) (क्लार्क एट अल., 2018), पीआईक्यूए (बिस्क एट अल., 2020), हेलास्वैग (एचएस) (ज़ेलर्स एट अल., 2019), एससीआईक्यू (वेलबल एट अल., 2017), और बूलक्यू (क्लार्क एट अल., 2019) शामिल हैं। ये बेंचमार्क तर्क, समझ, भौतिक दुनिया की समझ और भविष्य की घटनाओं की भविष्यवाणी सहित विभिन्न पहलुओं का व्यापक मूल्यांकन प्रदान करते हैं। महत्वपूर्ण रूप से, वे अलग-अलग लंबाई के पाठों को कवर करते हैं, जिससे विभिन्न कार्यों और पाठ जटिलताओं में हमारे मॉडल के प्रदर्शन का गहन मूल्यांकन करने में सुविधा होती है, जो OBQA में छोटे इनपुट संदर्भों से लेकर BoolQ में लंबे पाठों तक होते हैं। हमारे मॉडलों की सटीकता और दक्षता को मापने के लिए, हम शून्य-शॉट और पाँच-शॉट सेटिंग्स दोनों के लिए तीन अलग-अलग मीट्रिक का उपयोग करके तीन आयामों में उनका मूल्यांकन करते हैं। पाँच-शॉट सेटिंग में AnLLMAC के लिए, हम प्रत्येक प्रदर्शन के अंत में एंकर टोकन को शामिल करते हैं।    इस पारंपरिक मीट्रिक का उपयोग मॉडल की भविष्यवाणी की सटीकता को मापने के लिए किया जाता है। पिछले अध्ययनों (गाओ एट अल., 2023) के अनुसार, हम पूर्वानुमान के रूप में उच्चतम संभावनाओं वाले विकल्पों को चुनते हैं और स्वर्ण-मानक लेबल का उपयोग करके सटीकता की गणना करते हैं। • सटीकता (Acc)।    (C⇓)। पांच-शॉट मूल्यांकन के संदर्भ में, प्रदर्शनों को बाद में पुनः उपयोग के लिए GPU मेमोरी में कैश किया जा सकता है। फिर भी, विस्तारित प्रदर्शनों के लिए बढ़ी हुई मेमोरी खपत की आवश्यकता हो सकती है। यह मीट्रिक AnSAN तकनीक की मेमोरी दक्षता का आकलन करने के लिए डिज़ाइन किया गया है। • कुंजी/मान कैश रिडक्शन    (T⇑)। वांग एट अल. (2023) के समान, कैश्ड कुंजियों/मानों का लाभ उठाते हुए, हम अनुमान त्वरण अनुपात प्रस्तुत करते हैं, जो AnSAN तकनीक की अनुमान दक्षता के संकेतक के रूप में कार्य करता है। • अनुमान त्वरण अनुपात  ध्यान दें कि हम पहले सभी मॉडलों के लिए पूर्ण ध्यान अनुमान परिणामों की रिपोर्ट करते हैं, फिर AnSAN विधि (+AnSAN) लागू करके परिणाम प्रस्तुत करते हैं, अनुक्रम जानकारी को एंकर टोकन में संपीड़ित करते हैं।  यह पेपर   है। arxiv पर CC BY 4.0 DEED लाइसेंस के अंतर्गत उपलब्ध

Part of HackerNoon's growing list of open-source research papers, promoting free access to academic material.

Anchoring.tech

Anchoring provides a steady start, grounding decisions and perspectives in clarity and confidence.

anchoring's blog

यह ऑडियो कहानी की मूल भाषा में निर्मित है!

AnLLMs की बेंचमार्किंग: OpenBookQA से BoolQ तक की अंतर्दृष्टि

About Author

टिप्पणियाँ

लेबल

इस लेख में चित्रित किया गया था

Related Stories

इन 18 डेवलपर टूल के साथ अपनी उत्पादकता बढ़ाएँ 🚀🔥

सफल क्लाउड माइग्रेशन के लिए संपूर्ण गाइड: रणनीतियाँ और सर्वोत्तम अभ्यास

टेलीग्राम: क्रिप्टो द्वीप का मुख्य भूमि से पुल

He/Him/Master of Discovery

इन 18 डेवलपर टूल के साथ अपनी उत्पादकता बढ़ाएँ 🚀🔥

सफल क्लाउड माइग्रेशन के लिए संपूर्ण गाइड: रणनीतियाँ और सर्वोत्तम अभ्यास

टेलीग्राम: क्रिप्टो द्वीप का मुख्य भूमि से पुल

He/Him/Master of Discovery

Light-Mode

Classic

Newspaper

Minty

Dark-Mode

Neon Noir

Minty

HN StartUps