लेखक: (1) जियानहुई पांग, मकाऊ विश्वविद्यालय से, और यह काम तब किया गया था जब जियानहुई पांग और फंगहुआ यी टेनसेंट एआई लैब में इंटर्नशिप कर रहे थे (nlp2ct.pangjh3@gmail.com); (2) फ़ांगहुआ ये, यूनिवर्सिटी कॉलेज लंदन, और यह काम तब किया गया था जब जियानहुई पांग और फ़ांगहुआ ये टेनसेंट एआई लैब (fanghua.ye.19@ucl.ac.uk) में इंटर्नशिप कर रहे थे; (3) डेरेक एफ. वोंग, मकाऊ विश्वविद्यालय; (4) लोंगयुए वांग, टेनसेंट एआई लैब, और संवाददाता लेखक। लिंक की तालिका सार और 1 परिचय 2। संबंधित कार्य 3 एंकर-आधारित बड़े भाषा मॉडल 3.1 पृष्ठभूमि 3.2 एंकर-आधारित स्व-ध्यान नेटवर्क 3.3 एंकर-आधारित अनुमान 4 प्रयोग और 4.1 हमारा कार्यान्वयन 4.2 डेटा और प्रशिक्षण प्रक्रिया 4.3 मूल्यांकन 5 परिणाम 6 विश्लेषण 7 निष्कर्ष, सीमाएँ, नैतिकता कथन और संदर्भ अधिक प्रयोगात्मक परिणाम बी डेटा सेटिंग्स 4.3 मूल्यांकन हमारी जांच में, हम अपने परिणामों का मूल्यांकन करने के लिए अलग-अलग टेक्स्ट लंबाई वाले बेंचमार्क के विविध संग्रह का उपयोग करते हैं, जिसमें ओपनबुकक्यूए (ओबीक्यूए) (मिहैलोव एट अल., 2018), विनोग्रांडे (डब्ल्यूजी) (सकागुची एट अल., 2021), एआरसी-ईज़ी (एआरसी-ई) और एआरसीचैलेंज (एआरसी-सी) (क्लार्क एट अल., 2018), पीआईक्यूए (बिस्क एट अल., 2020), हेलास्वैग (एचएस) (ज़ेलर्स एट अल., 2019), एससीआईक्यू (वेलबल एट अल., 2017), और बूलक्यू (क्लार्क एट अल., 2019) शामिल हैं। ये बेंचमार्क तर्क, समझ, भौतिक दुनिया की समझ और भविष्य की घटनाओं की भविष्यवाणी सहित विभिन्न पहलुओं का व्यापक मूल्यांकन प्रदान करते हैं। महत्वपूर्ण रूप से, वे अलग-अलग लंबाई के पाठों को कवर करते हैं, जिससे विभिन्न कार्यों और पाठ जटिलताओं में हमारे मॉडल के प्रदर्शन का गहन मूल्यांकन करने में सुविधा होती है, जो OBQA में छोटे इनपुट संदर्भों से लेकर BoolQ में लंबे पाठों तक होते हैं। हमारे मॉडलों की सटीकता और दक्षता को मापने के लिए, हम शून्य-शॉट और पाँच-शॉट सेटिंग्स दोनों के लिए तीन अलग-अलग मीट्रिक का उपयोग करके तीन आयामों में उनका मूल्यांकन करते हैं। पाँच-शॉट सेटिंग में AnLLMAC के लिए, हम प्रत्येक प्रदर्शन के अंत में एंकर टोकन को शामिल करते हैं। इस पारंपरिक मीट्रिक का उपयोग मॉडल की भविष्यवाणी की सटीकता को मापने के लिए किया जाता है। पिछले अध्ययनों (गाओ एट अल., 2023) के अनुसार, हम पूर्वानुमान के रूप में उच्चतम संभावनाओं वाले विकल्पों को चुनते हैं और स्वर्ण-मानक लेबल का उपयोग करके सटीकता की गणना करते हैं। • सटीकता (Acc)। (C⇓)। पांच-शॉट मूल्यांकन के संदर्भ में, प्रदर्शनों को बाद में पुनः उपयोग के लिए GPU मेमोरी में कैश किया जा सकता है। फिर भी, विस्तारित प्रदर्शनों के लिए बढ़ी हुई मेमोरी खपत की आवश्यकता हो सकती है। यह मीट्रिक AnSAN तकनीक की मेमोरी दक्षता का आकलन करने के लिए डिज़ाइन किया गया है। • कुंजी/मान कैश रिडक्शन (T⇑)। वांग एट अल. (2023) के समान, कैश्ड कुंजियों/मानों का लाभ उठाते हुए, हम अनुमान त्वरण अनुपात प्रस्तुत करते हैं, जो AnSAN तकनीक की अनुमान दक्षता के संकेतक के रूप में कार्य करता है। • अनुमान त्वरण अनुपात ध्यान दें कि हम पहले सभी मॉडलों के लिए पूर्ण ध्यान अनुमान परिणामों की रिपोर्ट करते हैं, फिर AnSAN विधि (+AnSAN) लागू करके परिणाम प्रस्तुत करते हैं, अनुक्रम जानकारी को एंकर टोकन में संपीड़ित करते हैं। यह पेपर है। arxiv पर CC BY 4.0 DEED लाइसेंस के अंतर्गत उपलब्ध