लेखक:
(1) जियानहुई पांग, मकाऊ विश्वविद्यालय से, और यह काम तब किया गया था जब जियानहुई पांग और फंगहुआ यी टेनसेंट एआई लैब में इंटर्नशिप कर रहे थे ([email protected]);
(2) फ़ांगहुआ ये, यूनिवर्सिटी कॉलेज लंदन, और यह काम तब किया गया था जब जियानहुई पांग और फ़ांगहुआ ये टेनसेंट एआई लैब ([email protected]) में इंटर्नशिप कर रहे थे;
(3) डेरेक एफ. वोंग, मकाऊ विश्वविद्यालय;
(4) लोंगयुए वांग, टेनसेंट एआई लैब, और संवाददाता लेखक।
3 एंकर-आधारित बड़े भाषा मॉडल
3.2 एंकर-आधारित स्व-ध्यान नेटवर्क
4 प्रयोग और 4.1 हमारा कार्यान्वयन
4.2 डेटा और प्रशिक्षण प्रक्रिया
7 निष्कर्ष, सीमाएँ, नैतिकता कथन और संदर्भ
हमारी जांच में, हम अपने परिणामों का मूल्यांकन करने के लिए अलग-अलग टेक्स्ट लंबाई वाले बेंचमार्क के विविध संग्रह का उपयोग करते हैं, जिसमें ओपनबुकक्यूए (ओबीक्यूए) (मिहैलोव एट अल., 2018), विनोग्रांडे (डब्ल्यूजी) (सकागुची एट अल., 2021), एआरसी-ईज़ी (एआरसी-ई) और एआरसीचैलेंज (एआरसी-सी) (क्लार्क एट अल., 2018), पीआईक्यूए (बिस्क एट अल., 2020), हेलास्वैग (एचएस) (ज़ेलर्स एट अल., 2019), एससीआईक्यू (वेलबल एट अल., 2017), और बूलक्यू (क्लार्क एट अल., 2019) शामिल हैं। ये बेंचमार्क तर्क, समझ, भौतिक दुनिया की समझ और भविष्य की घटनाओं की भविष्यवाणी सहित विभिन्न पहलुओं का व्यापक मूल्यांकन प्रदान करते हैं। महत्वपूर्ण रूप से, वे अलग-अलग लंबाई के पाठों को कवर करते हैं, जिससे विभिन्न कार्यों और पाठ जटिलताओं में हमारे मॉडल के प्रदर्शन का गहन मूल्यांकन करने में सुविधा होती है, जो OBQA में छोटे इनपुट संदर्भों से लेकर BoolQ में लंबे पाठों तक होते हैं। हमारे मॉडलों की सटीकता और दक्षता को मापने के लिए, हम शून्य-शॉट और पाँच-शॉट सेटिंग्स दोनों के लिए तीन अलग-अलग मीट्रिक का उपयोग करके तीन आयामों में उनका मूल्यांकन करते हैं। पाँच-शॉट सेटिंग में AnLLMAC के लिए, हम प्रत्येक प्रदर्शन के अंत में एंकर टोकन को शामिल करते हैं।
• सटीकता (Acc)। इस पारंपरिक मीट्रिक का उपयोग मॉडल की भविष्यवाणी की सटीकता को मापने के लिए किया जाता है। पिछले अध्ययनों (गाओ एट अल., 2023) के अनुसार, हम पूर्वानुमान के रूप में उच्चतम संभावनाओं वाले विकल्पों को चुनते हैं और स्वर्ण-मानक लेबल का उपयोग करके सटीकता की गणना करते हैं।
• कुंजी/मान कैश रिडक्शन (C⇓)। पांच-शॉट मूल्यांकन के संदर्भ में, प्रदर्शनों को बाद में पुनः उपयोग के लिए GPU मेमोरी में कैश किया जा सकता है। फिर भी, विस्तारित प्रदर्शनों के लिए बढ़ी हुई मेमोरी खपत की आवश्यकता हो सकती है। यह मीट्रिक AnSAN तकनीक की मेमोरी दक्षता का आकलन करने के लिए डिज़ाइन किया गया है।
• अनुमान त्वरण अनुपात (T⇑)। वांग एट अल. (2023) के समान, कैश्ड कुंजियों/मानों का लाभ उठाते हुए, हम अनुमान त्वरण अनुपात प्रस्तुत करते हैं, जो AnSAN तकनीक की अनुमान दक्षता के संकेतक के रूप में कार्य करता है।
ध्यान दें कि हम पहले सभी मॉडलों के लिए पूर्ण ध्यान अनुमान परिणामों की रिपोर्ट करते हैं, फिर AnSAN विधि (+AnSAN) लागू करके परिणाम प्रस्तुत करते हैं, अनुक्रम जानकारी को एंकर टोकन में संपीड़ित करते हैं।