paint-brush
AnLLMs की बेंचमार्किंग: OpenBookQA से BoolQ तक की अंतर्दृष्टिद्वारा@anchoring

AnLLMs की बेंचमार्किंग: OpenBookQA से BoolQ तक की अंतर्दृष्टि

द्वारा Anchoring2m2024/10/10
Read on Terminal Reader

बहुत लंबा; पढ़ने के लिए

इस खंड में, हम तर्क और समझ कार्यों पर मॉडल के प्रदर्शन का आकलन करने के लिए OpenBookQA और BoolQ सहित कई बेंचमार्क का उपयोग करके AnLLM का मूल्यांकन करते हैं। हम सटीकता, मेमोरी दक्षता (कुंजी/मूल्य कैश कमी) और अनुमान त्वरण को मापते हैं। परिणाम दिखाते हैं कि दक्षता और प्रभावशीलता को बढ़ाने के लिए AnSAN पद्धति का उपयोग करते हुए, विभिन्न संदर्भों में AnLLM कितना अच्छा प्रदर्शन करते हैं।
featured image - AnLLMs की बेंचमार्किंग: OpenBookQA से BoolQ तक की अंतर्दृष्टि
Anchoring HackerNoon profile picture
0-item

लेखक:

(1) जियानहुई पांग, मकाऊ विश्वविद्यालय से, और यह काम तब किया गया था जब जियानहुई पांग और फंगहुआ यी टेनसेंट एआई लैब में इंटर्नशिप कर रहे थे ([email protected]);

(2) फ़ांगहुआ ये, यूनिवर्सिटी कॉलेज लंदन, और यह काम तब किया गया था जब जियानहुई पांग और फ़ांगहुआ ये टेनसेंट एआई लैब ([email protected]) में इंटर्नशिप कर रहे थे;

(3) डेरेक एफ. वोंग, मकाऊ विश्वविद्यालय;

(4) लोंगयुए वांग, टेनसेंट एआई लैब, और संवाददाता लेखक।

लिंक की तालिका

सार और 1 परिचय

2। संबंधित कार्य

3 एंकर-आधारित बड़े भाषा मॉडल

3.1 पृष्ठभूमि

3.2 एंकर-आधारित स्व-ध्यान नेटवर्क

3.3 एंकर-आधारित अनुमान

4 प्रयोग और 4.1 हमारा कार्यान्वयन

4.2 डेटा और प्रशिक्षण प्रक्रिया

4.3 मूल्यांकन

5 परिणाम

6 विश्लेषण

7 निष्कर्ष, सीमाएँ, नैतिकता कथन और संदर्भ


अधिक प्रयोगात्मक परिणाम

बी डेटा सेटिंग्स

4.3 मूल्यांकन

हमारी जांच में, हम अपने परिणामों का मूल्यांकन करने के लिए अलग-अलग टेक्स्ट लंबाई वाले बेंचमार्क के विविध संग्रह का उपयोग करते हैं, जिसमें ओपनबुकक्यूए (ओबीक्यूए) (मिहैलोव एट अल., 2018), विनोग्रांडे (डब्ल्यूजी) (सकागुची एट अल., 2021), एआरसी-ईज़ी (एआरसी-ई) और एआरसीचैलेंज (एआरसी-सी) (क्लार्क एट अल., 2018), पीआईक्यूए (बिस्क एट अल., 2020), हेलास्वैग (एचएस) (ज़ेलर्स एट अल., 2019), एससीआईक्यू (वेलबल एट अल., 2017), और बूलक्यू (क्लार्क एट अल., 2019) शामिल हैं। ये बेंचमार्क तर्क, समझ, भौतिक दुनिया की समझ और भविष्य की घटनाओं की भविष्यवाणी सहित विभिन्न पहलुओं का व्यापक मूल्यांकन प्रदान करते हैं। महत्वपूर्ण रूप से, वे अलग-अलग लंबाई के पाठों को कवर करते हैं, जिससे विभिन्न कार्यों और पाठ जटिलताओं में हमारे मॉडल के प्रदर्शन का गहन मूल्यांकन करने में सुविधा होती है, जो OBQA में छोटे इनपुट संदर्भों से लेकर BoolQ में लंबे पाठों तक होते हैं। हमारे मॉडलों की सटीकता और दक्षता को मापने के लिए, हम शून्य-शॉट और पाँच-शॉट सेटिंग्स दोनों के लिए तीन अलग-अलग मीट्रिक का उपयोग करके तीन आयामों में उनका मूल्यांकन करते हैं। पाँच-शॉट सेटिंग में AnLLMAC के लिए, हम प्रत्येक प्रदर्शन के अंत में एंकर टोकन को शामिल करते हैं।


• सटीकता (Acc)। इस पारंपरिक मीट्रिक का उपयोग मॉडल की भविष्यवाणी की सटीकता को मापने के लिए किया जाता है। पिछले अध्ययनों (गाओ एट अल., 2023) के अनुसार, हम पूर्वानुमान के रूप में उच्चतम संभावनाओं वाले विकल्पों को चुनते हैं और स्वर्ण-मानक लेबल का उपयोग करके सटीकता की गणना करते हैं।


• कुंजी/मान कैश रिडक्शन (C⇓)। पांच-शॉट मूल्यांकन के संदर्भ में, प्रदर्शनों को बाद में पुनः उपयोग के लिए GPU मेमोरी में कैश किया जा सकता है। फिर भी, विस्तारित प्रदर्शनों के लिए बढ़ी हुई मेमोरी खपत की आवश्यकता हो सकती है। यह मीट्रिक AnSAN तकनीक की मेमोरी दक्षता का आकलन करने के लिए डिज़ाइन किया गया है।


• अनुमान त्वरण अनुपात (T⇑)। वांग एट अल. (2023) के समान, कैश्ड कुंजियों/मानों का लाभ उठाते हुए, हम अनुमान त्वरण अनुपात प्रस्तुत करते हैं, जो AnSAN तकनीक की अनुमान दक्षता के संकेतक के रूप में कार्य करता है।


ध्यान दें कि हम पहले सभी मॉडलों के लिए पूर्ण ध्यान अनुमान परिणामों की रिपोर्ट करते हैं, फिर AnSAN विधि (+AnSAN) लागू करके परिणाम प्रस्तुत करते हैं, अनुक्रम जानकारी को एंकर टोकन में संपीड़ित करते हैं।