paint-brush
ओपनसाइटेशन्स मेटा: चर्चाद्वारा@categorize
108 रीडिंग

ओपनसाइटेशन्स मेटा: चर्चा

बहुत लंबा; पढ़ने के लिए

featured image - ओपनसाइटेशन्स मेटा: चर्चा
Categorize.Tech: Organizing the World of Software HackerNoon profile picture
0-item

लेखक:

(1) आर्केंजेलो मसारी, ओपन स्कॉलरली मेटाडेटा के लिए अनुसंधान केंद्र, शास्त्रीय भाषाशास्त्र और इतालवी अध्ययन विभाग, बोलोग्ना विश्वविद्यालय, बोलोग्ना, इटली {[email protected]};

(2) फैबियो मारियानी, दर्शनशास्त्र और कला विज्ञान संस्थान, ल्यूफ़ाना विश्वविद्यालय, ल्यूनेबर्ग, जर्मनी {[email protected]};

(3) इवान हेइबी, ओपन स्कॉलरली मेटाडेटा के लिए अनुसंधान केंद्र, शास्त्रीय भाषाशास्त्र और इतालवी अध्ययन विभाग, बोलोग्ना विश्वविद्यालय, बोलोग्ना, इटली और डिजिटल मानविकी उन्नत अनुसंधान केंद्र (/DH.arc), शास्त्रीय भाषाशास्त्र और इतालवी अध्ययन विभाग, बोलोग्ना विश्वविद्यालय, बोलोग्ना, इटली {[email protected]};

(4) सिल्वियो पेरोनी, ओपन स्कॉलरली मेटाडेटा के लिए अनुसंधान केंद्र, शास्त्रीय भाषाशास्त्र और इतालवी अध्ययन विभाग, बोलोग्ना विश्वविद्यालय, बोलोग्ना, इटली और डिजिटल मानविकी उन्नत अनुसंधान केंद्र (/DH.arc), शास्त्रीय भाषाशास्त्र और इतालवी अध्ययन विभाग, बोलोग्ना विश्वविद्यालय, बोलोग्ना, इटली {[email protected]};

(5) डेविड शॉटन, ऑक्सफोर्ड ई-रिसर्च सेंटर, ऑक्सफोर्ड विश्वविद्यालय, ऑक्सफोर्ड, यूनाइटेड किंगडम {[email protected]}।

लिंक की तालिका

5. चर्चा

जैसा कि सेक्शन 2 में दिखाया गया है, जब केवल सिमेंटिक प्रकाशन डेटासेट पर विचार किया जाता है, तो ओपनसाइटेशन मेटा, जिसमें वर्तमान में क्रॉसरेफ़, डेटासाइट और एनआईएच ओपन साइटेशन कलेक्शन (आईसाइट एट अल., 2022) से डेटा शामिल है, डेटा वॉल्यूम में पहले स्थान पर है। इसके अलावा, जापान लिंक सेंटर (हारा, 2020), ओपनएआईआरई रिसर्च ग्राफ (एट्ज़ोरी एट अल., 2017) और ड्रायड डिजिटल रिपॉजिटरी (विज़न, 2010) जैसे नए स्रोतों से डेटा प्राप्त करने के लिए काम पहले से ही चल रहा है।


ओपन एआईआरई रिसर्च ग्राफ की तुलना में, ओपनसाइटेशन मेटा में कार्यक्षमता के मामले में लाभ हैं: अर्थात् ओएमआईडी का उपयोग, वैश्विक रूप से अद्वितीय स्थायी पहचानकर्ता जो ओपनसाइटेशन मेटा के भीतर प्रत्येक इकाई की पहचान करने के लिए आंतरिक रूप से उपयोग किए जाते हैं। यह उपयोग ग्रंथसूची संसाधनों के बीच उद्धरणों को दर्शाना और अनुक्रमित करना संभव बनाता है जिसमें डिजिटल ऑब्जेक्ट आइडेंटिफ़ायर (DOI) जैसे बाहरी स्थायी पहचानकर्ता की कमी होती है। यह सुविधा ओपनसाइटेशन इंडेक्स के लिए महत्वपूर्ण मूल्य जोड़ती है, क्योंकि यह पहली बार कई उद्धरणों के अंतर्ग्रहण की अनुमति देती है जिन्हें अब तक चिह्नित करना संभव नहीं था, विशेष रूप से मानविकी और सामाजिक विज्ञान (गोराइज़ एट अल., 2016) के प्रकाशनों के बीच उद्धरण, और प्राथमिक स्रोतों से जुड़े उद्धरण, जैसे कि एक मूर्ति, एक पेंटिंग, या एक कोडेक्स, जिसमें आमतौर पर एक स्थायी पहचानकर्ता की कमी होती है। महत्वपूर्ण बात यह है कि OMID होने से पहचाने गए संसाधन को एक विशिष्ट URL भी प्रदान किया जा सकता है, उदाहरण के लिए omid:br/061401975837 के लिए https://w3id.org/oc/meta/br/061401975837.


एक और विशेषता जो, हमारी जानकारी के अनुसार, केवल OpenCitations Meta में मौजूद है, वह है RDF में संग्रहीत उद्गम सूचना के भीतर परिवर्तन-ट्रैकिंग प्रबंधन के लिए तंत्र। इस जानकारी को पायथन टाइमएग्नोस्टिक-लाइब्रेरी सॉफ़्टवेयर (मासारी और पेरोनी, 2022) का उपयोग करके क्वेरी किया जा सकता है। यह टाइम-ट्रैवर्सल SPARQL क्वेरी कर सकता है, यानी उद्गम सूचना के साथ-साथ विभिन्न स्नैपशॉट में क्वेरी।


जहाँ तक अन्य ग्रंथसूची डेटासेट की बात है जो सिमेंटिक वेब तकनीकों का उपयोग नहीं करते हैं, ओपनएलेक्स (प्रीम एट अल., 2022) ओपनसाइटेशन मेटा के साथ तुलना के लिए विचार करने के लिए एक महत्वपूर्ण मामला है। ओपनएलेक्स लापता मेटाडेटा को जोड़ने के लिए वेब क्रॉल का उपयोग करता है, एक ऐसी सुविधा जो इसे ओपनसाइटेशन मेटा की तुलना में स्रोतों के डेटा में दिखाई देने वाली अधिक संख्या में त्रुटियों को स्वचालित रूप से ठीक करने की अनुमति देती है।


दरअसल, वर्तमान में, OpenCitations मेटा की मुख्य सीमा डेटा की गुणवत्ता से संबंधित है, जो स्रोतों की गुणवत्ता पर पूरी तरह से निर्भर है। क्रॉसरेफ़ प्रकाशकों द्वारा प्रदान किए गए मेटाडेटा की दोबारा जाँच नहीं करता है, और इस प्रकार कई त्रुटियाँ संरक्षित रहती हैं। उदाहरण के लिए, भविष्य में प्रकाशित लेखों का सामना करना संभव है (https://api.crossref.org/v1/works/10.12960/tsh.2020.0006 पर उपलब्ध मेटाडेटा कहता है कि लेख 2029 में प्रिंट में प्रकाशित होगा)। इनमें से कुछ त्रुटियों को बिना किसी पृष्ठभूमि ज्ञान के स्वचालित रूप से ठीक किया जा सकता है, जबकि अन्य के लिए वेब क्रॉलर या मैन्युअल हस्तक्षेप की आवश्यकता होती है। जबकि OpenAlex वेब क्रॉल के मार्ग का अनुसरण कर रहा है, OpenCitations एक ऐसे ढाँचे पर काम कर रहा है जो विश्वसनीय मानव डोमेन विशेषज्ञों (जैसे अकादमिक लाइब्रेरियन) द्वारा डेटा के संपादन और क्यूरेशन की अनुमति देगा।


ओपनसाइटेशन मेटा ओपनसाइटेशन इंडेक्स के भीतर उद्धरणों में शामिल उद्धृत और उद्धृत प्रकाशनों का वर्णन करने के लिए आवश्यक ग्रंथसूची मेटाडेटा को धारण करके अपना प्राथमिक उद्देश्य पूरा करता है। हालाँकि, इन ग्रंथसूची मेटाडेटा तत्वों के अलावा, हम अच्छी तरह से जानते हैं कि अकादमिक समुदाय के लिए बहुत महत्व के अतिरिक्त मेटाडेटा तत्व हैं: सार, पाठ खनन, डोमेन और विषय क्षेत्र निर्धारण और अनुक्रमण के लिए (भले ही प्रकाशनों के पूर्ण पाठ अन्यत्र खुली पहुँच में उपलब्ध हों), और फ़ंडर आईडी, फ़ंडिंग जानकारी और संस्थागत पहचानकर्ता, प्रदर्शन मीट्रिक निर्धारित करने और अनुसंधान मूल्यांकन करने के लिए आवश्यक हैं। एक बार जब हम अपने पाठ्य खोज संचालन का प्रावधान पूरा कर लेते हैं, बताए गए तरीकों से अपने कवरेज का विस्तार कर लेते हैं, और कम्प्यूटेशनल इंफ्रास्ट्रक्चर को बढ़ा लेते हैं जिस पर ओपनसाइटेशन मेटा और ओपनसाइटेशन इंडेक्स चलते हैं, तो हम इन अतिरिक्त मेटाडेटा फ़ील्ड को एकीकृत और पॉपुलेट करने के लिए आगे बढ़ेंगे।


उच्च गुणवत्ता वाले ग्रंथसूची मेटाडेटा का प्रावधान स्वचालित संचालन द्वारा प्राप्त करने के लिए एक जटिल और कठिन लक्ष्य है, जबकि संचालन का पैमाना रिकॉर्ड के अल्पसंख्यक को छोड़कर मैन्युअल क्यूरेशन को रोकता है। वर्तमान में कोई भी ग्रंथसूची डेटासेट अपने आप इस लक्ष्य को प्राप्त करने में सक्षम नहीं है। इस कारण से, सभी उपलब्ध ग्रंथसूची डेटाबेस को पूरक के रूप में देखा जाना चाहिए। उदाहरण के लिए, जबकि इस समय ओपनएलेक्स बेहतर गुणवत्ता वाला मेटाडेटा प्रदान करता है, ओपनसाइटेशन मेटा में पूर्ण सिद्धता डेटा खुले तौर पर उपलब्ध है, और सिमेंटिक वेब प्रौद्योगिकियों द्वारा दी गई संभावनाओं के कारण अधिक जटिल खोजों को सक्षम बनाता है। उदाहरण के लिए, "2009 के बाद स्प्रिंगर द्वारा प्रकाशित सम्मेलन कार्यवाही में सिल्वियो पेरोनी या फैबियो विटाली के साथ सह-लेखन करने वाले सभी लेखकों की खोज करें"। इसके अलावा, ओपनएलेक्स केवल आंशिक रूप से मुफ़्त है, क्योंकि एपीआई के माध्यम से प्रति दिन एक लाख से अधिक अनुरोध करने और एपीआई के माध्यम से हर घंटे अपडेट किए गए डेटा तक पहुँचने के लिए शुल्क का भुगतान करना होगा (डंप के माध्यम से हर महीने के बजाय) [9]। इसके विपरीत, उपयोगकर्ता ओपनसाइटेशन मेटा के नवीनतम संस्करण के लिए मुफ्त में असीमित अनुरोध कर सकते हैं।


इसके अलावा, हालांकि ओपनएआईआरई रिसर्च ग्राफ में वर्तमान में अधिक मेटाडेटा है, ऐसे डेटा को सीसी-बीवाई एट्रिब्यूशन लाइसेंस के तहत जारी किया जाता है, जबकि ओपनसाइटेशंस मेटा द्वारा जारी डेटा सीसी0 पब्लिक डोमेन छूट के तहत है, जो वाणिज्यिक पुन: उपयोग सहित पुन: उपयोग के लिए पूर्ण स्वतंत्रता देता है, और बिना किसी एट्रिब्यूशन की आवश्यकता के मशीन प्रसंस्करण के लिए अनुमति देता है।


यह पेपर CC 4.0 DEED लाइसेंस के अंतर्गत arxiv पर उपलब्ध है।