paint-brush
ओपनसाइटेशंस मेटा: सार और परिचयद्वारा@categorize
106 रीडिंग

ओपनसाइटेशंस मेटा: सार और परिचय

बहुत लंबा; पढ़ने के लिए

featured image - ओपनसाइटेशंस मेटा: सार और परिचय
Categorize.Tech: Organizing the World of Software HackerNoon profile picture
0-item

लेखक:

(1) आर्केंजेलो मसारी, ओपन स्कॉलरली मेटाडेटा के लिए अनुसंधान केंद्र, शास्त्रीय भाषाशास्त्र और इतालवी अध्ययन विभाग, बोलोग्ना विश्वविद्यालय, बोलोग्ना, इटली {[email protected]};

(2) फैबियो मारियानी, दर्शनशास्त्र और कला विज्ञान संस्थान, ल्यूफ़ाना विश्वविद्यालय, ल्यूनेबर्ग, जर्मनी {[email protected]};

(3) इवान हेइबी, ओपन स्कॉलरली मेटाडेटा के लिए अनुसंधान केंद्र, शास्त्रीय भाषाविज्ञान और इतालवी अध्ययन विभाग, बोलोग्ना विश्वविद्यालय, बोलोग्ना, इटली और डिजिटल मानविकी उन्नत अनुसंधान केंद्र (/DH.arc), शास्त्रीय भाषाविज्ञान और इतालवी अध्ययन विभाग, बोलोग्ना विश्वविद्यालय, बोलोग्ना, इटली {[email protected]};

(4) सिल्वियो पेरोनी, ओपन स्कॉलरली मेटाडेटा के लिए अनुसंधान केंद्र, शास्त्रीय भाषाशास्त्र और इतालवी अध्ययन विभाग, बोलोग्ना विश्वविद्यालय, बोलोग्ना, इटली और डिजिटल मानविकी उन्नत अनुसंधान केंद्र (/DH.arc), शास्त्रीय भाषाशास्त्र और इतालवी अध्ययन विभाग, बोलोग्ना विश्वविद्यालय, बोलोग्ना, इटली {[email protected]};

(5) डेविड शॉटन, ऑक्सफोर्ड ई-रिसर्च सेंटर, ऑक्सफोर्ड विश्वविद्यालय, ऑक्सफोर्ड, यूनाइटेड किंगडम {[email protected]}।

लिंक की तालिका

अमूर्त

ओपनसाइटेशन मेटा एक नया डेटाबेस है जिसमें ओपनसाइटेशन इंफ्रास्ट्रक्चर द्वारा अनुक्रमित उद्धरणों में शामिल विद्वानों के प्रकाशनों का ग्रंथसूची मेटाडेटा शामिल है। यह ओपन साइंस सिद्धांतों का पालन करता है और अधिकतम पुन: उपयोग के लिए CC0 लाइसेंस के तहत डेटा प्रदान करता है। डेटा को SPARQL एंडपॉइंट, REST API और डंप के माध्यम से एक्सेस किया जा सकता है। ओपनसाइटेशन मेटा तीन महत्वपूर्ण उद्देश्यों को पूरा करता है। सबसे पहले, यह विभिन्न स्रोतों से अलग-अलग पहचानकर्ताओं का उपयोग करके वर्णित प्रकाशनों के बीच उद्धरणों की अस्पष्टता को सक्षम बनाता है। उदाहरण के लिए, यह क्रॉसरेफ़ में DOI और PubMed में PMID द्वारा पहचाने गए प्रकाशनों को लिंक कर सकता है। दूसरे, यह DOI जैसे मौजूदा बाहरी स्थायी पहचानकर्ताओं के बिना ग्रंथसूची संसाधनों को ओपनसाइटेशन मेटा पहचानकर्ता (OMID) के रूप में जाने जाने वाले नए वैश्विक रूप से स्थायी पहचानकर्ता (PID) प्रदान करता है। अंत में, आंतरिक रूप से ग्रंथसूची मेटाडेटा को होस्ट करके, ओपनसाइटेशन मेटा उद्धृत और उद्धृत दस्तावेजों के लिए मेटाडेटा पुनर्प्राप्ति की गति में सुधार करता है। डेटाबेस को स्वचालित डेटा क्यूरेशन के माध्यम से पॉप्युलेट किया जाता है, जिसमें डीडुप्लीकेशन, त्रुटि सुधार और मेटाडेटा संवर्धन शामिल है। डेटा को ओपनसाइटेशन डेटा मॉडल के अनुसार RDF प्रारूप में संग्रहीत किया जाता है, और परिवर्तन और उद्गम जानकारी को ट्रैक किया जाता है। ओपनसाइटेशन मेटा और इसका उत्पादन। ओपनसाइटेशन मेटा वर्तमान में क्रॉसरेफ़, डेटासाइट और एनआईएच ओपन साइटेशन संग्रह से डेटा को शामिल करता है। सिमेंटिक प्रकाशन डेटासेट के संदर्भ में, यह वर्तमान में डेटा वॉल्यूम में पहला है।



कीवर्ड — विद्वानों के उद्धरण, ग्रंथसूची मेटाडेटा, उद्गम, परिवर्तन-ट्रैकिंग, खुला विज्ञान, ओपनसाइटेशन

1 परिचय

ओपनसाइटेशन्स एक स्वतंत्र गैर-लाभकारी बुनियादी ढांचा संगठन है जो ओपन स्कॉलरशिप के लिए सेमेटिक वेब तकनीकों का उपयोग करके ओपन ग्रंथ सूची और उद्धरण डेटा प्रकाशित करने के लिए समर्पित है। ओपनसाइटेशन विद्वानों के उद्धरणों के बारे में जानकारी संग्रहीत और प्रबंधित करता है, यानी ओपनसाइटेशन इंडेक्स में एक उद्धृत इकाई के साथ एक उद्धृत इकाई को जोड़ने वाले वैचारिक लिंक। अब तक, चार ओपनसाइटेशन इंडेक्स रहे हैं: COCI (https://opencitations.net/index/coci), क्रॉसरेफ़ ओपन DOI-टू-DOI उद्धरणों का ओपनसाइटेशन इंडेक्स (हेइबी एट अल।, 2019b); POCI (https://opencitations.net/index/poci), PubMed ओपन PMID-टू-PMID उद्धरणों का ओपनसाइटेशन इंडेक्स और सीआरओसीआई (https://opencitations.net/index/croci), क्राउडसोर्स्ड ओपन साइटेशन इंडेक्स (हेइबी एट अल., 2019ए)।


जबकि ओपनसाइटेशन इंडेक्स की कवरेज वाणिज्यिक स्वामित्व वाले उद्धरण इंडेक्स के साथ समानता के करीब पहुंच गई है (देखें https://opencitations.hypotheses.org/1420), ओपनसाइटेशन द्वारा पहले संबोधित नहीं किए गए कुछ बकाया मुद्दे हैं।


पहला है उद्धरण अस्पष्टीकरण। कभी-कभी, ग्रंथसूची संसाधनों को कई पहचानकर्ता दिए गए होंगे, जैसे कि DOI और PMID। ऐसे मामलों में, डेटा स्रोत के आधार पर एक ही उद्धरण को अलग-अलग तरीकों से दर्शाया जा सकता है। उदाहरण के लिए, OpenCitations COCI में क्रॉसरेफ़ से प्राप्त मेटाडेटा का उपयोग करके दो प्रकाशनों के बीच एक उद्धरण को DOI-to-DOI उद्धरण के रूप में वर्णित करेगा, और POCI में PubMed से प्राप्त मेटाडेटा का उपयोग करके उसी उद्धरण को PMID-to-PMID उद्धरण के रूप में वर्णित करेगा। यह दोहराव प्रत्येक दस्तावेज़ के इनगोइंग और आउटगोइंग उद्धरणों की संख्या की गणना करते समय समस्याएँ उत्पन्न करता है, जो पुस्तकालयों, पत्रिकाओं और साइंटोमेट्रिक्स अध्ययनों के लिए एक महत्वपूर्ण आँकड़ा है। OpenCitations मेटा का उपयोग हमें ऐसे उद्धरणों की नकल हटाने और उन समस्याओं को हल करने की अनुमति देता है जो इस तरह के दोहराव से अन्यथा उत्पन्न होंगी।


दूसरा, दस्तावेजों को वैश्विक रूप से स्थायी पहचानकर्ता प्रदान करना सभी शैक्षणिक क्षेत्रों में सार्वभौमिक अभ्यास नहीं है। गोराइज़ एट अल. (2016) ने प्रदर्शित किया कि प्राकृतिक और सामाजिक विज्ञान समुदाय कला और मानविकी समुदाय की तुलना में बहुत अधिक हद तक DOI को अपनाते हैं। स्कोपस और वेब ऑफ़ साइंस कोर कलेक्शन पर किए गए उस शोध से यह सामने आया कि विज्ञान और सामाजिक विज्ञान में लगभग 90% प्रकाशन DOI से जुड़े हैं, जबकि कला और मानविकी में यह आँकड़ा केवल 50% है। इसके अलावा, मानविकी के संबंध में, DOI रहित प्राचीन प्राथमिक स्रोतों (जैसे अरस्तू) के उद्धरण कई क्षेत्रों (जैसे इतिहास में) में आवश्यक हैं। यदि किसी दस्तावेज़ में कोई पहचानकर्ता नहीं है, तो इसका मेटाडेटा FAIR सिद्धांतों (विल्किन्सन एट अल., 2016) का सम्मान नहीं करता है कि शैक्षणिक डिजिटल शोध ऑब्जेक्ट खोजने योग्य, सुलभ, इंटरऑपरेबल और पुन: प्रयोज्य होने चाहिए। मेटाडेटा को खोजने योग्य और सुलभ बनाने के लिए वैश्विक रूप से अद्वितीय और स्थायी पहचानकर्ता महत्वपूर्ण है। इसके अलावा, पहचानकर्ता के बिना एक ग्रंथसूची संसाधन FAIR सिद्धांतों का पालन करते हुए इसमें शामिल उद्धरणों को वर्णित होने से रोकता है। यही कारण है कि ओपन साइटेशन डेफ़िनेशन (पेरोनी और शॉटन, 2018) के अनुसार ओपनसाइटेशन इंडेक्स की आबादी को नियंत्रित करते हुए, किसी अनुक्रमित उद्धरण द्वारा लिंक की गई किसी भी दो संस्थाओं को एक ही पहचानकर्ता योजना से आने वाले एक स्थायी पहचानकर्ता द्वारा पहचाना जाना चाहिए, उदाहरण के लिए दोनों DOI के साथ, या दोनों PubMed ID के साथ। उदाहरण के लिए, COCI (हेइबी एट अल., 2019b) केवल उद्धरण जानकारी संग्रहीत करता है जहाँ उद्धृत और उद्धृत संस्थाओं को क्रॉसरेफ़ में वर्णित किया गया है और दोनों में DOI हैं। DOI या अन्य मान्यता प्राप्त PID की कमी वाले प्रकाशनों से जुड़े उद्धरणों को अब तक ओपनसाइटेशन उद्धरण इंडेक्स से बाहर रखा गया है।


लेकिन अब, OpenCitations Meta कई पहचानकर्ताओं द्वारा पहचाने जाने वाले ग्रंथसूची संसाधनों और साथ ही ऐसे ग्रंथसूची संसाधनों द्वारा उत्पन्न समस्याओं का समाधान करता है जिनमें स्थायी पहचानकर्ता नहीं होते हैं, OpenCitations Meta में वर्णित प्रत्येक दस्तावेज़ के लिए एक नया वैश्विक रूप से स्थायी पहचानकर्ता - एक OpenCitations Meta पहचानकर्ता (OMID) जोड़कर। इस तरह, सभी उद्धरणों को OMID-से-OMID उद्धरणों के रूप में दर्शाया जा सकता है (चित्र 1)। OpenCitations Meta में संग्रहीत प्रत्येक इकाई के लिए एक अद्वितीय पहचानकर्ता प्रदान करके, इकाई का OMID प्रत्येक इकाई के लिए उपयोग किए जाने वाले विभिन्न बाहरी पहचानकर्ताओं के बीच एक प्रॉक्सी के रूप में कार्य करता है, जिससे अस्पष्टता को सक्षम किया जा सकता है। इसके अलावा, OpenCitations Meta में सभी विद्वानों के प्रकाशन के लिए मेटाडेटा हो सकता है, जिनमें से प्रत्येक को OMID द्वारा पहचाना जाता है, बिना मेटाडेटा के स्रोत द्वारा प्रदान किए जाने वाले बाहरी स्थायी पहचानकर्ता की अनिवार्य आवश्यकता के।


इस प्रकार, ओपनसाइटेशन मेटा के कारण, अब सभी विद्वानों के प्रकाशनों के मेटाडेटा को ओपनसाइटेशन द्वारा संग्रहीत किया जा सकता है, तथा ऐसे सभी प्रकाशनों को जोड़ने वाले उद्धरणों को एक नए समावेशी ओपनसाइटेशन इंडेक्स में शामिल किया जा सकता है, जिसके अन्य इंडेक्स (सीओसीआई, डीओसीआई, पीओसीआई, आदि) उद्धरण जानकारी के विभिन्न इनपुट स्रोतों के अनुसार उप-इंडेक्स होंगे।


तीसरा ओपनसाइटेशन की सेवाओं का पहले से खराब प्रदर्शन है, विशेष रूप से एपीआई संचालन जो उद्धृत और उद्धृत संसाधनों के मूल ग्रंथसूची मेटाडेटा को वापस करते हैं। ऐसा इसलिए है क्योंकि ओपनसाइटेशन इंडेक्स में अब तक केवल उद्धरण-संबंधित मेटाडेटा (उद्धरणों को अपने स्वयं के मेटाडेटा के साथ प्रथम श्रेणी डेटा इकाइयों के रूप में माना जाता है) शामिल है, लेकिन उद्धृत और उद्धृत इकाइयों (शीर्षक, लेखक, पृष्ठ संख्या, आदि) से संबंधित ग्रंथसूची मेटाडेटा नहीं है। इसके बजाय, उन मेटाडेटा को अब तक क्रॉसरेफ़, ORCID और डेटासाइट जैसी बाहरी सेवाओं के लिए स्पष्ट API अनुरोधों के माध्यम से ऑन-द-फ्लाई प्राप्त किया गया है।


पिछले तीन वर्षों में, ऊपर वर्णित मुद्दों को संबोधित करने के लिए, हमने एक नया ग्रंथसूची मेटाडेटा संग्रह बनाने के लिए अब उपयोग किए जा रहे सॉफ़्टवेयर को विकसित और परीक्षण किया है, जिसका नाम OpenCitations Meta है, जिसे हमने दिसंबर 2022 में लॉन्च किया था। इस डेटाबेस का समर्थन करने वाला सॉफ़्टवेयर ओपन सोर्स है, और https://github.com/opencitations/oc_meta पर उपलब्ध है। OpenCitations Meta द्वारा उजागर किए गए मेटाडेटा में एक विद्वान ग्रंथसूची संसाधन का वर्णन करने वाला मूल ग्रंथसूची मेटाडेटा शामिल है। विशेष रूप से, यह ग्रंथसूची संसाधन (जैसे DOI, PMID, ISSN, और ISBN) के लिए सभी ज्ञात ग्रंथसूची संसाधन पहचानकर्ताओं को संग्रहीत करता है, शीर्षक, प्रकार, प्रकाशन तिथि, पृष्ठ, संसाधन का स्थान और वॉल्यूम और अंक संख्या जहां स्थान एक पत्रिका है। इसके अलावा, OpenCitations Meta में प्रत्येक ग्रंथसूची संसाधन के प्रकाशन में शामिल मुख्य अभिनेताओं के बारे में मेटाडेटा होता है, यानी लेखकों, संपादकों और प्रकाशकों के नाम, जिनमें से प्रत्येक में उनके अपने स्थायी पहचानकर्ता (जैसे ORCID) शामिल होते हैं, जहाँ उपलब्ध हो। हमारा इरादा बाद में अतिरिक्त मेटाडेटा फ़ील्ड (जैसे लेखकों की संस्थाएं और वित्तपोषण संबंधी जानकारी) जोड़ने का है।


चित्र 1: यदि किसी दस्तावेज़ को कई पहचानकर्ताओं द्वारा वर्णित किया जाता है, जैसे कि क्रॉसरेफ़ से DOI और पबमेड से PMID, तो इसमें शामिल उद्धरणों को कई तरीकों से वर्णित किया जा सकता है, जिससे अस्पष्टता और डीडुप्लीकेशन की समस्या पैदा होती है। ओपनसाइटेशन मेटा आइडेंटिफ़ायर का उपयोग विभिन्न बाहरी पहचानकर्ताओं के बीच प्रॉक्सी के रूप में कार्य करके इस समस्या को हल करता है


ओपनसाइटेशन मेटा बनाने की प्रक्रिया को दो चरणों में विभाजित किया जा सकता है। पहले चरण में इनपुट डेटा का क्यूरेशन शामिल है। क्यूरेटोरियल प्रक्रिया त्रुटियों के स्वचालित सुधार, डेटा प्रारूप के मानकीकरण और एक ही आइटम के लिए अलग-अलग मेटाडेटा प्रविष्टियों के डीडुप्लीकेशन से संबंधित है। डीडुप्लीकेशन प्रक्रिया केवल पहचानकर्ताओं पर आधारित है। यह दृष्टिकोण याद रखने की तुलना में सटीकता का पक्षधर है: उदाहरण के लिए, लोगों को केवल तभी डीडुप्लीकेट किया जाता है जब उनके पास एक निर्दिष्ट ORCID होता है, और कभी भी अन्य अनुमानों द्वारा नहीं। सामान्यीकरण और डीडुप्लीकेशन चरणों के बाद, प्रत्येक इकाई को एक ओपनसाइटेशन मेटा आइडेंटिफ़ायर (OMID) सौंपा जाता है, चाहे उसके पास पहले से ही कोई बाहरी स्थायी पहचानकर्ता (जैसे DOI, PubMed ID, ISBN) हो या न हो।


ओपनसाइटेशन मेटा को पॉपुलेट करने के दूसरे चरण में कच्चे इनपुट डेटा को ओपनसाइटेशन डेटा मॉडल (OCDM) (डेक्विनो एट अल., 2020) के अनुरूप RDF (लिंक्ड ओपन डेटा फ़ॉर्मेट) में परिवर्तित करना शामिल है, ताकि SPARQL के माध्यम से ऐसे डेटा को क्वेरी करना संभव हो सके। इस प्रक्रिया के दौरान, उद्गम और परिवर्तन-ट्रैकिंग पर बहुत ध्यान दिया जाता है: हर बार जब कोई इकाई बनाई जाती है, संशोधित की जाती है, हटाई जाती है या मर्ज की जाती है, तो ऐसे परिवर्तन RDF में दर्ज किए जाते हैं, और उनकी निर्माण तिथियों, प्राथमिक स्रोतों और जिम्मेदार एजेंटों द्वारा उनकी विशेषता बताई जाती है।


पेपर का बाकी हिस्सा इस प्रकार व्यवस्थित है। सेक्शन 2 अन्य सिमेंटिक प्रकाशन डेटासेट की समीक्षा करता है। इसके बाद, सेक्शन 3 में, ओपनसाइटेशन मेटा का उत्पादन करने के लिए अपनाए गए पद्धतिगत दृष्टिकोण को विस्तार से प्रस्तुत किया गया है, जो क्यूरेटोरियल चरण (3.1) से शुरू होता है, फिर त्रुटि सुधार (3.2) का वर्णन करता है, OCDM (3.3) के अनुसार RDF में डेटा अनुवाद की व्याख्या करता है, और RDF प्रोवेंस और परिवर्तन-ट्रैकिंग डेटा (3.4) के उत्पादन के विवरण के साथ समाप्त होता है। सेक्शन 4 वर्तमान ओपनसाइटेशन मेटा डेटासेट के बारे में कुछ वर्णनात्मक आँकड़े प्रदान करता है। अंत में, सेक्शन 5 ओपनसाइटेशन मेटा की कुछ वर्तमान सीमाओं पर चर्चा करता है, और इस बात पर विचार करता है कि ओपनसाइटेशन मेटा समान विद्वानों के डेटासेट के बीच कहाँ खड़ा है।


यह पेपर CC 4.0 DEED लाइसेंस के अंतर्गत arxiv पर उपलब्ध है।