paint-brush
ओपनसाइटेशंस मेटा: संबंधित कार्यद्वारा@categorize

ओपनसाइटेशंस मेटा: संबंधित कार्य

बहुत लंबा; पढ़ने के लिए

featured image - ओपनसाइटेशंस मेटा: संबंधित कार्य
Categorize.Tech: Organizing the World of Software HackerNoon profile picture
0-item

लेखक:

(1) आर्केंजेलो मसारी, ओपन स्कॉलरली मेटाडेटा के लिए अनुसंधान केंद्र, शास्त्रीय भाषाशास्त्र और इतालवी अध्ययन विभाग, बोलोग्ना विश्वविद्यालय, बोलोग्ना, इटली {[email protected]};

(2) फैबियो मारियानी, दर्शनशास्त्र और कला विज्ञान संस्थान, ल्यूफ़ाना विश्वविद्यालय, ल्यूनेबर्ग, जर्मनी {[email protected]};

(3) इवान हेइबी, ओपन स्कॉलरली मेटाडेटा के लिए अनुसंधान केंद्र, शास्त्रीय भाषाविज्ञान और इतालवी अध्ययन विभाग, बोलोग्ना विश्वविद्यालय, बोलोग्ना, इटली और डिजिटल मानविकी उन्नत अनुसंधान केंद्र (/DH.arc), शास्त्रीय भाषाविज्ञान और इतालवी अध्ययन विभाग, बोलोग्ना विश्वविद्यालय, बोलोग्ना, इटली {[email protected]};

(4) सिल्वियो पेरोनी, ओपन स्कॉलरली मेटाडेटा के लिए अनुसंधान केंद्र, शास्त्रीय भाषाशास्त्र और इतालवी अध्ययन विभाग, बोलोग्ना विश्वविद्यालय, बोलोग्ना, इटली और डिजिटल मानविकी उन्नत अनुसंधान केंद्र (/DH.arc), शास्त्रीय भाषाशास्त्र और इतालवी अध्ययन विभाग, बोलोग्ना विश्वविद्यालय, बोलोग्ना, इटली {[email protected]};

(5) डेविड शॉटन, ऑक्सफोर्ड ई-रिसर्च सेंटर, ऑक्सफोर्ड विश्वविद्यालय, ऑक्सफोर्ड, यूनाइटेड किंगडम {[email protected]}।

लिंक की तालिका

2. संबंधित कार्य

इस खंड में, हम सबसे महत्वपूर्ण विद्वानों के प्रकाशन डेटासेट की समीक्षा करेंगे, जिन तक पहुँचने के लिए सदस्यता की आवश्यकता नहीं है, यानी सार्वजनिक रूप से उपलब्ध डेटासेट जो विद्वानों के ग्रंथसूची मेटाडेटा को धारण करते हैं। चूंकि ओपनसाइटेशन मेटा डेटा का प्रतिनिधित्व करने के लिए सिमेंटिक वेब तकनीकों का उपयोग करता है, इसलिए RDF डेटासेट पर विशेष ध्यान दिया जाएगा, जैसे कि विकीडाटा, स्प्रिंगर नेचर साइग्राफ, बायोटी, ओपनरिसर्च नॉलेज ग्राफ और स्कॉलरली डेटा। इसके अलावा, ओपनएआईआरई रिसर्च ग्राफ, ओपनएलेक्स और स्कॉलरली डेटा का वर्णन किया जाएगा, क्योंकि वे कार्यों की संख्या के संदर्भ में सबसे व्यापक डेटासेट हैं, हालांकि वे डेटा को शब्दार्थ रूप से प्रस्तुत नहीं करते हैं।


ओपनएलेक्स (प्रीम एट अल., 2022) 1 जनवरी 2022 को माइक्रोसॉफ्ट एकेडमिक ग्राफ की राख से उभरा और इसके सभी मेटाडेटा को विरासत में मिला। इसमें क्रॉसरेफ़ (हेंड्रिक्स एट अल., 2020), पबमेड (मैलोनी एट अल., 2013), ORCID (हाक एट अल., 2012), ROR (लैमी, 2020), DOAJ (मॉरिसन, 2017), अनपेवॉल (ढाकल, 2019), arXiv (सिगुर्डसन, 2020), ज़ेनोडो (रिसर्च और ओपनएआईआरई, 2013), आईएसएसएन इंटरनेशनल सेंटर [1] और इंटरनेट आर्काइव का जनरल इंडेक्स [2] का डेटा शामिल है। इसके अलावा, गुम मेटाडेटा को जोड़ने के लिए वेब क्रॉल का उपयोग किया जाता है। 240 मिलियन से अधिक कार्यों [3] के साथ, ओपनएलेक्स आज तक का सबसे व्यापक ग्रंथसूची मेटाडेटा डेटासेट है। ओपनएलेक्स प्रत्येक संसाधन को स्थायी पहचानकर्ता प्रदान करता है। इसके अलावा, सह-लेखकों, उद्धरणों और ग्रंथसूची संसाधनों की अन्य विशेषताओं के आधार पर लेखकों को अलग-अलग किया जाता है। डेटा को CC0 लाइसेंस के तहत वितरित किया जाता है और इसे API, वेब इंटरफ़ेस या ओपनएलेक्स डेटाबेस की पूरी स्नैपशॉट कॉपी डाउनलोड करके एक्सेस किया जा सकता है।


ओपनएआईआरई परियोजना 2008 में यूरोपीय आयोग ओपन एक्सेस जनादेश (मांघी एट अल., 2010) को अपनाने का समर्थन करने के लिए शुरू हुई थी, और अब यह यूरोपीय ओपन साइंस क्लाउड (यूरोपीय आयोग. अनुसंधान और नवाचार महानिदेशालय., 2016) को साकार करने के लिए होराइजन 2020 अनुसंधान और नवाचार कार्यक्रम के भीतर प्रमुख संगठन है। इसका एक प्राथमिक परिणाम ओपनएआईआरई रिसर्च ग्राफ है, जिसमें विद्वानों के आउटपुट (जैसे साहित्य, डेटासेट और सॉफ्टवेयर), संगठनों, अनुसंधान फंडर्स, फंडिंग स्ट्रीम, परियोजनाओं और समुदायों के बारे में मेटाडेटा के साथ-साथ सिद्ध जानकारी भी शामिल है। डेटा को विभिन्न स्रोतों से एकत्र किया जाता है (एत्ज़ोरी एट अल., 2017): अभिलेखागार, जैसे आर्क्सिव (सिगुर्डसन, 2020 एग्रीगेटर सेवाएँ, जैसे DOAJ (मॉरिसन, 2017) और ओपनसाइटेशन (पेरोनी और शॉटन, 2020); और अन्य शोध ग्राफ़, जैसे क्रॉसरेफ़ (हेंड्रिक्स एट अल., 2020) और डेटासाइट (ब्रेज़, 2009)। जून 2023 तक, इस ओपनएआईआरई डेटासेट में 232,174,001 शोध उत्पाद शामिल थे[4]। ओपनएआईआरई द्वारा कार्यान्वित की गई डुप्लीकेशन प्रक्रिया न केवल पीआईडी बल्कि अन्य अनुमानों को भी ध्यान में रखती है, जैसे लेखकों की संख्या और शीर्षकों की लेवेनस्टीन दूरी। हालाँकि, ओपनएआईआरई द्वारा संस्थाओं के साथ संबद्ध आंतरिक पहचानकर्ता स्थायी नहीं हैं और डेटा अपडेट होने पर बदल सकते हैं। ओपनएआईआरई रिसर्च ग्राफ के डेटा को एपीआई और एक्सप्लोर इंटरफ़ेस के माध्यम से एक्सेस किया जा सकता है। डंप क्रिएटिव कॉमन्स एट्रिब्यूशन 4.0 इंटरनेशनल लाइसेंस के तहत भी उपलब्ध हैं।


सेमेटिक स्कॉलर को एलन इंस्टीट्यूट फॉर आर्टिफिशियल इंटेलिजेंस द्वारा 2015 में पेश किया गया था (फ्रिक, 2018)। यह एक सर्च इंजन है जो उपयोगकर्ता की खोज के लिए सबसे अधिक प्रासंगिक पेपर का चयन करने और अन्वेषण को सरल बनाने के लिए आर्टिफिशियल इंटेलिजेंस का उपयोग करता है, उदाहरण के लिए स्वचालित सारांश तैयार करके। सेमेटिक स्कॉलर अपनी सामग्री को वेब इंडेक्सिंग और वैज्ञानिक पत्रिकाओं, इंडेक्स और सामग्री प्रदाताओं के साथ साझेदारी के माध्यम से प्राप्त करता है। उनमें से एसोसिएशन फॉर कम्प्यूटेशनल लिंग्विस्टिक्स, कैम्ब्रिज यूनिवर्सिटी प्रेस, IEEE, PubMed, स्प्रिंगर नेचर, द MIT प्रेस, विले, arXiv, HAL और PubMed शामिल हैं। जून 2023 तक, यह 212,605,886 विद्वानों के कार्यों को अनुक्रमित करता है [5]। लेखकों को एक आर्टिफिशियल इंटेलिजेंस मॉडल (सुब्रमण्यन एट अल।, 2021) के माध्यम से अलग किया जाता है, जो एक सेमेटिक स्कॉलर आईडी से जुड़ा होता है, और प्रत्येक लेखक के लिए एक पेज अपने आप तैयार हो जाता है, जिसे वास्तविक व्यक्ति भुना सकता है। सेमेटिक स्कॉलर एक वेब इंटरफेस, एपीआई प्रदान करता है, और संपूर्ण डेटासेट ओपन डेटा कॉमन्स एट्रिब्यूशन लाइसेंस (ODCBy) v1.0 के तहत डाउनलोड करने योग्य है।


विकिडाटा को 2012 में विकिमीडिया Deutschland द्वारा अन्य विकिमीडिया परियोजनाओं, जैसे विकिपीडिया, विकिवॉयज, विक्षनरी और विकिसोर्स (मोरा-कैंटालोप्स एट अल।, 2019) से आरडीएफ डेटा संग्रहीत करने के लिए एक खुले ज्ञानकोष के रूप में पेश किया गया था। इसकी सफलता के कारण, गूगल ने 2014 में फ्रीबेस को बंद कर दिया, जिसका उद्देश्य "संरचित डेटा के लिए विकिपीडिया" बनना था और इसे विकिडाटा (टैनोन एट अल।, 2016) में स्थानांतरित कर दिया। 2016 से, विकीसाइट परियोजना ने एक ग्रंथ सूची डेटाबेस के रूप में विकिडाटा के विकास में महत्वपूर्ण योगदान दिया है, इस तरह कि जून 2023 तक, विकिडाटा में 39,864,447 शैक्षणिक लेखों का विवरण था[6]। डेटा को CC0 लाइसेंस के तहत टर्टल और NTriples में RDF डंप के रूप में जारी किया जाता है। उपयोगकर्ता उन्हें SPARQL, एक वेब इंटरफ़ेस और, 2017 तक, स्कोलिया के माध्यम से ब्राउज़ कर सकते हैं - एक वेब सेवा जो शोधकर्ताओं, संगठनों, पत्रिकाओं, प्रकाशकों, शैक्षणिक कार्यों और शोध विषयों पर प्रोफाइल बनाने के लिए वास्तविक समय SPARQL क्वेरी करती है, साथ ही मूल्यवान इन्फोग्राफिक्स भी बनाती है (नीलसन एट अल।, 2017)।


ओपनएआईआरई रिसर्च ग्राफ और विकिडाटा कई विषम स्रोतों को एकत्रित करते हैं, वहीं दूसरी ओर स्प्रिंगर नेचर साइग्राफ (हैमंड एट अल., 2017) केवल स्प्रिंगर नेचर और उसके भागीदारों से डेटा एकत्रित करता है। इसमें प्रकाशन, संबद्धता, शोध परियोजनाओं, वित्तपोषकों और सम्मेलनों से संबंधित इकाइयाँ शामिल हैं, कुल मिलाकर 14 मिलियन से अधिक शोध उत्पाद[7]। सार्वजनिक SPARQL एंडपॉइंट की पेशकश करने की कोई वर्तमान योजना नहीं है, लेकिन ब्राउज़र इंटरफ़ेस के माध्यम से डेटा का पता लगाने की संभावना है, और CC-BY लाइसेंस के तहत JSON-LD प्रारूप में मासिक रूप से एक डंप जारी किया जाता है।



BioTea एक डोमेन-ओरिएंटेड डेटासेट भी है, और RDF तकनीकों का उपयोग करके PubMed Central (PMC-OA) (गार्सिया एट अल., 2018) के एनोटेटेड फुल-टेक्स्ट ओपन-एक्सेस सबसेट का प्रतिनिधित्व करता है। उस 2018 के पेपर के समय, डेटासेट में 1.5 मिलियन ग्रंथ सूची संसाधन थे। अन्य डेटासेट के विपरीत, BioTea मेटाडेटा और उद्धरणों का वर्णन करता है और एनोटेटेड फुल-टेक्स्ट को शब्दार्थ रूप से परिभाषित करता है। बायोमेडिकल ऑन्टोलॉजी से संबंधित अभिव्यक्तियों और शब्दावली की पहचान करने के लिए नामित-इकाई पहचान विश्लेषण को अपनाया जाता है जिसे फिर एनोटेशन के रूप में रिकॉर्ड किया जाता है (जैसे बायोमोलेक्यूल्स, दवाओं और बीमारियों के बारे में)। BioTea डेटा को क्रिएटिव कॉमन्स एट्रिब्यूशन नॉन-कमर्शियल 4.0 इंटरनेशनल लाइसेंस के तहत RDF/XML और JSON-LD फॉर्मेट में डंप के रूप में जारी किया जाता है, जबकि SPARQL एंडपॉइंट वर्तमान में ऑफ़लाइन है।


एक उल्लेखनीय दृष्टिकोण ओपन रिसर्च नॉलेज ग्राफ (ORKG) (Auer et al., 2020) द्वारा अपनाया गया है। मेटाडेटा मुख्य रूप से या तो विश्वसनीय एजेंटों द्वारा क्राउडसोर्सिंग के माध्यम से या स्वचालित रूप से क्रॉसरेफ़ से एकत्र किया जाता है। हालाँकि, ORKG का प्राथमिक उद्देश्य मेटाडेटा को व्यवस्थित करना नहीं बल्कि सेवाएँ प्रदान करना है। इन सेवाओं का मुख्य दायरा समानता विश्लेषण को सक्षम करने और संबंधित कार्यों की खोज और लिंक को बढ़ावा देने के लिए शब्द एम्बेडिंग का उपयोग करके साहित्य तुलना विश्लेषण करना है। ऐसे परिष्कृत विश्लेषणों को सक्षम करने के लिए, क्रॉसरेफ़ से मेटाडेटा अपर्याप्त है; इसलिए, विषय, परिणाम, विधि, शैक्षिक संदर्भ और मूल्यांकनकर्ता पर संरचित एनोटेशन प्रत्येक संसाधन के लिए मैन्युअल रूप से निर्दिष्ट किए जाने चाहिए। डेटासेट में (जून 2023 तक) 25,680 पेपर [8], 5153 डेटासेट, 1364 सॉफ़्टवेयर और 71 समीक्षाएं शामिल हैं। ORKG डेटासेट के निर्माण में मानव योगदान के महत्व को देखते हुए, प्लेटफ़ॉर्म परिवर्तनों और सिद्धता पर नज़र रखता है, हालाँकि RDF प्रारूप में नहीं। डेटा को वेब इंटरफेस, SPARQL और API के माध्यम से खोजा जा सकता है, तथा इसे CC BY-SA लाइसेंस के तहत डाउनलोड भी किया जा सकता है।


स्कॉलरलीडेटा केवल सेमेंटिक वेब (नुज़ोलीज़ एट अल., 2016) के विषय पर सम्मेलनों और कार्यशालाओं के बारे में जानकारी एकत्र करता है। डेटा को कॉन्फ़्रेंस ऑन्टोलॉजी के अनुसार मॉडल किया जाता है, जो एक अकादमिक सम्मेलन में विशिष्ट संस्थाओं का वर्णन करता है, जैसे कि स्वीकृत पेपर, लेखक, उनकी संबद्धता और आयोजन समिति, लेकिन ग्रंथ सूची संदर्भ नहीं। जून 2023 तक, डेटासेट ने 5678 सम्मेलन पत्रों के बारे में जानकारी संग्रहीत की। इस तरह के डेटासेट को कॉन्फ़्रेंस लिंक्ड ओपन डेटा जनरेटर सॉफ़्टवेयर का उपयोग करके अपडेट किया जाता है, जो CSV फ़ाइलों से शुरू होने वाले RDF को आउटपुट करता है (जेंटाइल और नुज़ोलीज़, 2015)। एजेंटों का डीडुप्लीकेशन केवल एक पर्यवेक्षित वर्गीकरण पद्धति (झांग एट अल., 2017) का उपयोग करके उनके URI पर आधारित है, जबकि ORCID को अगले चरण में जोड़ा जाता है। यह पद्धति समानार्थी शब्दों के अस्तित्व को संबोधित नहीं करती है। हालाँकि, यह स्कॉलरलीडेटा के लिए एक मामूली मुद्दा है, क्योंकि अनुक्रमित किए जा रहे सम्मेलनों में केवल कुछ हज़ार लोग शामिल हैं। ScholarlyData को SPARQL एंडपॉइंट के माध्यम से खोजा जा सकता है, और डंप क्रिएटिव कॉमन्स एट्रिब्यूशन 3.0 अनपोर्टेड लाइसेंस के तहत RDF/XML प्रारूप में उपलब्ध हैं।


निष्कर्ष के तौर पर, हम यह बताना चाहेंगे कि ऊपर उल्लिखित अन्य कोई भी डेटासेट RDF में परिवर्तन-ट्रैकिंग डेटा और संबंधित उद्गम जानकारी को उजागर नहीं करता है।


तालिका 1 प्रत्येक डेटासेट पर किए गए सभी विचारों का सारांश प्रस्तुत करती है।


यह पेपर CC 4.0 DEED लाइसेंस के अंतर्गत arxiv पर उपलब्ध है।


[1] https://www.issn.org/


[2] https://archive.org/details/GeneralIndex


[3] https://docs.openalex.org/api-entities/works


[4] https://explore.openaire.eu/search/find/research-outcomes


[5] https://www.semanticscholar.org/


[6] https://scholia.toolforge.org/statistics


[7] https://scigraph.springernature.com/explorer/datasets/data_at_a_glance/


[8] https://orkg.org/papers