paint-brush
ओपनसाइटेशन्स मेटा: कार्यप्रणालीद्वारा@categorize

ओपनसाइटेशन्स मेटा: कार्यप्रणाली

बहुत लंबा; पढ़ने के लिए

featured image - ओपनसाइटेशन्स मेटा: कार्यप्रणाली
Categorize.Tech: Organizing the World of Software HackerNoon profile picture
0-item

लेखक:

(1) आर्केंजेलो मसारी, ओपन स्कॉलरली मेटाडेटा के लिए अनुसंधान केंद्र, शास्त्रीय भाषाशास्त्र और इतालवी अध्ययन विभाग, बोलोग्ना विश्वविद्यालय, बोलोग्ना, इटली {[email protected]};

(2) फैबियो मारियानी, दर्शनशास्त्र और कला विज्ञान संस्थान, ल्यूफ़ाना विश्वविद्यालय, ल्यूनेबर्ग, जर्मनी {[email protected]};

(3) इवान हेइबी, ओपन स्कॉलरली मेटाडेटा के लिए अनुसंधान केंद्र, शास्त्रीय भाषाविज्ञान और इतालवी अध्ययन विभाग, बोलोग्ना विश्वविद्यालय, बोलोग्ना, इटली और डिजिटल मानविकी उन्नत अनुसंधान केंद्र (/DH.arc), शास्त्रीय भाषाविज्ञान और इतालवी अध्ययन विभाग, बोलोग्ना विश्वविद्यालय, बोलोग्ना, इटली {[email protected]};

(4) सिल्वियो पेरोनी, ओपन स्कॉलरली मेटाडेटा के लिए अनुसंधान केंद्र, शास्त्रीय भाषाशास्त्र और इतालवी अध्ययन विभाग, बोलोग्ना विश्वविद्यालय, बोलोग्ना, इटली और डिजिटल मानविकी उन्नत अनुसंधान केंद्र (/DH.arc), शास्त्रीय भाषाशास्त्र और इतालवी अध्ययन विभाग, बोलोग्ना विश्वविद्यालय, बोलोग्ना, इटली {[email protected]};

(5) डेविड शॉटन, ऑक्सफोर्ड ई-रिसर्च सेंटर, ऑक्सफोर्ड विश्वविद्यालय, ऑक्सफोर्ड, यूनाइटेड किंगडम {[email protected]}।

लिंक की तालिका

3। प्रक्रिया

ओपनसाइटेशन मेटा को CSV प्रारूप (यानी सारणीबद्ध रूप) में इनपुट डेटा से पॉपुलेट किया जाता है। यह विकल्प आकस्मिक नहीं है। हमने पाया है कि CSV प्रारूप में ओपनसाइटेशन द्वारा प्रदर्शित डेटा (जैसे COCI (ओपनसाइटेशन, 2022) से) अधिक संरचित प्रारूपों (यानी JSON Scholix और RDF N-Quads) में समान डेटा की तुलना में अधिक बार डाउनलोड किया जाता है। यह छोटे फ़ाइल आकार (N-Quads और Scholix की तुलना में) और, सबसे बढ़कर, मानव के लिए सारणीबद्ध प्रारूप की उच्च पठनीयता के कारण है। उत्तरार्द्ध मुख्य कारण है कि ओपनसाइटेशन मेटा द्वारा अपनाया गया इनपुट प्रारूप CSV है, ताकि मानव क्यूरेटोरियल गतिविधियों (हेइबी एट अल।, 2019 ए) से ग्रंथसूची मेटाडेटा के भविष्य के क्राउडसोर्सिंग को सुविधाजनक बनाया जा सके।


ओपनसाइटेशन मेटा की इनपुट तालिका में ग्यारह कॉलम हैं, जो OCDM (डेक्विनो एट अल., 2020) के रैखिकीकरण के अनुरूप हैं: आईडी, शीर्षक, लेखक, संपादक, प्रकाशन तिथि, स्थान, वॉल्यूम, अंक, पृष्ठ, प्रकार और प्रकाशक। प्रत्येक फ़ील्ड की संरचना कैसे की जाती है, इसके गहन विवरण के लिए, कृपया देखें (मासारी और हेइबी, 2022)।


तालिका 1: खुले विद्वानों के डेटासेट को शामिल शोध संस्थाओं की संख्या के अनुसार क्रमबद्ध किया गया है, तथा परिवर्तन-ट्रैकिंग, उद्गम, अस्पष्टीकरण विधि, आंतरिक आईडी की उपस्थिति, पहुंच और डेटा उपयोग लाइसेंस के संबंध में तुलना की गई है।


एक बार CSV सारणीबद्ध डेटा प्राप्त हो जाने के बाद, डेटा को पहले स्वचालित रूप से क्यूरेट किया जाता है (क्यूरेटर चरण) और फिर OCDM (क्रिएटर चरण) के आधार पर RDF में परिवर्तित किया जाता है। अंत में, क्यूरेट किए गए CSV और RDF को फ़ाइलों के रूप में संग्रहीत किया जाता है, जबकि संबंधित ट्रिपलस्टोर को क्रमिक रूप से पॉप्युलेट किया जाता है। चित्र 2 वर्कफ़्लो को सारांशित करता है।


चित्र 2: ओपनसाइटेशन मेटा वर्कफ़्लो। सबसे पहले, CSV प्रारूप में इनपुट डेटा स्वचालित रूप से सही किया जाता है (1), डुप्लिकेट को हटाया जाता है, और ट्रिपलस्टोर (2) के भीतर से पहले से मौजूद जानकारी के साथ समृद्ध किया जाता है। सही CSV को आउटपुट (3a) के रूप में लौटाया जाता है। दूसरा, डेटा को RDF (3b) में बदल दिया जाता है, फ़ाइल (4a) में सहेजा जाता है और अंत में ट्रिपलस्टोर (4b) में दर्ज किया जाता है

3.1 क्यूरेटर: डीडुप्लीकेशन, संवर्धन और सुधार

क्यूरेशन प्रक्रिया प्राप्त डेटा की गुणवत्ता में सुधार करने के लिए तीन मुख्य क्रियाएं करती है: डुप्लीकेशन हटाना, संवर्धन, और सुधार।


डेटा डीडुप्लीकेशन के लिए चुना गया तरीका पूरी तरह से पहचानकर्ताओं पर आधारित है। दूसरे शब्दों में, दो अलग-अलग संस्थाओं को एक ही माना जाता है, अगर और केवल अगर, दोनों के पास एक ही पहचानकर्ता है, जैसे कि लेखों के लिए DOI, लोगों के लिए ORCID, किताबों के लिए ISBN और प्रकाशन स्थलों (जैसे जर्नल) के लिए ISSN।


एक ही पहचानकर्ता वाले विभिन्न संसाधनों को एक सटीक नियम का पालन करते हुए मर्ज किया जाता है: (1) यदि संसाधन एक ही CSV फ़ाइल का हिस्सा हैं, तो पहली घटना की जानकारी को प्राथमिकता दी जाती है। हालाँकि, (2) यदि संसाधन पहले से ही ट्रिपलस्टोर में वर्णित है, तो ट्रिपलस्टोर में जानकारी को प्राथमिकता दी जाएगी। दूसरे शब्दों में, हम ट्रिपलस्टोर में संग्रहीत जानकारी को विश्वसनीय मानते हैं, और इसे केवल CSV स्रोत से आने वाले अतिरिक्त डेटा के साथ बढ़ाया जा सकता है।


एक बार जब कोई इकाई डुप्लिकेट हो जाती है, तो उसे एक नया, स्थायी आंतरिक पहचानकर्ता सौंपा जाता है जिसे ओपनसाइटेशन मेटा आइडेंटिफ़ायर (OMID) कहा जाता है। OMID की संरचना [entity_type_abbreviation]/[supplier_prefix][sequential_number] होती है। उदाहरण के लिए, अब तक संसाधित किए गए पहले जर्नल लेख में OMID br/0601 है, जहाँ br "ग्रंथसूची संसाधन" का संक्षिप्त नाम है, और 060 आपूर्तिकर्ता उपसर्ग से मेल खाता है, जो उस डेटाबेस को इंगित करता है जिससे ग्रंथसूची संसाधन संबंधित है (इस मामले में, OpenCitations Meta)। अंत में, 1 इंगित करता है कि यह OMID उस उपसर्ग के लिए दर्ज किए गए इंडेक्स के पहले ग्रंथसूची संसाधन की पहचान करता है।


अधिक सटीक रूप से, OpenCitations मेटा के लिए उपयोग किया जाने वाला आपूर्तिकर्ता उपसर्ग “06[1-9]*0” है, यानी “06” के बाद वैकल्पिक रूप से शून्य को छोड़कर कोई भी संख्या और अंत में “0” हो सकता है। उदाहरण के लिए, “060”, “0610”, और “06230” OpenCitations मेटा में मान्य आपूर्तिकर्ता उपसर्ग हैं।


वे निकाय जो डीडुप्लीकेशन के अधीन हैं और बाद में OMID के साथ पहचाने जाते हैं, वे हैं बाहरी पहचानकर्ता (संक्षिप्त आईडी), एजेंट भूमिकाएँ (यानी लेखक, संपादक, प्रकाशक, संक्षिप्त ar), जिम्मेदार एजेंट (यानी लोग और संगठन, संक्षिप्त ra), संसाधन अवतार (यानी पृष्ठ, संक्षिप्त re), और स्थान, खंड और मुद्दे (जो सभी ग्रंथ सूची संसाधन हैं, संक्षिप्त br)। खंडों और मुद्दों में OMID होते हैं क्योंकि उन्हें लेखों की विशेषताओं के बजाय प्रथम श्रेणी के नागरिकों के रूप में माना जाता है। इसका लाभ यह है कि, उदाहरण के लिए, किसी विशिष्ट अंक के भीतर के पेपर, किसी नामित जर्नल के खंड या किसी निश्चित समय अवधि के भीतर प्रकाशित जर्नल के मुद्दों की खोज करने की अनुमति देता है। इसके विपरीत, शीर्षक और तिथियों को शाब्दिक मानों के रूप में माना जाता है, न कि संस्थाओं के रूप में।


चित्र 3 डीडुप्लीकेशन निर्णयात्मक वृक्ष को दर्शाता है। एक इनपुट इकाई और उसके पहचानकर्ता दिए जाने पर, छह संभावित परिणाम हैं:


  1. यदि इकाई के पास कोई पहचानकर्ता नहीं है, या वे ट्रिपलस्टोर में मौजूद नहीं हैं, तो इकाई के लिए एक नया ओएमआईडी बनाया जाता है;


  2. यदि इकाई के पास ओएमआईडी नहीं है, और यदि उसके बाह्य पहचानकर्ताओं में से एक पहले से ही एक और केवल एक अन्य इकाई के साथ संबद्ध है, तो दोनों इकाइयों को विलय कर दिया जाता है और उन्हें एक ही माना जाता है;


  3. यदि CSV में इकाई के बाहरी पहचानकर्ता ट्रिपलस्टोर के भीतर दो या अधिक संस्थाओं को जोड़ते हैं जो अब तक अलग-अलग थे, और CSV में कोई OMID निर्दिष्ट नहीं है, तो एक संघर्ष उत्पन्न होता है जिसे स्वचालित रूप से हल नहीं किया जा सकता है और इसके लिए मैन्युअल हस्तक्षेप की आवश्यकता होगी। इस संघर्षशील इकाई के लिए एक नया OMID बनाया जाता है। उदाहरण के लिए, CSV में, एक ही जर्नल नाम दो पहचानकर्ताओं, issn:1588-2861 और issn:0138-9130 से जुड़ा हुआ है; हालाँकि, ट्रिपलस्टोर में, दो अलग-अलग संस्थाओं के लिए प्रविष्टियाँ हैं, एक पहचानकर्ता issn:1588-2861 के साथ और दूसरी पहचानकर्ता issn:0138-9130 के साथ, जो वास्तव में एक ही इकाई को संदर्भित करती हैं;


  4. यदि CSV में किसी इकाई का OMID ट्रिपलस्टोर में मौजूद है और कोई अन्य ID मौजूद नहीं है, तो ट्रिपलस्टोर में मौजूद जानकारी CSV में मौजूद जानकारी को अधिलेखित कर देती है। ट्रिपलस्टोर को तब केवल गुम विवरणों को जोड़कर अपडेट किया जाता है। दूसरे शब्दों में, CSV में किसी इकाई के लिए उसका OMID निर्दिष्ट करना OpenCitations Meta के भीतर किसी मौजूदा इकाई को अपडेट करने का एक तरीका है;


  5. यदि किसी इकाई में मौजूदा OMID है और अतिरिक्त पहचानकर्ता बिना OMID (CSV में) या समान OMID (CSV या ट्रिपलस्टोर में) वाली अन्य इकाइयों से जुड़े हैं, तो इकाइयों को मर्ज कर दिया जाता है। इसके अलावा, CSV में मौजूद जानकारी ट्रिपलस्टोर में पहले से उपलब्ध जानकारी के साथ अधिलेखित कर दी जाती है, और CSV में मौजूद गुम विवरण ट्रिपलस्टोर में जोड़ दिए जाते हैं;


  6. अंत में, यदि बाहरी पहचानकर्ता ट्रिपलस्टोर में कई इकाइयों को अलग-अलग OMID से जोड़ते हैं, तो संघर्ष उत्पन्न होता है। इस मामले में, CSV में निर्दिष्ट OMID को प्राथमिकता दी जाती है, और केवल उस OMID वाली इकाइयों को ही मर्ज किया जाता है।


इन सामान्य नियमों को देखते हुए, तीन विशेष मामले विशेष चिंता के पात्र हैं। पहला उल्लेखनीय मुद्दा लेखकों और संपादकों के क्रम से संबंधित है, जिसे OCDM के अनुसार बनाए रखा जाना चाहिए। विलय की स्थिति में, जब इकाई पहली बार बनाई गई थी, तब दर्ज किया गया क्रम बाद के क्रम को अधिलेखित कर देता है, और किसी भी नए लेखक या संपादक को मौजूदा सूची के अंत में जोड़ा जाता है, जैसा कि चित्र 4 में दिखाया गया है।


चित्र 3: डीडुप्लीकेशन निर्णय वृक्ष


चित्र 4: विलय के दौरान, सबसे पहले मिली जानकारी को प्राथमिकता दी जाती है। इस उदाहरण में, डेविड शॉटन को लेखकों की सूची में सिल्वियो पेरोनी के बाद डाला गया है क्योंकि पेरोनी को पहले लेखक के रूप में पहले ही दर्ज किया जा चुका है, भले ही शॉटन दूसरी बार पेरोनी से पहले दिखाई दे


दूसरे, दो ग्रंथसूची संसाधनों के विलय के संदर्भ में, बिना किसी पहचान के लेखक या संपादक के रूप में शामिल लोगों को उनके दिए गए और पारिवारिक नामों के आधार पर स्पष्ट किया जाता है।


अंतिम महत्वपूर्ण मामला लेखों, मुद्दों, खंडों और स्थानों के बीच निहित संबंध को शामिल करता है। यह संरचना विलय के मामले में संरक्षित है, जहां दो खंडों या मुद्दों को केवल तभी समान माना जाता है जब उनका मूल्य समान हो, जो एक अनुक्रमिक संख्या (जैसे "वॉल्यूम 1") या एक मनमाना नाम (जैसे "Clin_Sect") हो सकता है।

3.2 क्यूरेटर: त्रुटि प्रूफिंग

एक बार जब सभी इकाइयों को OMID मिल जाता है, तो डेटा सामान्यीकृत हो जाता है, और स्वचालित रूप से संभाली जा सकने वाली त्रुटियों को ठीक कर दिया जाता है। सभी पहचानकर्ताओं की जाँच उनकी पहचान योजना के आधार पर की जाती है - उदाहरण के लिए, ISBN, ISSN और ORCID की वाक्यविन्यास शुद्धता की गणना पहचान योजना के दस्तावेज़ीकरण द्वारा प्रदान किए गए विशिष्ट सूत्रों का उपयोग करके की जाती है। हालाँकि, पहचानकर्ताओं की शब्दार्थ शुद्धता केवल ORCID और DOI के लिए सत्यापित की जाती है, जो उनके वास्तविक अस्तित्व को सत्यापित करने के लिए खुले API का उपयोग करके किया जाता है - क्योंकि, उदाहरण के लिए, एक ORCID का उत्पादन करना संभव है जो वाक्यविन्यास रूप से मान्य है, लेकिन वास्तव में किसी व्यक्ति को असाइन नहीं किया गया है।


स्पेस के लिए इस्तेमाल किए जाने वाले सभी अस्पष्ट और वैकल्पिक वर्ण (जैसे टैब, नो-ब्रेक स्पेस, ईएम स्पेस) को स्पेस (यूनिकोड वर्ण U+0020) में बदल दिया जाता है। इसी तरह, आईडी, पेज, वॉल्यूम, अंक, लेखक और संपादकों के भीतर हाइफ़न के लिए अस्पष्ट वर्ण (जैसे नॉन-ब्रेकिंग हाइफ़न, एन डैश, माइनस साइन) को हाइफ़न-माइनस (यूनिकोड वर्ण U+002D) में बदल दिया जाता है।


ग्रंथसूची संसाधनों के शीर्षकों के संबंध में ("स्थल" और "शीर्षक" कॉलम), शीर्षक में प्रत्येक शब्द बड़े अक्षरों में लिखा जाता है, सिवाय उन शब्दों के जो बड़े अक्षरों में लिखे गए हैं (जो संभवतः संक्षिप्त रूप हैं, जैसे "FaBiO" और "CiTO")। हालाँकि, यह अपवाद पूरी तरह से बड़े अक्षरों में लिखे गए शीर्षकों के मामले को कवर नहीं करता है। लेखकों और संपादकों के लिए भी यही नियम लागू होता है, चाहे वे व्यक्ति हों या संगठन।


तिथियों को ISO 8601 (YYYYMM-DD) (वुल्फ और विकस्टीड, 1997) पर आधारित प्रारूप वैधता और मूल्य (जैसे 30 फरवरी एक वैध तिथि नहीं है) दोनों को ध्यान में रखते हुए पार्स किया जाता है। जहाँ आवश्यक हो, तिथि को छोटा कर दिया जाता है। उदाहरण के लिए, तिथि 2020-02-30 को 2020-02 में बदल दिया जाता है क्योंकि दी गई तिथि का दिन अमान्य है। इसी तरह, 2020- 27-12 को 2020 में छोटा कर दिया जाएगा क्योंकि महीना (और इसलिए दिन) अमान्य है। यदि वर्ष अमान्य है (जैसे 9999 से बड़ा वर्ष) तो तिथि को छोड़ दिया जाता है।


वॉल्यूम और अंक संख्या में सुधार कई नियमों पर आधारित है जो विशेष उल्लेख के योग्य हैं। सामान्य तौर पर, हमने त्रुटियों के छह वर्गों की पहचान की है जो हो सकते हैं, और प्रत्येक अलग वर्ग को तदनुसार संबोधित किया जाता है:


  1. एक ही फ़ील्ड में वॉल्यूम नंबर और अंक संख्या (जैसे "वॉल्यूम 35 एन° स्पेशल 1")। दोनों मानों को अलग करके संबंधित फ़ील्ड में असाइन किया जाता है।


  1. उपसर्ग त्रुटियाँ (जैसे “.38”). उपसर्ग हटा दिया गया है.


  2. प्रत्यय त्रुटियाँ (जैसे “19/”). प्रत्यय हटा दिया गया है।


  3. एनकोडिंग त्रुटियाँ (जैसे “5â\x80\x926”, “38â39”, “3???4”)। केवल चरम पर स्थित संख्याओं को ही रखा जाता है, जिन्हें एक हाइफ़न द्वारा अलग किया जाता है। इसलिए, उदाहरणों को क्रमशः “5-6”, “38-39”, और “3-4” में सुधारा जाता है, क्योंकि “â\x80\x92”, “â” और “???” गलत तरीके से एनकोड किए गए हाइफ़न हैं।


  4. वॉल्यूम को समस्या के रूप में वर्गीकृत किया गया है (उदाहरण के लिए “समस्या” फ़ील्ड में “वॉल्यूम 1”)। यदि वॉल्यूम पैटर्न “समस्या” फ़ील्ड में पाया जाता है और “वॉल्यूम” फ़ील्ड खाली है, तो सामग्री को “वॉल्यूम” फ़ील्ड में ले जाया जाता है, और “समस्या” फ़ील्ड को शून्य पर सेट किया जाता है। हालाँकि, यदि “समस्या” फ़ील्ड में वॉल्यूम पैटर्न है और “वॉल्यूम” फ़ील्ड में समस्या पैटर्न है, तो दोनों मानों को स्वैप किया जाता है।


  5. वॉल्यूम के रूप में वर्गीकृत मुद्दा (जैसे “वॉल्यूम” फ़ील्ड में “विशेष मुद्दा 2”)। इसे केस 5 की तरह ही संभाला जाता है, लेकिन उलटी भूमिकाओं में।


हमने उन पैटर्न को वॉल्यूम के रूप में माना जिसमें विभिन्न भाषाओं में "मूल श्रृंखला", "वॉल्यूम", "वॉल्यूम" और वॉल्यूम शामिल हैं, जैसे कि फ्रेंच में "टोम" और तुर्की में "सिल्ट"। उदाहरण के लिए, "मूल श्रृंखला", "वॉल्यूम 1", "वॉल्यूम 71", "टोम 1", और "सिल्ट: 1" को वॉल्यूम के रूप में वर्गीकृत किया गया है। इसके बजाय, हमने उन पैटर्न को मुद्दों के रूप में माना जिसमें विभिन्न भाषाओं में "मुद्दा", "विशेष मुद्दा" और मुद्दा शामिल हैं, जैसे कि "हॉर्सरी" (फ्रेंच में विशेष मुद्दा) और "ओज़ेल सई" (तुर्की में विशेष मुद्दा)। उदाहरण के लिए, "मुद्दा 2", "विशेष मुद्दा 2", "विशेष मुद्दा 'शहरी आकृति विज्ञान"", "ओज़ेल सई 5", और "हॉर्स-सीरी 5" को मुद्दों के रूप में वर्गीकृत किया गया है।


अंत में, यदि कोई मान अपने प्रारूप में अमान्य है और गलत फ़ील्ड में होने के कारण अमान्य है, तो ऐसे मान को पहले सही किया जाता है और फिर यदि उपयुक्त हो तो उसे सही फ़ील्ड में ले जाया जाता है।


एक बार इनपुट डेटा को स्पष्ट, समृद्ध और सही कर दिया जाता है, तो एक नई CSV फ़ाइल तैयार की जाती है और उसे संग्रहीत किया जाता है। यह फ़ाइल प्रक्रिया के पहले आउटपुट (चित्र 2 में 3a) को दर्शाती है।

3.3 निर्माता: सिमेंटिक मैपिंग

इस चरण में, डेटा को OCDM (डेक्विनो एट अल., 2020) के बाद RDF में मॉडल किया जाता है। यह ऑन्टोलॉजी ग्रंथसूची संस्थाओं (fabio:Expression), पहचानकर्ता (datacite:Identifier), एजेंट भूमिकाएँ (pro:RoleInTime), जिम्मेदार एजेंट (foaf:Agent) और प्रकाशन प्रारूप विवरण (fabio:Manifestation) का प्रतिनिधित्व करने के लिए SPAR ऑन्टोलॉजी में परिभाषित संस्थाओं का पुनः उपयोग करती है। एजेंट की भूमिका (यानी लेखक, संपादक या प्रकाशक) का उपयोग ग्रंथसूची संसाधन और जिम्मेदार एजेंट, यानी व्यक्ति या संगठन के बीच प्रॉक्सी के रूप में किया जाता है। यह दृष्टिकोण हमें समय-निर्भर और संदर्भ-निर्भर भूमिकाओं और स्थितियों को परिभाषित करने में मदद करता है, जैसे कि लेखकों का क्रम (पेरोनी एट अल., 2012)। चित्र 5 ग्रैफू ग्राफिकल फ्रेमवर्क (फाल्को एट अल., 2014) के माध्यम से विभिन्न संस्थाओं के बीच संबंधों को दर्शाता है।


चित्र 5: ओपनसाइटेशन मेटा में उपयोग किए जाने वाले OCDM का हिस्सा। पीले रंग के आयत वर्ग को दर्शाते हैं, हरे रंग के बहुभुज डेटाटाइप को दर्शाते हैं, तथा नीले और हरे रंग के तीर क्रमशः ऑब्जेक्ट गुण और डेटा गुण को दर्शाते हैं।


उदाहरण के लिए, ओपनसाइटेशन मेटा में OMID omid:br/062601067530 वाली इकाई का शीर्षक ओपन एक्सेस एंड ऑनलाइन पब्लिशिंग: ए न्यू फ्रंटियर इन नर्सिंग? (dcterms:title) है, और इसे 2012-07-25 (prism:publicationDate) पर प्रकाशित किया गया था। FRBR (टिललेट, 2005) का उपयोग करते हुए, लेख अंतिम प्रकाशित संस्करण है, या मूल कार्य (fabio:Expression) की अभिव्यक्ति है, जिसमें नमूने के रूप में इकाई omid:re/06260837633 (frbr:embodiment) है, जो जर्नल वॉल्यूम (prism:startingPage, prism:endingPage) के पृष्ठ 1905-1908 के अनुरूप मुद्रित प्रकाशन है। अधिक सटीक रूप से, यह लेख (frbr:partOf) अंक (fabio:JournalIssue) संख्या 9 (fabio:hasSequenceIdentifier) का हिस्सा है, जो कि स्थान जर्नल ऑफ एडवांस्ड नर्सिंग (fabio:Journal) के खंड (fabio:JournalVolume) संख्या 68 में समाहित है।


इसके अलावा, व्यक्ति (foaf:Agent) ग्लेन हंट (foaf:givenName, foaf:familyName) इस लेख (pro:isDocumentContextFor) के संदर्भ में पहला लेखक (pro:RoleInTime) है। इसी तरह, दूसरा लेखक मिशेल क्लेरी (pro:hasNext) है।


अंत में, इस प्रकाशन में OpenCitations मेटा आइडेंटिफ़ायर (OMID) omid:id/062601093630 (datacite:hasIdentifier) है, जो datacite:Identifier प्रकार की इकाई है। इसमें एक बाहरी पहचानकर्ता भी है, जो अपनी पहचानकर्ता योजना के रूप में एक डिजिटल ऑब्जेक्ट आइडेंटिफ़ायर (DOI) (datacite:usesIdentifierScheme) का उपयोग करता है और जिसका शाब्दिक मान “10.1111/j.1365- 2648.2012.06023.x” (शाब्दिक:hasLiteralValue) है।


एक बार मैपिंग पूरी हो जाने पर, उत्पादित आरडीएफ डेटा को संग्रहीत किया जा सकता है (चित्र 2 में 4ए) और ट्रिपलस्टोर (चित्र 2 में 4बी) पर अपलोड किया जा सकता है।

3.4 निर्माता: उद्गम और परिवर्तन ट्रैकिंग

उनके मेटाडेटा को संभालने के अलावा, ओपनसाइटेशन मेटा में इकाइयों के लिए सिद्धता और परिवर्तन ट्रैकिंग को बहुत महत्व दिया जाता है। सिद्धता एक रिकॉर्ड है कि किसने किसी विशिष्ट इकाई को बनाकर, हटाकर, संशोधित करके या विलय करके संसाधित किया, यह क्रिया कब की गई, और प्राथमिक स्रोत क्या था (गिल एट अल., 2010)। ओपनसाइटेशन मेटा के भीतर मेटाडेटा की विश्वसनीयता सुनिश्चित करने के लिए इस जानकारी का ट्रैक रखना महत्वपूर्ण है। वास्तव में, वेब और सिमेंटिक वेब पर किसी कथन की सच्चाई कभी भी पूर्ण नहीं होती है, और प्रत्येक एप्लिकेशन द्वारा अखंडता का आकलन किया जाना चाहिए जो इसके संदर्भ का मूल्यांकन करके जानकारी संसाधित करता है (कोइवुनेन और मिलर, 2001)।


हालांकि, सिद्धता की जानकारी संग्रहीत करने के अलावा, शोध मूल्यांकन अभ्यास जैसी गतिविधियों से निपटने के दौरान संस्थाओं के विकास को समझने के लिए तंत्र महत्वपूर्ण हैं, जहां सुधार या गलत विवरण के कारण संशोधन, किसी विद्वान, शोध समूह या संपूर्ण संस्थान के समग्र मूल्यांकन को प्रभावित कर सकते हैं। उदाहरण के लिए, किसी संस्थान का नाम समय के साथ बदल सकता है, और डेटाबेस में इन परिवर्तनों का प्रतिबिंब "संस्था के इतिहास के किसी भी ज्ञान के बिना सभी संस्थानों के नामों और इकाइयों की पहचान करना मुश्किल बनाता है" (प्रांकुटे, 2021)। डेटाबेस में डेटा कैसे विकसित हुआ, इसका ट्रैक रखकर इस परिदृश्य को रोका जा सकता है, इस प्रकार उपयोगकर्ताओं को बाहरी पृष्ठभूमि ज्ञान तक पहुँच के बिना ऐसी गतिशीलता को समझने में सक्षम बनाता है। हमारे ज्ञान के अनुसार, विद्वानों के मेटाडेटा का कोई अन्य शब्दार्थ डेटाबेस मानक RDF 1.1 में परिवर्तनों और सिद्धता का ट्रैक नहीं रखता है।


ओपनसाइटेशन्स द्वारा नियोजित उद्गम तंत्र प्रत्येक संग्रहीत इकाई के लिए एक प्रारंभिक निर्माण स्नैपशॉट का वर्णन करता है, जिसके बाद संभावित रूप से अन्य स्नैपशॉट होते हैं, जिसमें डेटा के संशोधन, विलय या विलोपन का विवरण होता है, जिनमें से प्रत्येक को उसके स्नैपशॉट नंबर के साथ चिह्नित किया जाता है, जैसा कि चित्र 6 में संक्षेप में दर्शाया गया है।


चित्र 6: किसी इकाई में हुए परिवर्तनों पर नज़र रखने के लिए OCDM की प्रोवेंस परत का उच्च-स्तरीय विवरण। किसी इकाई के पूरे इतिहास पर नज़र रखने के लिए, हमें उसके सबसे हाल के स्नैपशॉट के सभी ट्रिपल और पिछले स्नैपशॉट को संशोधित करके बनाए गए सभी डेल्टा को संग्रहीत करने की आवश्यकता है।


सिमेंटिक प्रतिनिधित्व के संबंध में, प्रोवेंस मॉडलिंग (सिकोस और फिलिप, 2020) और RDF (पेलग्रिन एट अल., 2021) में परिवर्तन-ट्रैकिंग की समस्या पर विद्वानों के साहित्य में चर्चा की गई है। आज तक, कोई भी साझा मानक दोनों उद्देश्यों को प्राप्त नहीं करता है। इस कारण से, ओपनसाइटेशन सबसे व्यापक रूप से साझा किए गए तरीकों को अपनाता है, जैसे कि नामित ग्राफ़ (कैरोल एट अल., 2005), प्रोवेंस ऑन्टोलॉजी (लेबो एट अल., 2013), और डबलिन कोर (बोर्ड, 2020)।


विशेष रूप से, प्रत्येक स्नैपशॉट prov:wasDerivedFrom predicate के माध्यम से पिछले एक से जुड़ा हुआ है और prov:specializationOf के माध्यम से उस इकाई से जुड़ा हुआ है जिसका यह वर्णन करता है। इसके अलावा, प्रत्येक स्नैपशॉट एक नामित ग्राफ से मेल खाता है जिसमें प्रोवेंस मेटाडेटा का वर्णन किया गया है, अर्थात् जिम्मेदार एजेंट (prov:wasAttributedTo), प्राथमिक स्रोत (prov:hadPrimarySource), पीढ़ी का समय (prov:generatedAtTime), और, एक अतिरिक्त स्नैपशॉट की पीढ़ी के बाद, अमान्यकरण समय (prov:invalidatedAtTime)। प्रत्येक स्नैपशॉट को वैकल्पिक रूप से क्या हुआ (dcterms:description) के प्राकृतिक भाषा विवरण द्वारा भी दर्शाया जा सकता है।


इसके अलावा, OCDM प्रोवेंस मॉडल एक नया प्रेडिकेट, oco:hasUpdateQuery जोड़ता है, जिसका वर्णन OpenCitations Ontology (Daquino & Peroni, 2019) में किया गया है, जो SPARQL UPDATE क्वेरी के माध्यम से किसी इकाई के दो संस्करणों के बीच डेल्टा को व्यक्त करता है। चित्र 7 एक ग्राफो आरेख के माध्यम से मॉडल को प्रदर्शित करता है।


चित्र 7: ग्रैफू आरेख जो एक इकाई (prov:specializationOf के माध्यम से लिंक) के स्नैपशॉट (prov:Entity) और संबंधित उद्गम जानकारी का वर्णन करता है


धारा 3.1 में वर्णित डीडुप्लीकेशन प्रक्रिया न केवल डेटासेट की वर्तमान स्थिति पर बल्कि परिवर्तन-ट्रैकिंग तंत्र को लागू करके इसके पूरे इतिहास पर होती है। दूसरे शब्दों में, यदि किसी पहचानकर्ता को ट्रिपलस्टोर से हटाए गए निकाय तक वापस खोजा जा सकता है, तो वह पहचानकर्ता हटाए गए निकाय के OMID से संबद्ध होगा। यदि विलोपन मर्ज चेन के कारण होता है, तो परिणामी निकाय का OMID प्राथमिकता लेता है। टाइम-ट्रैवर्सल क्वेरी पद्धति के बारे में अधिक जानकारी के लिए, देखें (मासारी और पेरोनी, 2022)। SPAR ऑन्टोलॉजी के अनुसार डेटा बनाने और परिवर्तनों को ट्रैक करने के लिए प्रोग्रामिंग इंटरफ़ेस पर अधिक जानकारी के लिए, देखें (पर्सियानी एट अल., 2022)।


यह पेपर CC 4.0 DEED लाइसेंस के अंतर्गत arxiv पर उपलब्ध है।