लेखक:
(1) आर्केंजेलो मसारी, ओपन स्कॉलरली मेटाडेटा के लिए अनुसंधान केंद्र, शास्त्रीय भाषाशास्त्र और इतालवी अध्ययन विभाग, बोलोग्ना विश्वविद्यालय, बोलोग्ना, इटली {[email protected]};
(2) फैबियो मारियानी, दर्शनशास्त्र और कला विज्ञान संस्थान, ल्यूफ़ाना विश्वविद्यालय, ल्यूनेबर्ग, जर्मनी {[email protected]};
(3) इवान हेइबी, ओपन स्कॉलरली मेटाडेटा के लिए अनुसंधान केंद्र, शास्त्रीय भाषाविज्ञान और इतालवी अध्ययन विभाग, बोलोग्ना विश्वविद्यालय, बोलोग्ना, इटली और डिजिटल मानविकी उन्नत अनुसंधान केंद्र (/DH.arc), शास्त्रीय भाषाविज्ञान और इतालवी अध्ययन विभाग, बोलोग्ना विश्वविद्यालय, बोलोग्ना, इटली {[email protected]};
(4) सिल्वियो पेरोनी, ओपन स्कॉलरली मेटाडेटा के लिए अनुसंधान केंद्र, शास्त्रीय भाषाशास्त्र और इतालवी अध्ययन विभाग, बोलोग्ना विश्वविद्यालय, बोलोग्ना, इटली और डिजिटल मानविकी उन्नत अनुसंधान केंद्र (/DH.arc), शास्त्रीय भाषाशास्त्र और इतालवी अध्ययन विभाग, बोलोग्ना विश्वविद्यालय, बोलोग्ना, इटली {[email protected]};
(5) डेविड शॉटन, ऑक्सफोर्ड ई-रिसर्च सेंटर, ऑक्सफोर्ड विश्वविद्यालय, ऑक्सफोर्ड, यूनाइटेड किंगडम {[email protected]}।
ओपनसाइटेशन मेटा को CSV प्रारूप (यानी सारणीबद्ध रूप) में इनपुट डेटा से पॉपुलेट किया जाता है। यह विकल्प आकस्मिक नहीं है। हमने पाया है कि CSV प्रारूप में ओपनसाइटेशन द्वारा प्रदर्शित डेटा (जैसे COCI (ओपनसाइटेशन, 2022) से) अधिक संरचित प्रारूपों (यानी JSON Scholix और RDF N-Quads) में समान डेटा की तुलना में अधिक बार डाउनलोड किया जाता है। यह छोटे फ़ाइल आकार (N-Quads और Scholix की तुलना में) और, सबसे बढ़कर, मानव के लिए सारणीबद्ध प्रारूप की उच्च पठनीयता के कारण है। उत्तरार्द्ध मुख्य कारण है कि ओपनसाइटेशन मेटा द्वारा अपनाया गया इनपुट प्रारूप CSV है, ताकि मानव क्यूरेटोरियल गतिविधियों (हेइबी एट अल।, 2019 ए) से ग्रंथसूची मेटाडेटा के भविष्य के क्राउडसोर्सिंग को सुविधाजनक बनाया जा सके।
ओपनसाइटेशन मेटा की इनपुट तालिका में ग्यारह कॉलम हैं, जो OCDM (डेक्विनो एट अल., 2020) के रैखिकीकरण के अनुरूप हैं: आईडी, शीर्षक, लेखक, संपादक, प्रकाशन तिथि, स्थान, वॉल्यूम, अंक, पृष्ठ, प्रकार और प्रकाशक। प्रत्येक फ़ील्ड की संरचना कैसे की जाती है, इसके गहन विवरण के लिए, कृपया देखें (मासारी और हेइबी, 2022)।
एक बार CSV सारणीबद्ध डेटा प्राप्त हो जाने के बाद, डेटा को पहले स्वचालित रूप से क्यूरेट किया जाता है (क्यूरेटर चरण) और फिर OCDM (क्रिएटर चरण) के आधार पर RDF में परिवर्तित किया जाता है। अंत में, क्यूरेट किए गए CSV और RDF को फ़ाइलों के रूप में संग्रहीत किया जाता है, जबकि संबंधित ट्रिपलस्टोर को क्रमिक रूप से पॉप्युलेट किया जाता है। चित्र 2 वर्कफ़्लो को सारांशित करता है।
क्यूरेशन प्रक्रिया प्राप्त डेटा की गुणवत्ता में सुधार करने के लिए तीन मुख्य क्रियाएं करती है: डुप्लीकेशन हटाना, संवर्धन, और सुधार।
डेटा डीडुप्लीकेशन के लिए चुना गया तरीका पूरी तरह से पहचानकर्ताओं पर आधारित है। दूसरे शब्दों में, दो अलग-अलग संस्थाओं को एक ही माना जाता है, अगर और केवल अगर, दोनों के पास एक ही पहचानकर्ता है, जैसे कि लेखों के लिए DOI, लोगों के लिए ORCID, किताबों के लिए ISBN और प्रकाशन स्थलों (जैसे जर्नल) के लिए ISSN।
एक ही पहचानकर्ता वाले विभिन्न संसाधनों को एक सटीक नियम का पालन करते हुए मर्ज किया जाता है: (1) यदि संसाधन एक ही CSV फ़ाइल का हिस्सा हैं, तो पहली घटना की जानकारी को प्राथमिकता दी जाती है। हालाँकि, (2) यदि संसाधन पहले से ही ट्रिपलस्टोर में वर्णित है, तो ट्रिपलस्टोर में जानकारी को प्राथमिकता दी जाएगी। दूसरे शब्दों में, हम ट्रिपलस्टोर में संग्रहीत जानकारी को विश्वसनीय मानते हैं, और इसे केवल CSV स्रोत से आने वाले अतिरिक्त डेटा के साथ बढ़ाया जा सकता है।
एक बार जब कोई इकाई डुप्लिकेट हो जाती है, तो उसे एक नया, स्थायी आंतरिक पहचानकर्ता सौंपा जाता है जिसे ओपनसाइटेशन मेटा आइडेंटिफ़ायर (OMID) कहा जाता है। OMID की संरचना [entity_type_abbreviation]/[supplier_prefix][sequential_number] होती है। उदाहरण के लिए, अब तक संसाधित किए गए पहले जर्नल लेख में OMID br/0601 है, जहाँ br "ग्रंथसूची संसाधन" का संक्षिप्त नाम है, और 060 आपूर्तिकर्ता उपसर्ग से मेल खाता है, जो उस डेटाबेस को इंगित करता है जिससे ग्रंथसूची संसाधन संबंधित है (इस मामले में, OpenCitations Meta)। अंत में, 1 इंगित करता है कि यह OMID उस उपसर्ग के लिए दर्ज किए गए इंडेक्स के पहले ग्रंथसूची संसाधन की पहचान करता है।
अधिक सटीक रूप से, OpenCitations मेटा के लिए उपयोग किया जाने वाला आपूर्तिकर्ता उपसर्ग “06[1-9]*0” है, यानी “06” के बाद वैकल्पिक रूप से शून्य को छोड़कर कोई भी संख्या और अंत में “0” हो सकता है। उदाहरण के लिए, “060”, “0610”, और “06230” OpenCitations मेटा में मान्य आपूर्तिकर्ता उपसर्ग हैं।
वे निकाय जो डीडुप्लीकेशन के अधीन हैं और बाद में OMID के साथ पहचाने जाते हैं, वे हैं बाहरी पहचानकर्ता (संक्षिप्त आईडी), एजेंट भूमिकाएँ (यानी लेखक, संपादक, प्रकाशक, संक्षिप्त ar), जिम्मेदार एजेंट (यानी लोग और संगठन, संक्षिप्त ra), संसाधन अवतार (यानी पृष्ठ, संक्षिप्त re), और स्थान, खंड और मुद्दे (जो सभी ग्रंथ सूची संसाधन हैं, संक्षिप्त br)। खंडों और मुद्दों में OMID होते हैं क्योंकि उन्हें लेखों की विशेषताओं के बजाय प्रथम श्रेणी के नागरिकों के रूप में माना जाता है। इसका लाभ यह है कि, उदाहरण के लिए, किसी विशिष्ट अंक के भीतर के पेपर, किसी नामित जर्नल के खंड या किसी निश्चित समय अवधि के भीतर प्रकाशित जर्नल के मुद्दों की खोज करने की अनुमति देता है। इसके विपरीत, शीर्षक और तिथियों को शाब्दिक मानों के रूप में माना जाता है, न कि संस्थाओं के रूप में।
चित्र 3 डीडुप्लीकेशन निर्णयात्मक वृक्ष को दर्शाता है। एक इनपुट इकाई और उसके पहचानकर्ता दिए जाने पर, छह संभावित परिणाम हैं:
यदि इकाई के पास कोई पहचानकर्ता नहीं है, या वे ट्रिपलस्टोर में मौजूद नहीं हैं, तो इकाई के लिए एक नया ओएमआईडी बनाया जाता है;
यदि इकाई के पास ओएमआईडी नहीं है, और यदि उसके बाह्य पहचानकर्ताओं में से एक पहले से ही एक और केवल एक अन्य इकाई के साथ संबद्ध है, तो दोनों इकाइयों को विलय कर दिया जाता है और उन्हें एक ही माना जाता है;
यदि CSV में इकाई के बाहरी पहचानकर्ता ट्रिपलस्टोर के भीतर दो या अधिक संस्थाओं को जोड़ते हैं जो अब तक अलग-अलग थे, और CSV में कोई OMID निर्दिष्ट नहीं है, तो एक संघर्ष उत्पन्न होता है जिसे स्वचालित रूप से हल नहीं किया जा सकता है और इसके लिए मैन्युअल हस्तक्षेप की आवश्यकता होगी। इस संघर्षशील इकाई के लिए एक नया OMID बनाया जाता है। उदाहरण के लिए, CSV में, एक ही जर्नल नाम दो पहचानकर्ताओं, issn:1588-2861 और issn:0138-9130 से जुड़ा हुआ है; हालाँकि, ट्रिपलस्टोर में, दो अलग-अलग संस्थाओं के लिए प्रविष्टियाँ हैं, एक पहचानकर्ता issn:1588-2861 के साथ और दूसरी पहचानकर्ता issn:0138-9130 के साथ, जो वास्तव में एक ही इकाई को संदर्भित करती हैं;
यदि CSV में किसी इकाई का OMID ट्रिपलस्टोर में मौजूद है और कोई अन्य ID मौजूद नहीं है, तो ट्रिपलस्टोर में मौजूद जानकारी CSV में मौजूद जानकारी को अधिलेखित कर देती है। ट्रिपलस्टोर को तब केवल गुम विवरणों को जोड़कर अपडेट किया जाता है। दूसरे शब्दों में, CSV में किसी इकाई के लिए उसका OMID निर्दिष्ट करना OpenCitations Meta के भीतर किसी मौजूदा इकाई को अपडेट करने का एक तरीका है;
यदि किसी इकाई में मौजूदा OMID है और अतिरिक्त पहचानकर्ता बिना OMID (CSV में) या समान OMID (CSV या ट्रिपलस्टोर में) वाली अन्य इकाइयों से जुड़े हैं, तो इकाइयों को मर्ज कर दिया जाता है। इसके अलावा, CSV में मौजूद जानकारी ट्रिपलस्टोर में पहले से उपलब्ध जानकारी के साथ अधिलेखित कर दी जाती है, और CSV में मौजूद गुम विवरण ट्रिपलस्टोर में जोड़ दिए जाते हैं;
अंत में, यदि बाहरी पहचानकर्ता ट्रिपलस्टोर में कई इकाइयों को अलग-अलग OMID से जोड़ते हैं, तो संघर्ष उत्पन्न होता है। इस मामले में, CSV में निर्दिष्ट OMID को प्राथमिकता दी जाती है, और केवल उस OMID वाली इकाइयों को ही मर्ज किया जाता है।
इन सामान्य नियमों को देखते हुए, तीन विशेष मामले विशेष चिंता के पात्र हैं। पहला उल्लेखनीय मुद्दा लेखकों और संपादकों के क्रम से संबंधित है, जिसे OCDM के अनुसार बनाए रखा जाना चाहिए। विलय की स्थिति में, जब इकाई पहली बार बनाई गई थी, तब दर्ज किया गया क्रम बाद के क्रम को अधिलेखित कर देता है, और किसी भी नए लेखक या संपादक को मौजूदा सूची के अंत में जोड़ा जाता है, जैसा कि चित्र 4 में दिखाया गया है।
दूसरे, दो ग्रंथसूची संसाधनों के विलय के संदर्भ में, बिना किसी पहचान के लेखक या संपादक के रूप में शामिल लोगों को उनके दिए गए और पारिवारिक नामों के आधार पर स्पष्ट किया जाता है।
अंतिम महत्वपूर्ण मामला लेखों, मुद्दों, खंडों और स्थानों के बीच निहित संबंध को शामिल करता है। यह संरचना विलय के मामले में संरक्षित है, जहां दो खंडों या मुद्दों को केवल तभी समान माना जाता है जब उनका मूल्य समान हो, जो एक अनुक्रमिक संख्या (जैसे "वॉल्यूम 1") या एक मनमाना नाम (जैसे "Clin_Sect") हो सकता है।
एक बार जब सभी इकाइयों को OMID मिल जाता है, तो डेटा सामान्यीकृत हो जाता है, और स्वचालित रूप से संभाली जा सकने वाली त्रुटियों को ठीक कर दिया जाता है। सभी पहचानकर्ताओं की जाँच उनकी पहचान योजना के आधार पर की जाती है - उदाहरण के लिए, ISBN, ISSN और ORCID की वाक्यविन्यास शुद्धता की गणना पहचान योजना के दस्तावेज़ीकरण द्वारा प्रदान किए गए विशिष्ट सूत्रों का उपयोग करके की जाती है। हालाँकि, पहचानकर्ताओं की शब्दार्थ शुद्धता केवल ORCID और DOI के लिए सत्यापित की जाती है, जो उनके वास्तविक अस्तित्व को सत्यापित करने के लिए खुले API का उपयोग करके किया जाता है - क्योंकि, उदाहरण के लिए, एक ORCID का उत्पादन करना संभव है जो वाक्यविन्यास रूप से मान्य है, लेकिन वास्तव में किसी व्यक्ति को असाइन नहीं किया गया है।
स्पेस के लिए इस्तेमाल किए जाने वाले सभी अस्पष्ट और वैकल्पिक वर्ण (जैसे टैब, नो-ब्रेक स्पेस, ईएम स्पेस) को स्पेस (यूनिकोड वर्ण U+0020) में बदल दिया जाता है। इसी तरह, आईडी, पेज, वॉल्यूम, अंक, लेखक और संपादकों के भीतर हाइफ़न के लिए अस्पष्ट वर्ण (जैसे नॉन-ब्रेकिंग हाइफ़न, एन डैश, माइनस साइन) को हाइफ़न-माइनस (यूनिकोड वर्ण U+002D) में बदल दिया जाता है।
ग्रंथसूची संसाधनों के शीर्षकों के संबंध में ("स्थल" और "शीर्षक" कॉलम), शीर्षक में प्रत्येक शब्द बड़े अक्षरों में लिखा जाता है, सिवाय उन शब्दों के जो बड़े अक्षरों में लिखे गए हैं (जो संभवतः संक्षिप्त रूप हैं, जैसे "FaBiO" और "CiTO")। हालाँकि, यह अपवाद पूरी तरह से बड़े अक्षरों में लिखे गए शीर्षकों के मामले को कवर नहीं करता है। लेखकों और संपादकों के लिए भी यही नियम लागू होता है, चाहे वे व्यक्ति हों या संगठन।
तिथियों को ISO 8601 (YYYYMM-DD) (वुल्फ और विकस्टीड, 1997) पर आधारित प्रारूप वैधता और मूल्य (जैसे 30 फरवरी एक वैध तिथि नहीं है) दोनों को ध्यान में रखते हुए पार्स किया जाता है। जहाँ आवश्यक हो, तिथि को छोटा कर दिया जाता है। उदाहरण के लिए, तिथि 2020-02-30 को 2020-02 में बदल दिया जाता है क्योंकि दी गई तिथि का दिन अमान्य है। इसी तरह, 2020- 27-12 को 2020 में छोटा कर दिया जाएगा क्योंकि महीना (और इसलिए दिन) अमान्य है। यदि वर्ष अमान्य है (जैसे 9999 से बड़ा वर्ष) तो तिथि को छोड़ दिया जाता है।
वॉल्यूम और अंक संख्या में सुधार कई नियमों पर आधारित है जो विशेष उल्लेख के योग्य हैं। सामान्य तौर पर, हमने त्रुटियों के छह वर्गों की पहचान की है जो हो सकते हैं, और प्रत्येक अलग वर्ग को तदनुसार संबोधित किया जाता है:
उपसर्ग त्रुटियाँ (जैसे “.38”). उपसर्ग हटा दिया गया है.
प्रत्यय त्रुटियाँ (जैसे “19/”). प्रत्यय हटा दिया गया है।
एनकोडिंग त्रुटियाँ (जैसे “5â\x80\x926”, “38â39”, “3???4”)। केवल चरम पर स्थित संख्याओं को ही रखा जाता है, जिन्हें एक हाइफ़न द्वारा अलग किया जाता है। इसलिए, उदाहरणों को क्रमशः “5-6”, “38-39”, और “3-4” में सुधारा जाता है, क्योंकि “â\x80\x92”, “â” और “???” गलत तरीके से एनकोड किए गए हाइफ़न हैं।
वॉल्यूम को समस्या के रूप में वर्गीकृत किया गया है (उदाहरण के लिए “समस्या” फ़ील्ड में “वॉल्यूम 1”)। यदि वॉल्यूम पैटर्न “समस्या” फ़ील्ड में पाया जाता है और “वॉल्यूम” फ़ील्ड खाली है, तो सामग्री को “वॉल्यूम” फ़ील्ड में ले जाया जाता है, और “समस्या” फ़ील्ड को शून्य पर सेट किया जाता है। हालाँकि, यदि “समस्या” फ़ील्ड में वॉल्यूम पैटर्न है और “वॉल्यूम” फ़ील्ड में समस्या पैटर्न है, तो दोनों मानों को स्वैप किया जाता है।
वॉल्यूम के रूप में वर्गीकृत मुद्दा (जैसे “वॉल्यूम” फ़ील्ड में “विशेष मुद्दा 2”)। इसे केस 5 की तरह ही संभाला जाता है, लेकिन उलटी भूमिकाओं में।
हमने उन पैटर्न को वॉल्यूम के रूप में माना जिसमें विभिन्न भाषाओं में "मूल श्रृंखला", "वॉल्यूम", "वॉल्यूम" और वॉल्यूम शामिल हैं, जैसे कि फ्रेंच में "टोम" और तुर्की में "सिल्ट"। उदाहरण के लिए, "मूल श्रृंखला", "वॉल्यूम 1", "वॉल्यूम 71", "टोम 1", और "सिल्ट: 1" को वॉल्यूम के रूप में वर्गीकृत किया गया है। इसके बजाय, हमने उन पैटर्न को मुद्दों के रूप में माना जिसमें विभिन्न भाषाओं में "मुद्दा", "विशेष मुद्दा" और मुद्दा शामिल हैं, जैसे कि "हॉर्सरी" (फ्रेंच में विशेष मुद्दा) और "ओज़ेल सई" (तुर्की में विशेष मुद्दा)। उदाहरण के लिए, "मुद्दा 2", "विशेष मुद्दा 2", "विशेष मुद्दा 'शहरी आकृति विज्ञान"", "ओज़ेल सई 5", और "हॉर्स-सीरी 5" को मुद्दों के रूप में वर्गीकृत किया गया है।
अंत में, यदि कोई मान अपने प्रारूप में अमान्य है और गलत फ़ील्ड में होने के कारण अमान्य है, तो ऐसे मान को पहले सही किया जाता है और फिर यदि उपयुक्त हो तो उसे सही फ़ील्ड में ले जाया जाता है।
एक बार इनपुट डेटा को स्पष्ट, समृद्ध और सही कर दिया जाता है, तो एक नई CSV फ़ाइल तैयार की जाती है और उसे संग्रहीत किया जाता है। यह फ़ाइल प्रक्रिया के पहले आउटपुट (चित्र 2 में 3a) को दर्शाती है।
इस चरण में, डेटा को OCDM (डेक्विनो एट अल., 2020) के बाद RDF में मॉडल किया जाता है। यह ऑन्टोलॉजी ग्रंथसूची संस्थाओं (fabio:Expression), पहचानकर्ता (datacite:Identifier), एजेंट भूमिकाएँ (pro:RoleInTime), जिम्मेदार एजेंट (foaf:Agent) और प्रकाशन प्रारूप विवरण (fabio:Manifestation) का प्रतिनिधित्व करने के लिए SPAR ऑन्टोलॉजी में परिभाषित संस्थाओं का पुनः उपयोग करती है। एजेंट की भूमिका (यानी लेखक, संपादक या प्रकाशक) का उपयोग ग्रंथसूची संसाधन और जिम्मेदार एजेंट, यानी व्यक्ति या संगठन के बीच प्रॉक्सी के रूप में किया जाता है। यह दृष्टिकोण हमें समय-निर्भर और संदर्भ-निर्भर भूमिकाओं और स्थितियों को परिभाषित करने में मदद करता है, जैसे कि लेखकों का क्रम (पेरोनी एट अल., 2012)। चित्र 5 ग्रैफू ग्राफिकल फ्रेमवर्क (फाल्को एट अल., 2014) के माध्यम से विभिन्न संस्थाओं के बीच संबंधों को दर्शाता है।
उदाहरण के लिए, ओपनसाइटेशन मेटा में OMID omid:br/062601067530 वाली इकाई का शीर्षक ओपन एक्सेस एंड ऑनलाइन पब्लिशिंग: ए न्यू फ्रंटियर इन नर्सिंग? (dcterms:title) है, और इसे 2012-07-25 (prism:publicationDate) पर प्रकाशित किया गया था। FRBR (टिललेट, 2005) का उपयोग करते हुए, लेख अंतिम प्रकाशित संस्करण है, या मूल कार्य (fabio:Expression) की अभिव्यक्ति है, जिसमें नमूने के रूप में इकाई omid:re/06260837633 (frbr:embodiment) है, जो जर्नल वॉल्यूम (prism:startingPage, prism:endingPage) के पृष्ठ 1905-1908 के अनुरूप मुद्रित प्रकाशन है। अधिक सटीक रूप से, यह लेख (frbr:partOf) अंक (fabio:JournalIssue) संख्या 9 (fabio:hasSequenceIdentifier) का हिस्सा है, जो कि स्थान जर्नल ऑफ एडवांस्ड नर्सिंग (fabio:Journal) के खंड (fabio:JournalVolume) संख्या 68 में समाहित है।
इसके अलावा, व्यक्ति (foaf:Agent) ग्लेन हंट (foaf:givenName, foaf:familyName) इस लेख (pro:isDocumentContextFor) के संदर्भ में पहला लेखक (pro:RoleInTime) है। इसी तरह, दूसरा लेखक मिशेल क्लेरी (pro:hasNext) है।
अंत में, इस प्रकाशन में OpenCitations मेटा आइडेंटिफ़ायर (OMID) omid:id/062601093630 (datacite:hasIdentifier) है, जो datacite:Identifier प्रकार की इकाई है। इसमें एक बाहरी पहचानकर्ता भी है, जो अपनी पहचानकर्ता योजना के रूप में एक डिजिटल ऑब्जेक्ट आइडेंटिफ़ायर (DOI) (datacite:usesIdentifierScheme) का उपयोग करता है और जिसका शाब्दिक मान “10.1111/j.1365- 2648.2012.06023.x” (शाब्दिक:hasLiteralValue) है।
एक बार मैपिंग पूरी हो जाने पर, उत्पादित आरडीएफ डेटा को संग्रहीत किया जा सकता है (चित्र 2 में 4ए) और ट्रिपलस्टोर (चित्र 2 में 4बी) पर अपलोड किया जा सकता है।
उनके मेटाडेटा को संभालने के अलावा, ओपनसाइटेशन मेटा में इकाइयों के लिए सिद्धता और परिवर्तन ट्रैकिंग को बहुत महत्व दिया जाता है। सिद्धता एक रिकॉर्ड है कि किसने किसी विशिष्ट इकाई को बनाकर, हटाकर, संशोधित करके या विलय करके संसाधित किया, यह क्रिया कब की गई, और प्राथमिक स्रोत क्या था (गिल एट अल., 2010)। ओपनसाइटेशन मेटा के भीतर मेटाडेटा की विश्वसनीयता सुनिश्चित करने के लिए इस जानकारी का ट्रैक रखना महत्वपूर्ण है। वास्तव में, वेब और सिमेंटिक वेब पर किसी कथन की सच्चाई कभी भी पूर्ण नहीं होती है, और प्रत्येक एप्लिकेशन द्वारा अखंडता का आकलन किया जाना चाहिए जो इसके संदर्भ का मूल्यांकन करके जानकारी संसाधित करता है (कोइवुनेन और मिलर, 2001)।
हालांकि, सिद्धता की जानकारी संग्रहीत करने के अलावा, शोध मूल्यांकन अभ्यास जैसी गतिविधियों से निपटने के दौरान संस्थाओं के विकास को समझने के लिए तंत्र महत्वपूर्ण हैं, जहां सुधार या गलत विवरण के कारण संशोधन, किसी विद्वान, शोध समूह या संपूर्ण संस्थान के समग्र मूल्यांकन को प्रभावित कर सकते हैं। उदाहरण के लिए, किसी संस्थान का नाम समय के साथ बदल सकता है, और डेटाबेस में इन परिवर्तनों का प्रतिबिंब "संस्था के इतिहास के किसी भी ज्ञान के बिना सभी संस्थानों के नामों और इकाइयों की पहचान करना मुश्किल बनाता है" (प्रांकुटे, 2021)। डेटाबेस में डेटा कैसे विकसित हुआ, इसका ट्रैक रखकर इस परिदृश्य को रोका जा सकता है, इस प्रकार उपयोगकर्ताओं को बाहरी पृष्ठभूमि ज्ञान तक पहुँच के बिना ऐसी गतिशीलता को समझने में सक्षम बनाता है। हमारे ज्ञान के अनुसार, विद्वानों के मेटाडेटा का कोई अन्य शब्दार्थ डेटाबेस मानक RDF 1.1 में परिवर्तनों और सिद्धता का ट्रैक नहीं रखता है।
ओपनसाइटेशन्स द्वारा नियोजित उद्गम तंत्र प्रत्येक संग्रहीत इकाई के लिए एक प्रारंभिक निर्माण स्नैपशॉट का वर्णन करता है, जिसके बाद संभावित रूप से अन्य स्नैपशॉट होते हैं, जिसमें डेटा के संशोधन, विलय या विलोपन का विवरण होता है, जिनमें से प्रत्येक को उसके स्नैपशॉट नंबर के साथ चिह्नित किया जाता है, जैसा कि चित्र 6 में संक्षेप में दर्शाया गया है।
सिमेंटिक प्रतिनिधित्व के संबंध में, प्रोवेंस मॉडलिंग (सिकोस और फिलिप, 2020) और RDF (पेलग्रिन एट अल., 2021) में परिवर्तन-ट्रैकिंग की समस्या पर विद्वानों के साहित्य में चर्चा की गई है। आज तक, कोई भी साझा मानक दोनों उद्देश्यों को प्राप्त नहीं करता है। इस कारण से, ओपनसाइटेशन सबसे व्यापक रूप से साझा किए गए तरीकों को अपनाता है, जैसे कि नामित ग्राफ़ (कैरोल एट अल., 2005), प्रोवेंस ऑन्टोलॉजी (लेबो एट अल., 2013), और डबलिन कोर (बोर्ड, 2020)।
विशेष रूप से, प्रत्येक स्नैपशॉट prov:wasDerivedFrom predicate के माध्यम से पिछले एक से जुड़ा हुआ है और prov:specializationOf के माध्यम से उस इकाई से जुड़ा हुआ है जिसका यह वर्णन करता है। इसके अलावा, प्रत्येक स्नैपशॉट एक नामित ग्राफ से मेल खाता है जिसमें प्रोवेंस मेटाडेटा का वर्णन किया गया है, अर्थात् जिम्मेदार एजेंट (prov:wasAttributedTo), प्राथमिक स्रोत (prov:hadPrimarySource), पीढ़ी का समय (prov:generatedAtTime), और, एक अतिरिक्त स्नैपशॉट की पीढ़ी के बाद, अमान्यकरण समय (prov:invalidatedAtTime)। प्रत्येक स्नैपशॉट को वैकल्पिक रूप से क्या हुआ (dcterms:description) के प्राकृतिक भाषा विवरण द्वारा भी दर्शाया जा सकता है।
इसके अलावा, OCDM प्रोवेंस मॉडल एक नया प्रेडिकेट, oco:hasUpdateQuery जोड़ता है, जिसका वर्णन OpenCitations Ontology (Daquino & Peroni, 2019) में किया गया है, जो SPARQL UPDATE क्वेरी के माध्यम से किसी इकाई के दो संस्करणों के बीच डेल्टा को व्यक्त करता है। चित्र 7 एक ग्राफो आरेख के माध्यम से मॉडल को प्रदर्शित करता है।
धारा 3.1 में वर्णित डीडुप्लीकेशन प्रक्रिया न केवल डेटासेट की वर्तमान स्थिति पर बल्कि परिवर्तन-ट्रैकिंग तंत्र को लागू करके इसके पूरे इतिहास पर होती है। दूसरे शब्दों में, यदि किसी पहचानकर्ता को ट्रिपलस्टोर से हटाए गए निकाय तक वापस खोजा जा सकता है, तो वह पहचानकर्ता हटाए गए निकाय के OMID से संबद्ध होगा। यदि विलोपन मर्ज चेन के कारण होता है, तो परिणामी निकाय का OMID प्राथमिकता लेता है। टाइम-ट्रैवर्सल क्वेरी पद्धति के बारे में अधिक जानकारी के लिए, देखें (मासारी और पेरोनी, 2022)। SPAR ऑन्टोलॉजी के अनुसार डेटा बनाने और परिवर्तनों को ट्रैक करने के लिए प्रोग्रामिंग इंटरफ़ेस पर अधिक जानकारी के लिए, देखें (पर्सियानी एट अल., 2022)।
यह पेपर CC 4.0 DEED लाइसेंस के अंतर्गत arxiv पर उपलब्ध है।