paint-brush
OpenCitations মেটা: বিমূর্ত এবং ভূমিকাদ্বারা@categorize
106 পড়া

OpenCitations মেটা: বিমূর্ত এবং ভূমিকা

অতিদীর্ঘ; পড়তে

featured image - OpenCitations মেটা: বিমূর্ত এবং ভূমিকা
Categorize.Tech: Organizing the World of Software HackerNoon profile picture
0-item

লেখক:

(1) Arcangelo Massari, রিসার্চ সেন্টার ফর ওপেন স্কলারলি মেটাডেটা, ক্লাসিক্যাল ফিলোলজি এবং ইতালিয়ান স্টাডিজ বিভাগ, বোলোগনা বিশ্ববিদ্যালয়, বোলোগনা, ইতালি {[email protected]};

(2) ফ্যাবিও মারিয়ানি, ইনস্টিটিউট অফ ফিলোসফি অ্যান্ড সায়েন্সেস অফ আর্ট, লিউফানা ইউনিভার্সিটি, লুনেবার্গ, জার্মানি {[email protected]};

(3) ইভান হেইবি, রিসার্চ সেন্টার ফর ওপেন স্কলারলি মেটাডেটা, ক্লাসিক্যাল ফিলোলজি এবং ইতালিয়ান স্টাডিজ বিভাগ, ইউনিভার্সিটি অফ বোলোগনা, বোলোগনা, ইতালি এবং ডিজিটাল হিউম্যানিটিজ অ্যাডভান্সড রিসার্চ সেন্টার (/DH.arc), ক্লাসিক্যাল ফিলোলজি এবং ইতালিয়ান স্টাডিজ বিভাগ, বিশ্ববিদ্যালয় বোলোগনা, বোলোগনা, ইতালি {[email protected]};

(4) সিলভিও পেরোনি, রিসার্চ সেন্টার ফর ওপেন স্কলারলি মেটাডেটা, ক্লাসিক্যাল ফিলোলজি এবং ইতালিয়ান স্টাডিজ বিভাগ, ইউনিভার্সিটি অফ বোলোগনা, বোলোগনা, ইতালি এবং ডিজিটাল হিউম্যানিটিজ অ্যাডভান্সড রিসার্চ সেন্টার (/DH.arc), ক্লাসিক্যাল ফিলোলজি এবং ইতালিয়ান স্টাডিজ বিভাগ, বিশ্ববিদ্যালয় বোলোগনা, বোলোগনা, ইতালি {[email protected]};

(5) ডেভিড শটন, অক্সফোর্ড ই-রিসার্চ সেন্টার, অক্সফোর্ড বিশ্ববিদ্যালয়, অক্সফোর্ড, যুক্তরাজ্য {[email protected]}।

লিঙ্কের টেবিল

বিমূর্ত

OpenCitations Meta হল একটি নতুন ডাটাবেস যাতে OpenCitations পরিকাঠামো দ্বারা সূচিত করা উদ্ধৃতিগুলির সাথে জড়িত পণ্ডিত প্রকাশনার গ্রন্থপঞ্জী সংক্রান্ত মেটাডেটা রয়েছে। এটি ওপেন সায়েন্স নীতিগুলি মেনে চলে এবং সর্বাধিক পুনঃব্যবহারের জন্য CC0 লাইসেন্সের অধীনে ডেটা সরবরাহ করে। একটি SPARQL এন্ডপয়েন্ট, REST API এবং ডাম্পের মাধ্যমে ডেটা অ্যাক্সেস করা যেতে পারে। OpenCitations Meta তিনটি গুরুত্বপূর্ণ উদ্দেশ্যে কাজ করে। প্রথমত, এটি বিভিন্ন উত্স থেকে বিভিন্ন শনাক্তকারী ব্যবহার করে বর্ণিত প্রকাশনার মধ্যে উদ্ধৃতিগুলির দ্ব্যর্থতা নিরসন সক্ষম করে৷ উদাহরণস্বরূপ, এটি Crossref-এ DOI এবং PubMed-এ PMID-এর দ্বারা চিহ্নিত প্রকাশনাগুলিকে লিঙ্ক করতে পারে। দ্বিতীয়ত, এটি নতুন গ্লোবাল পারসিসটেন্ট আইডেন্টিফায়ার (পিআইডি) বরাদ্দ করে, যা ওপেনসিটেশন মেটা আইডেন্টিফায়ার (ওএমআইডি) নামে পরিচিত, DOI-এর মতো বিদ্যমান বাহ্যিক স্থায়ী শনাক্তকারী ছাড়া গ্রন্থপঞ্জী সংস্থানগুলিতে। সবশেষে, গ্রন্থপঞ্জী সংক্রান্ত মেটাডেটা অভ্যন্তরীণভাবে হোস্ট করার মাধ্যমে, OpenCitations Meta উদ্ধৃতি এবং উদ্ধৃত নথিগুলির জন্য মেটাডেটা পুনরুদ্ধারের গতি উন্নত করে। ডাটাবেসটি স্বয়ংক্রিয় ডেটা কিউরেশনের মাধ্যমে তৈরি করা হয়, যার মধ্যে ডিডুপ্লিকেশন, ত্রুটি সংশোধন এবং মেটাডেটা সমৃদ্ধকরণ। ওপেনসিটেশন ডেটা মডেল অনুসরণ করে ডেটা RDF ফরম্যাটে সংরক্ষণ করা হয়, এবং পরিবর্তন এবং মূল তথ্য ট্র্যাক করা হয়। OpenCitations Meta এবং এর উৎপাদন। OpenCitations Meta বর্তমানে Crossref, DataCite, এবং NIH ওপেন উদ্ধৃতি সংগ্রহ থেকে ডেটা অন্তর্ভুক্ত করে। শব্দার্থিক প্রকাশনা ডেটাসেটের পরিপ্রেক্ষিতে, এটি বর্তমানে ডেটা ভলিউমের মধ্যে প্রথম।



মূলশব্দগুলি — পাণ্ডিত্যপূর্ণ উদ্ধৃতি, গ্রন্থপঞ্জী সংক্রান্ত মেটাডেটা, উদ্ভব, পরিবর্তন-ট্র্যাকিং, উন্মুক্ত বিজ্ঞান, ওপেন উদ্ধৃতি

1। পরিচিতি

OpenCitations হল একটি স্বাধীন অলাভজনক অবকাঠামো সংস্থা যা ওপেন স্কলারশিপের জন্য নিবেদিত ওপেন গ্রন্থপঞ্জি এবং উদ্ধৃতি ডেটা প্রকাশ করার জন্য নিবেদিত শব্দার্থিক ওয়েব প্রযুক্তি ব্যবহার করে। OpenCitations স্কলারলি উদ্ধৃতি সম্পর্কে তথ্য সঞ্চয় করে এবং পরিচালনা করে, যেমন একটি উদ্ধৃত সত্তার সাথে একটি উদ্ধৃত সত্তার সাথে সংযোগকারী ধারণাগত লিঙ্ক, OpenCitations Indexes-এ। এখন পর্যন্ত, চারটি ওপেনসিটেশন সূচক রয়েছে: COCI (https://opencitations.net/index/coci), ক্রসরেফের ওপেনসিটেশন সূচক DOI-to-DOI উদ্ধৃতিগুলি (Heibi et al., 2019b); POCI (https://opencitations.net/ index/poci), PubMed-এর OpenCitations Index ওপেন PMID-to-PMID উদ্ধৃতি; DOCI (https://opencitations.net/index/doci), DataCite-এর OpenCitations Index DOI-to-DOI উদ্ধৃতিগুলি খোলা; এবং CROCI (https://opencitations.net/index/croci), ক্রাউডসোর্সড ওপেন সাইটেশন ইনডেক্স (Heibi et al., 2019a)।


যদিও ওপেনসিটেশন ইনডেক্সের কভারেজ বাণিজ্যিক মালিকানা উদ্ধৃতি সূচীর সাথে সমতা পেয়েছে (দেখুন https://opencitations.hypotheses.org/ 1420), সেখানে অসামান্য সমস্যা রয়েছে যা আগে OpenCitations দ্বারা সমাধান করা হয়নি।


প্রথম উদ্ধৃতি দ্ব্যর্থতা. কখনও কখনও, গ্রন্থপঞ্জী সংক্রান্ত সংস্থানগুলিকে একাধিক শনাক্তকারী বরাদ্দ করা হবে, যেমন একটি DOI এবং একটি PMID। এই ধরনের ক্ষেত্রে, একই উদ্ধৃতি ডেটা উৎসের উপর নির্ভর করে বিভিন্ন উপায়ে গুণিত হতে পারে। উদাহরণ স্বরূপ, OpenCitations COCI-তে একটি DOI-to-DOI উদ্ধৃতি হিসাবে Crossref থেকে প্রাপ্ত মেটাডেটা ব্যবহার করে দুটি প্রকাশনার মধ্যে একটি উদ্ধৃতি বর্ণনা করবে, এবং POCI-তে PubMed থেকে PMID-টু-PMID উদ্ধৃতি হিসাবে প্রাপ্ত মেটাডেটা ব্যবহার করে একই উদ্ধৃতি। প্রতিটি নথির অন্তর্মুখী এবং বহির্গামী উদ্ধৃতিগুলির সংখ্যা গণনা করার সময় এই অনুলিপি সমস্যা তৈরি করে, যা লাইব্রেরি, জার্নাল এবং সায়েন্টমেট্রিক্স অধ্যয়নের জন্য একটি গুরুত্বপূর্ণ পরিসংখ্যান। OpenCitations Meta-এর ব্যবহার আমাদেরকে এই ধরনের উদ্ধৃতিগুলিকে ডিডপ্লিকেট করার অনুমতি দেয় এবং এই ধরনের নকল অন্যথায় যে সমস্যার কারণ হতে পারে সেগুলি সমাধান করতে দেয়।


দ্বিতীয়ত, নথিতে বিশ্বব্যাপী ক্রমাগত শনাক্তকারীর নিয়োগ সমস্ত পণ্ডিত ক্ষেত্র জুড়ে সর্বজনীন অনুশীলন নয়। গোরাইজ এট আল। (2016) দেখিয়েছে যে প্রাকৃতিক এবং সামাজিক বিজ্ঞান সম্প্রদায়গুলি শিল্প ও মানবিক সম্প্রদায়ের চেয়ে অনেক বেশি পরিমাণে DOI গ্রহণ করে৷ স্কোপাস এবং ওয়েব অফ সায়েন্স কোর কালেকশনে পরিচালিত সেই গবেষণা থেকে এটি উঠে এসেছে যে বিজ্ঞান এবং সামাজিক বিজ্ঞানের প্রায় 90% প্রকাশনা একটি DOI-এর সাথে যুক্ত, যেখানে শিল্প ও মানবিক বিভাগে এই সংখ্যা মাত্র 50%। উপরন্তু, মানবিক বিষয়ে, DOI-র (যেমন অ্যারিস্টটল) অভাব নেই এমন প্রাচীন প্রাথমিক উত্সগুলির উদ্ধৃতিগুলি অনেক ক্ষেত্রে (যেমন ইতিহাসে) প্রয়োজন। যদি একটি নথির কোনো শনাক্তকারী না থাকে, তবে এর মেটাডেটা FAIR নীতিগুলিকে সম্মান করে না (Wilkinson et al., 2016) যে পণ্ডিত ডিজিটাল গবেষণা বস্তুগুলি অবশ্যই সন্ধানযোগ্য, অ্যাক্সেসযোগ্য, ইন্টারঅপারেবল এবং পুনরায় ব্যবহারযোগ্য হতে হবে। একটি বিশ্বব্যাপী অনন্য এবং অবিচ্ছিন্ন শনাক্তকারী মেটাডেটা সন্ধানযোগ্য এবং অ্যাক্সেসযোগ্য করার জন্য গুরুত্বপূর্ণ। অধিকন্তু, একটি শনাক্তকারী ব্যতীত একটি গ্রন্থপঞ্জী সংস্থান FAIR নীতিগুলি মেনে চলার বর্ণনা করা থেকে এর সাথে জড়িত উদ্ধৃতিগুলিকে বাধা দেয়। এই কারণেই, OpenCitation Indexes-এর জনসংখ্যা নিয়ন্ত্রণকারী Open Citation Definition (Peroni & Shotton, 2018) অনুসারে, একটি সূচীকৃত উদ্ধৃতি দ্বারা সংযুক্ত যেকোন দুটি সত্তাকে একই শনাক্তকারী স্কিম থেকে আসা একটি স্থায়ী শনাক্তকারী দ্বারা চিহ্নিত করতে হবে, DOI এর সাথে অথবা PubMed ID এর সাথে উভয়ের উদাহরণ। উদাহরণস্বরূপ, COCI (Heibi et al., 2019b) শুধুমাত্র উদ্ধৃতি তথ্য সংরক্ষণ করে যেখানে উদ্ধৃতি এবং উদ্ধৃত সত্তাগুলি Crossref-এ বর্ণনা করা হয়েছে এবং উভয়েরই DOI আছে। DOI বা অন্যান্য স্বীকৃত PID-এর অভাব প্রকাশনা জড়িত উদ্ধৃতিগুলি এখনও পর্যন্ত OpenCitations উদ্ধৃতি সূচী থেকে বাদ দেওয়া হয়েছে।


কিন্তু এখন, OpenCitations Meta ওপেনসিটেশন মেটা - একটি OpenCitations Meta আইডেন্টিফায়ার (OMID) -এ বর্ণিত প্রতিটি নথিতে একটি নতুন বিশ্বব্যাপী স্থায়ী শনাক্তকারী সংযুক্ত করে, একাধিক শনাক্তকারী দ্বারা চিহ্নিত গ্রন্থপঞ্জী সংক্রান্ত সংস্থানগুলির দ্বারা সৃষ্ট সমস্যার সমাধান করে এবং স্থায়ী শনাক্তকারীর অভাবের গ্রন্থপঞ্জী সংক্রান্ত সংস্থানগুলিও সমাধান করে৷ এইভাবে, সমস্ত উদ্ধৃতি OMID-থেকে-OMID উদ্ধৃতি (চিত্র 1) হিসাবে উপস্থাপন করা যেতে পারে। OpenCitations Meta-তে সংরক্ষিত প্রতিটি সত্তার জন্য একটি অনন্য শনাক্তকারী প্রদান করে, সত্তার OMID প্রতিটি সত্তার জন্য ব্যবহৃত বিভিন্ন বহিরাগত শনাক্তকারীর মধ্যে একটি প্রক্সি হিসেবে কাজ করে, দ্ব্যর্থতা নিরসন সক্ষম করে। তাছাড়া, ওপেনসিটেশন মেটাতে সমস্ত পণ্ডিত প্রকাশনার জন্য মেটাডেটা থাকতে পারে, প্রতিটি OMID দ্বারা চিহ্নিত করা হয়েছে, মেটাডেটার উত্স দ্বারা একটি বহিরাগত স্থায়ী সনাক্তকারীর বাধ্যতামূলক প্রয়োজন ছাড়াই।


সুতরাং, ওপেনসিটেশন মেটাকে ধন্যবাদ, সমস্ত পাণ্ডিত্যপূর্ণ প্রকাশনার মেটাডেটা এখন OpenCitations দ্বারা সংরক্ষণ করা যেতে পারে, এবং এই ধরনের সমস্ত প্রকাশনাকে লিঙ্ক করে এমন উদ্ধৃতিগুলি একটি নতুন অন্তর্ভুক্ত ওপেনসিটেশন সূচকের মধ্যে অন্তর্ভুক্ত করা যেতে পারে, যার মধ্যে অন্যান্য সূচকগুলি (COCI, DOCI, POCI, ইত্যাদি) উদ্ধৃতি তথ্যের বিভিন্ন ইনপুট উত্স অনুসারে সাব-ইনডেক্স হবে।


তৃতীয়টি হল ওপেনসিটেশনের পরিষেবাগুলির পূর্বে দুর্বল সাময়িক কর্মক্ষমতা, বিশেষত এপিআই অপারেশনগুলি উদ্ধৃতি এবং উদ্ধৃত সংস্থানগুলির মৌলিক গ্রন্থপঞ্জী মেটাডেটা প্রদান করে। এর কারণ হল ওপেনসিটেশন ইনডেক্সে এখনও পর্যন্ত শুধুমাত্র উদ্ধৃতি-সম্পর্কিত মেটাডেটা রয়েছে (উদ্ধৃতিগুলিকে তাদের নিজস্ব মেটাডেটা সহ প্রথম শ্রেণীর ডেটা সত্তা হিসাবে বিবেচনা করা হচ্ছে), কিন্তু উদ্ধৃতি এবং উদ্ধৃত সত্তাগুলির (শিরোনাম, লেখক, পৃষ্ঠা নম্বর) সম্পর্কিত গ্রন্থপঞ্জী মেটাডেটা রাখা হয়নি , ইত্যাদি)। বরং, এই মেটাডেটাগুলি এখন পর্যন্ত ক্রসরেফ, ওআরসিআইডি এবং ডেটাসাইটের মতো বাহ্যিক পরিষেবাগুলিতে স্পষ্ট API অনুরোধের মাধ্যমে ফ্লাইতে পুনরুদ্ধার করা হয়েছে


বিগত তিন বছরে, উপরে উল্লিখিত সমস্যাগুলির সমাধান করার জন্য, আমরা যে সফ্টওয়্যারটি তৈরি করেছি এবং পরীক্ষা করেছি আমরা এখন একটি নতুন গ্রন্থপঞ্জি মেটাডেটা সংগ্রহ তৈরি করতে ব্যবহার করছি, যেমন OpenCitations Meta, যা আমরা ডিসেম্বর 2022 সালে চালু করেছি। এই ডাটাবেস সমর্থনকারী সফ্টওয়্যারটি খোলা আছে উত্স, এবং https://github.com/ opencitations/oc_meta এ উপলব্ধ। OpenCitations Meta দ্বারা উন্মোচিত মেটাডেটা একটি পণ্ডিত গ্রন্থপঞ্জী সম্পদ বর্ণনা করে মৌলিক গ্রন্থপঞ্জী মেটাডেটা অন্তর্ভুক্ত করে। বিশেষ করে, এটি গ্রন্থপঞ্জী সংক্রান্ত সম্পদের (যেমন DOI, PMID, ISSN, এবং ISBN), শিরোনাম, ধরন, প্রকাশনার তারিখ, পৃষ্ঠা, সম্পদের স্থান, এবং ভলিউম এবং ইস্যু নম্বর যেখানে গ্রন্থপঞ্জী সংক্রান্ত সম্পদের জন্য সমস্ত পরিচিত গ্রন্থপঞ্জী সম্পদ শনাক্তকারী সংরক্ষণ করে। স্থান একটি জার্নাল. এছাড়াও, OpenCitations Meta-তে প্রতিটি গ্রন্থপঞ্জী সম্পদের প্রকাশনার সাথে জড়িত প্রধান অভিনেতাদের সম্পর্কিত মেটাডেটা রয়েছে, যেমন লেখক, সম্পাদক এবং প্রকাশকদের নাম, যেখানে উপলব্ধ রয়েছে তাদের নিজস্ব স্থায়ী শনাক্তকারী (যেমন ORCID) সহ। পরবর্তী তারিখে অতিরিক্ত মেটাডেটা ক্ষেত্র (যেমন লেখকদের প্রতিষ্ঠান এবং তহবিল তথ্য) যোগ করা আমাদের উদ্দেশ্য।


চিত্র 1: যদি একটি নথি একাধিক শনাক্তকারী দ্বারা বর্ণনা করা হয়, যেমন, Crossref থেকে একটি DOI এবং Pubmed থেকে একটি PMID, এটির সাথে জড়িত উদ্ধৃতিগুলি একাধিক উপায়ে বর্ণনা করা যেতে পারে, একটি অস্পষ্টতা এবং অনুলিপি সমস্যা তৈরি করে। ওপেনসিটেশন মেটা আইডেন্টিফায়ারের ব্যবহার বিভিন্ন বাহ্যিক শনাক্তকারীর মধ্যে প্রক্সি হিসেবে কাজ করে এই সমস্যার সমাধান করে


OpenCitations Meta তৈরির প্রক্রিয়াটিকে দুটি ধাপে ভাগ করা যায়। প্রথম ধাপে ইনপুট ডেটার কিউরেশন জড়িত। কিউরেটরিয়াল পদ্ধতিটি ত্রুটিগুলির স্বয়ংক্রিয় সংশোধন, ডেটা বিন্যাসের মানককরণ এবং একই আইটেমের জন্য পৃথক মেটাডেটা এন্ট্রিগুলির অনুলিপিকে উদ্বিগ্ন করে। ডিডপ্লিকেশন প্রক্রিয়া শুধুমাত্র শনাক্তকারীর উপর ভিত্তি করে। এই পদ্ধতিটি প্রত্যাহার করার চেয়ে সূক্ষ্মতাকে সমর্থন করে: উদাহরণ স্বরূপ, লোকেদের শুধুমাত্র যদি তাদের একটি নির্ধারিত ORCID থাকে তবে তাদের অনুলিপি করা হয়, এবং অন্য হিউরিস্টিক দ্বারা কখনই নয়। স্বাভাবিককরণ এবং ডিডপ্লিকেশন পর্যায়গুলির পরে, প্রতিটি সত্তাকে একটি ওপেনসিটেশন মেটা আইডেন্টিফায়ার (OMID) বরাদ্দ করা হয়, এটির ইতিমধ্যে একটি বাহ্যিক স্থায়ী শনাক্তকারী (যেমন DOI, PubMed ID, ISBN) থাকুক বা না থাকুক।


OpenCitations Meta পপুলেট করার দ্বিতীয় ধাপে কাঁচা ইনপুট ডেটাকে RDF (লিঙ্কড ওপেন ডেটা ফরম্যাট) তে রূপান্তর করা ওপেনসিটেশন ডেটা মডেল (OCDM) (Daquino et al., 2020) এর সাথে সঙ্গতিপূর্ণ, যাতে SPARQL-এর মাধ্যমে এই ধরনের ডেটা অনুসন্ধান করা যায়। এই প্রক্রিয়া চলাকালীন, প্রবর্তন এবং পরিবর্তন-ট্র্যাকিং-এর প্রতি খুব মনোযোগ দেওয়া হয়: প্রতিবারই একটি সত্তা তৈরি, পরিবর্তিত, মুছে ফেলা বা একত্রিত করা হয়, এই ধরনের পরিবর্তনগুলি RDF-তে রেকর্ড করা হয় এবং তাদের সৃষ্টির তারিখ, প্রাথমিক উত্স এবং দায়ী এজেন্ট দ্বারা চিহ্নিত করা হয়। .


বাকি কাগজ নিম্নরূপ সংগঠিত হয়. বিভাগ 2 অন্যান্য শব্দার্থিক প্রকাশনা ডেটাসেট পর্যালোচনা করে। পরবর্তীকালে, বিভাগ 3-এ, ওপেনসিটেশন মেটা তৈরির জন্য গৃহীত পদ্ধতিগত পদ্ধতির বিস্তারিতভাবে উপস্থাপন করা হয়েছে, কিউরেটরিয়াল ফেজ (3.1) দিয়ে শুরু করে, তারপর ত্রুটি সংশোধন (3.2) বর্ণনা করে, OCDM অনুযায়ী RDF-তে ডেটা অনুবাদের ব্যাখ্যায় চলে যায়। (3.3), এবং RDF প্রোভেন্যান্স এবং পরিবর্তন-ট্র্যাকিং ডেটা (3.4) উৎপাদনের বর্ণনা দিয়ে উপসংহার। বিভাগ 4 বর্তমান OpenCitations মেটা ডেটাসেট সম্পর্কিত কিছু বর্ণনামূলক পরিসংখ্যান প্রদান করে। পরিশেষে, বিভাগ 5 ওপেনসিটেশন মেটা-এর কিছু বর্তমান সীমাবদ্ধতা নিয়ে আলোচনা করে, এবং একই ধরনের পণ্ডিত ডেটাসেটের মধ্যে OpenCitations Meta কোথায় দাঁড়িয়েছে তার একটি বিবেচনা।


এই কাগজটি CC 4.0 DEED লাইসেন্সের অধীনে arxiv-এ উপলব্ধ