paint-brush
OpenCitations Meta: পদ্ধতিদ্বারা@categorize

OpenCitations Meta: পদ্ধতি

অতিদীর্ঘ; পড়তে

featured image - OpenCitations Meta: পদ্ধতি
Categorize.Tech: Organizing the World of Software HackerNoon profile picture
0-item

লেখক:

(1) Arcangelo Massari, রিসার্চ সেন্টার ফর ওপেন স্কলারলি মেটাডেটা, ক্লাসিক্যাল ফিলোলজি এবং ইতালিয়ান স্টাডিজ বিভাগ, বোলোগনা বিশ্ববিদ্যালয়, বোলোগনা, ইতালি {[email protected]};

(2) ফ্যাবিও মারিয়ানি, ইনস্টিটিউট অফ ফিলোসফি অ্যান্ড সায়েন্সেস অফ আর্ট, লিউফানা ইউনিভার্সিটি, লুনেবার্গ, জার্মানি {[email protected]};

(3) ইভান হেইবি, রিসার্চ সেন্টার ফর ওপেন স্কলারলি মেটাডেটা, ক্লাসিক্যাল ফিলোলজি এবং ইতালিয়ান স্টাডিজ বিভাগ, ইউনিভার্সিটি অফ বোলোগনা, বোলোগনা, ইতালি এবং ডিজিটাল হিউম্যানিটিজ অ্যাডভান্সড রিসার্চ সেন্টার (/DH.arc), ক্লাসিক্যাল ফিলোলজি এবং ইতালিয়ান স্টাডিজ বিভাগ, বিশ্ববিদ্যালয় বোলোগনা, বোলোগনা, ইতালি {[email protected]};

(4) সিলভিও পেরোনি, রিসার্চ সেন্টার ফর ওপেন স্কলারলি মেটাডেটা, ক্লাসিক্যাল ফিলোলজি এবং ইতালিয়ান স্টাডিজ বিভাগ, বোলোগনা বিশ্ববিদ্যালয়, বোলোগনা, ইতালি এবং ডিজিটাল হিউম্যানিটিজ অ্যাডভান্সড রিসার্চ সেন্টার (/DH.arc), ক্লাসিক্যাল ফিলোলজি এবং ইতালিয়ান স্টাডিজ বিভাগ, বিশ্ববিদ্যালয় বোলোগনা, বোলোগনা, ইতালি {[email protected]};

(5) ডেভিড শটন, অক্সফোর্ড ই-রিসার্চ সেন্টার, অক্সফোর্ড বিশ্ববিদ্যালয়, অক্সফোর্ড, যুক্তরাজ্য {[email protected]}।

লিঙ্কের টেবিল

3. পদ্ধতি

OpenCitations Meta CSV ফরম্যাটে (যেমন টেবুলার ফর্ম) ইনপুট ডেটা থেকে পপুলেট করা হয়। এই পছন্দ আকস্মিক নয়। আমরা দেখেছি যে CSV ফর্ম্যাটে OpenCitations দ্বারা প্রকাশিত ডেটা (যেমন COCI (OpenCitations, 2022) থেকে) আরও ঘন ঘন ডাউনলোড করা হয়, একই ডেটার তুলনায় আরও কাঠামোগত ফর্ম্যাটে (যেমন JSON Scholix এবং RDF N-Quads)। এটি ছোট ফাইলের আকার (N-Quads এবং Scholix এর তুলনায়) এবং সর্বোপরি, একজন মানুষের জন্য ট্যাবুলার ফরম্যাটের উচ্চ পাঠযোগ্যতার কারণে। মানব কিউরেটরিয়াল ক্রিয়াকলাপগুলি থেকে গ্রন্থপঞ্জী সংক্রান্ত মেটাডেটার ভবিষ্যত ক্রাউডসোর্সিংয়ের সুবিধার্থে OpenCitations Meta দ্বারা গৃহীত ইনপুট বিন্যাসটি CSV হওয়ার মূল কারণটি (Heibi et al., 2019a)।


OpenCitations Meta-এর ইনপুট টেবিলে OCDM (Daquino et al., 2020): আইডি, শিরোনাম, লেখক, সম্পাদক, প্রকাশনার তারিখ, স্থান, ভলিউম, ইস্যু, পৃষ্ঠা, প্রকার এবং প্রকাশক-এর রৈখিককরণের সাথে সম্পর্কিত এগারোটি কলাম রয়েছে। প্রতিটি ক্ষেত্র কীভাবে গঠন করা হয় তার গভীর বিবরণের জন্য, অনুগ্রহ করে দেখুন (মাসারি এবং হেইবি, 2022)।


সারণী 1: থাকা গবেষণা সত্তার সংখ্যা দ্বারা আদেশকৃত স্কলারলি ডেটাসেটগুলি খুলুন এবং পরিবর্তন-ট্র্যাকিং, উত্স, দ্ব্যর্থতা নিরসন পদ্ধতি, একটি অভ্যন্তরীণ আইডি উপস্থিতি, অ্যাক্সেসযোগ্যতা এবং ডেটা ব্যবহারের লাইসেন্স সম্পর্কিত তুলনা করুন


একবার CSV ট্যাবুলার ডেটা অর্জিত হয়ে গেলে, ডেটা প্রথমে স্বয়ংক্রিয়ভাবে কিউরেট করা হয় (কিউরেটর ধাপ) এবং তারপর OCDM (নির্মাতা পদক্ষেপ) এর উপর ভিত্তি করে RDF এ রূপান্তরিত হয়। অবশেষে, কিউরেটেড CSV এবং RDF ফাইল হিসাবে সংরক্ষণ করা হয়, যখন একটি সংশ্লিষ্ট ট্রিপলস্টোর ক্রমবর্ধমানভাবে জনবহুল হয়। চিত্র 2 কর্মপ্রবাহের সংক্ষিপ্ত বিবরণ।


চিত্র 2: OpenCitations মেটা ওয়ার্কফ্লো। প্রথমত, CSV ফরম্যাটে ইনপুট ডেটা স্বয়ংক্রিয়ভাবে সংশোধন করা হয় (1), অনুলিপি করা হয়, এবং একটি ট্রিপলস্টোর (2) মধ্যে থেকে প্রাক-বিদ্যমান তথ্য দিয়ে সমৃদ্ধ করা হয়। সংশোধন করা CSV আউটপুট (3a) হিসাবে ফেরত দেওয়া হয়। দ্বিতীয়ত, ডেটা RDF (3b) এ রূপান্তরিত হয়, ফাইল (4a) এ সংরক্ষিত হয় এবং অবশেষে ট্রিপলস্টোরে (4b) প্রবেশ করা হয়

3.1 কিউরেটর: অনুলিপি, সমৃদ্ধকরণ এবং সংশোধন

কিউরেশন প্রক্রিয়া প্রাপ্ত ডেটার গুণমান উন্নত করার জন্য তিনটি প্রধান ক্রিয়া সম্পাদন করে: ডিডপ্লিকেশন, সমৃদ্ধকরণ এবং সংশোধন।


ডেটা ডিডপ্লিকেশনের জন্য বেছে নেওয়া পদ্ধতিটি কঠোরভাবে শনাক্তকারীর উপর ভিত্তি করে। অন্য কথায়, দুটি ভিন্ন সত্তাকে একই হিসাবে বিবেচনা করা হয় যদি, এবং শুধুমাত্র যদি, উভয়েরই একই শনাক্তকারী থাকে, যেমন নিবন্ধগুলির জন্য একটি DOI, মানুষের জন্য একটি ORCID, বইগুলির জন্য একটি ISBN, এবং প্রকাশনা স্থানগুলির জন্য একটি ISSN (যেমন জার্নাল)৷


একই শনাক্তকারীর সাথে বিভিন্ন সংস্থান একটি সুনির্দিষ্ট নিয়ম অনুসরণ করে একত্রিত করা হয়: (1) যদি সংস্থানগুলি একই CSV ফাইলের অংশ হয়, তবে প্রথম ঘটনাটির তথ্য অনুকূল হয়৷ যাইহোক, (2) যদি ইতিমধ্যেই ট্রিপলস্টোরে রিসোর্স বর্ণনা করা থাকে, তাহলে ট্রিপলস্টোরে থাকা তথ্যের সুবিধা হবে। অন্য কথায়, আমরা ট্রিপলস্টোরে সংরক্ষিত তথ্যকে বিশ্বস্ত হিসাবে বিবেচনা করি এবং এটি শুধুমাত্র একটি CSV উৎস থেকে আসা অতিরিক্ত ডেটার সাথে বৃদ্ধি করা যেতে পারে।


একবার একটি সত্তা ডিডপ্লিকেট করা হলে, এটিকে একটি নতুন, স্থায়ী অভ্যন্তরীণ শনাক্তকারী বরাদ্দ করা হয় যাকে একটি OpenCitations Meta Identifier (OMID) বলা হয়। OMID এর গঠন আছে [entity_type_abbreviation]/[supplier_prefix][sequential_number]। উদাহরণস্বরূপ, প্রসেস করা প্রথম জার্নাল আর্টিকেলটিতে OMID br/0601 আছে, যেখানে br হল "বিবলিওগ্রাফিক রিসোর্স" এর সংক্ষিপ্ত রূপ, এবং 060 সরবরাহকারী উপসর্গের সাথে মিলে যায়, যা গ্রন্থপঞ্জী সংস্থানটি যে ডাটাবেসের সাথে সম্পর্কিত তা নির্দেশ করে (এই ক্ষেত্রে, OpenCitations) মেটা)। অবশেষে, 1 নির্দেশ করে যে এই OMID সেই উপসর্গের জন্য রেকর্ড করা সূচকের প্রথম গ্রন্থপঞ্জী সংস্থানকে চিহ্নিত করে।


আরও স্পষ্টভাবে বলতে গেলে, ওপেনসিটেশন মেটার জন্য ব্যবহৃত সরবরাহকারী উপসর্গ হল "06[1-9]*0", অর্থাৎ "06" ঐচ্ছিকভাবে শূন্য এবং শেষে "0" বাদে যেকোনো সংখ্যা দ্বারা অনুসরণ করা হয়। উদাহরণস্বরূপ, "060", "0610", এবং "06230" হল OpenCitations Meta-তে বৈধ সরবরাহকারী উপসর্গ।


যে সত্ত্বাগুলি ডিডপ্লিকেশনের সাপেক্ষে এবং পরবর্তীতে একটি OMID দিয়ে চিহ্নিত করা হয় তারা হল বাহ্যিক শনাক্তকারী (abbr. id), এজেন্টের ভূমিকা (যেমন লেখক, সম্পাদক, প্রকাশক, abbr. ar), দায়িত্বশীল এজেন্ট (যেমন মানুষ এবং সংস্থা, abbr. ra), সম্পদ মূর্তকরণ (যেমন পৃষ্ঠা, abbr. re), এবং স্থান, ভলিউম এবং সমস্যা (যা সব গ্রন্থপঞ্জী সম্পদ, abbr. br)। ভলিউম এবং ইস্যুতে OMID আছে কারণ সেগুলিকে প্রথম শ্রেণীর নাগরিক হিসাবে বিবেচনা করা হয়, নিবন্ধের বৈশিষ্ট্য নয়। উদাহরণস্বরূপ, একটি নির্দিষ্ট ইস্যু, একটি নামযুক্ত জার্নালের ভলিউম বা একটি নির্দিষ্ট সময়ের মধ্যে প্রকাশিত জার্নাল ইস্যুগুলির মধ্যে কাগজপত্র অনুসন্ধান করার অনুমতি দেওয়ার সুবিধা রয়েছে। বিপরীতে, শিরোনাম এবং তারিখগুলিকে আক্ষরিক মান হিসাবে বিবেচনা করা হয়, সত্তা হিসাবে নয়।


চিত্র 3 ডিডুপ্লিকেশন সিদ্ধান্তমূলক গাছকে চিত্রিত করে। একটি ইনপুট সত্তা এবং এর শনাক্তকারীদের দেওয়া, ছয়টি সম্ভাব্য ফলাফল রয়েছে:


  1. যদি সত্তাটির কোনো শনাক্তকারী না থাকে, বা ট্রিপলস্টোরে তাদের অস্তিত্ব না থাকে, তাহলে সত্তাটির জন্য একটি নতুন OMID তৈরি করা হয়;


  2. যদি সত্তাটির একটি OMID না থাকে, এবং যদি এর বাহ্যিক শনাক্তকারীগুলির একটি ইতিমধ্যেই একটি এবং শুধুমাত্র একটি অন্য সত্তার সাথে যুক্ত থাকে, তাহলে দুটি সত্তা একত্রিত হয় এবং একই হিসাবে বিবেচিত হয়;


  3. যদি CSV-এ সত্তার বাহ্যিক শনাক্তকারীরা ট্রিপলস্টোরের মধ্যে দুটি বা ততোধিক সত্ত্বাকে সংযুক্ত করে যা এখনও পর্যন্ত স্বতন্ত্র ছিল, এবং CSV-তে কোনো OMID নির্দিষ্ট করা নেই, তাহলে একটি দ্বন্দ্ব দেখা দেয় যা স্বয়ংক্রিয়ভাবে সমাধান করা যায় না এবং ম্যানুয়াল হস্তক্ষেপের প্রয়োজন হবে। এই বিরোধপূর্ণ সত্তার জন্য একটি নতুন OMID তৈরি করা হয়েছে৷ উদাহরণস্বরূপ, CSV-এ, একই জার্নালের নাম দুটি শনাক্তকারীর সাথে যুক্ত, issn:1588-2861 এবং issn:0138-9130; যাইহোক, ট্রিপলস্টোরে, দুটি পৃথক সত্তার জন্য এন্ট্রি রয়েছে, একটি আইডেন্টিফায়ার issn:1588-2861 সহ এবং অন্যটি আইডেন্টিফায়ার issn:0138-9130 সহ, যা বাস্তবে একই সত্তাকে নির্দেশ করে;


  4. যদি CSV-এর কোনো সত্তার একটি OMID থাকে যা ট্রিপলস্টোরে বিদ্যমান থাকে এবং অন্য কোনো আইডি উপস্থিত না থাকে, তাহলে ট্রিপলস্টোরের তথ্য CSV-তে ওভাররাইট করে। ট্রিপলস্টোর শুধুমাত্র অনুপস্থিত বিবরণ যোগ করে আপডেট করা হয়। অন্য কথায়, CSV-তে একটি সত্তার জন্য তার OMID উল্লেখ করা হল OpenCitations Meta-এর মধ্যে বিদ্যমান একটি সত্তা আপডেট করার একটি উপায়;


  5. যদি একটি সত্তার একটি বিদ্যমান OMID থাকে এবং অতিরিক্ত শনাক্তকারীগুলি OMID (CSV-এ) বা একই OMID (CSV বা ট্রিপলস্টোরে) ছাড়া অন্যান্য সত্তার সাথে যুক্ত থাকে, তাহলে সত্তাগুলিকে একীভূত করা হয়৷ অধিকন্তু, CSV-এর তথ্যগুলি ইতিমধ্যেই ট্রিপলস্টোরে উপলব্ধ যা দিয়ে ওভাররাইট করা হয় এবং CSV-তে উপস্থিত অনুপস্থিত বিবরণগুলি তারপর ট্রিপলস্টোরে যোগ করা হয়;


  6. অবশেষে, যদি বাহ্যিক শনাক্তকারীরা ট্রিপলস্টোরের বিভিন্ন সত্তাকে বিভিন্ন OMID-এর সাথে সংযুক্ত করে, তাহলে একটি দ্বন্দ্ব দেখা দেয়। এই ক্ষেত্রে, CSV-এ নির্দিষ্ট OMID অগ্রাধিকার নেয় এবং শুধুমাত্র সেই OMID-এর সাথে সত্তাগুলিকে একত্রিত করা হয়।


এই সাধারণ নিয়মের পরিপ্রেক্ষিতে, তিনটি বিশেষ ক্ষেত্রে বিশেষ উদ্বেগের দাবি রাখে। প্রথম উল্লেখযোগ্য সমস্যাটি লেখক এবং সম্পাদকদের ক্রম সম্পর্কিত, যা OCDM অনুযায়ী বজায় রাখতে হবে। একীভূত হওয়ার ক্ষেত্রে, সত্তাটি প্রথম তৈরি করার সময় রেকর্ড করা অর্ডারটি পরবর্তীগুলিকে ওভাররাইট করে এবং যেকোন নতুন লেখক বা সম্পাদককে বর্তমান তালিকার শেষে যুক্ত করা হয়, যেমন চিত্র 4-এ দেখানো হয়েছে।


চিত্র 3: অনুলিপি সিদ্ধান্ত গাছ


চিত্র 4: একত্রিত হওয়ার সময়, পাওয়া প্রথম তথ্যটি প্রাধান্য পায়। এই উদাহরণে, লেখকদের তালিকায় ডেভিড শটনকে সিলভিও পেরোনির পরে সন্নিবেশিত করা হয়েছে কারণ পেরোনি ইতিমধ্যেই প্রথম লেখক হিসাবে রেকর্ড করা হয়েছিল, এমনকি যদি শটন দ্বিতীয় ঘটনাতে পেরোনির আগে উপস্থিত হন।


দ্বিতীয়ত, দুটি গ্রন্থপঞ্জী সংস্থান একত্রিত হওয়ার প্রেক্ষাপটে, লেখক বা সম্পাদক হিসাবে জড়িত ব্যক্তিদের একটি শনাক্তকারী ছাড়াই তাদের প্রদত্ত এবং পরিবারের নামের উপর ভিত্তি করে দ্ব্যর্থহীন করা হয়।


শেষ উল্লেখযোগ্য ক্ষেত্রে নিবন্ধ, সমস্যা, ভলিউম এবং স্থানগুলির মধ্যে নিয়ন্ত্রণের সম্পর্ক জড়িত। এই কাঠামোটি একত্রিত হওয়ার ক্ষেত্রে সংরক্ষিত হয়, যেখানে দুটি ভলিউম বা ইস্যুকে একই বলে বিবেচনা করা হয় শুধুমাত্র যদি তাদের একই মান থাকে, যা একটি ক্রমিক সংখ্যা (যেমন "ভলিউম 1") বা একটি নির্বিচারে নাম (যেমন "ক্লিন_সেক্ট") হতে পারে। )

3.2 কিউরেটর: ত্রুটি প্রমাণ

একবার সমস্ত সংস্থা একটি OMID পেয়ে গেলে, ডেটা স্বাভাবিক করা হয় এবং যে ত্রুটিগুলি স্বয়ংক্রিয়ভাবে পরিচালনা করা যায় সেগুলি সংশোধন করা হয়। সমস্ত শনাক্তকারীকে তাদের শনাক্তকারী স্কিমের উপর ভিত্তি করে পরীক্ষা করা হয় - উদাহরণস্বরূপ, আইএসবিএন, আইএসএসএন এবং ওআরসিআইডি-এর সিনট্যাক্টিক সঠিকতা শনাক্তকারী স্কিমের ডকুমেন্টেশন দ্বারা প্রদত্ত নির্দিষ্ট সূত্র ব্যবহার করে গণনা করা হয়। যাইহোক, শনাক্তকারীর শব্দার্থগত শুদ্ধতা শুধুমাত্র ORCIDs এবং DOI-এর জন্য যাচাই করা হয়, যা তাদের প্রকৃত অস্তিত্ব যাচাই করার জন্য ওপেন API ব্যবহার করে করা হয় - যেহেতু, উদাহরণস্বরূপ, একটি ORCID তৈরি করা সম্ভব যা সিনট্যাক্টিক্যালি বৈধ, কিন্তু বাস্তবে তা নয় একজন ব্যক্তির জন্য বরাদ্দ করা হয়েছে।


স্পেসগুলির জন্য ব্যবহৃত সমস্ত অস্পষ্ট এবং বিকল্প অক্ষরগুলি (যেমন ট্যাব, নো-ব্রেক স্পেস, এম স্পেস) স্থানান্তরিত হয় (ইউনিকোড অক্ষর U+0020)। একইভাবে, আইডি, পৃষ্ঠা, ভলিউম, সমস্যা, লেখক এবং সম্পাদকের মধ্যে হাইফেনের জন্য অস্পষ্ট অক্ষরগুলি (যেমন নন-ব্রেকিং হাইফেন, এন ড্যাশ, বিয়োগ চিহ্ন) হাইফেন-মাইনাস (ইউনিকোড অক্ষর U+002D) এ পরিবর্তন করা হয়েছে।


গ্রন্থপঞ্জী সম্পদের শিরোনাম ("স্থান" এবং "শিরোনাম" কলামের বিষয়ে), শিরোনামের প্রতিটি শব্দ বড় করা হয় ব্যতীত যেগুলির মধ্যে ক্যাপিটাল আছে (যেগুলি সম্ভবত সংক্ষিপ্ত শব্দ, যেমন "FaBiO" এবং "CiTO")। যদিও এই ব্যতিক্রমটি সম্পূর্ণ ক্যাপিটালাইজড শিরোনামের ক্ষেত্রে কভার করে না। লেখক এবং সম্পাদকদের জন্যও একই নিয়ম অনুসরণ করা হয়, তা ব্যক্তি বা সংস্থাই হোক না কেন।


ISO 8601 (YYYYMM-DD) (Wolf & Wicksteed, 1997) এবং মান (যেমন 30 ফেব্রুয়ারি একটি বৈধ তারিখ নয়) এর উপর ভিত্তি করে উভয় ফর্ম্যাটের বৈধতা বিবেচনা করে তারিখগুলি পার্স করা হয়েছে। যেখানে প্রয়োজন, তারিখটি কাটা হয়। উদাহরণস্বরূপ, 2020-02-30 তারিখটি 2020-02 এ রূপান্তরিত হয়েছে কারণ প্রদত্ত তারিখের দিনটি অবৈধ। একইভাবে, 2020- 27-12 কে কেটে 2020 করা হবে যেহেতু মাসটি (এবং তাই দিন) অবৈধ। তারিখটি বাতিল করা হয় যদি বছরটি অবৈধ হয় (যেমন 9999 এর চেয়ে বড় একটি বছর)।


ভলিউম এবং ইস্যু নম্বরের সংশোধন অনেক নিয়মের উপর ভিত্তি করে যা বিশেষ উল্লেখের দাবি রাখে। সাধারণভাবে, আমরা ছয়টি শ্রেণির ত্রুটি চিহ্নিত করেছি যা ঘটতে পারে, এবং প্রতিটি ভিন্ন শ্রেণিকে সেই অনুযায়ী সমাধান করা হয়েছে:


  1. একই ক্ষেত্রে ভলিউম নম্বর এবং ইস্যু নম্বর (যেমন "ভলিউম 35 N° বিশেষ 1")। দুটি মান আলাদা করা হয় এবং সংশ্লিষ্ট ক্ষেত্রে বরাদ্দ করা হয়।


  1. উপসর্গ ত্রুটি (যেমন “.38”)। উপসর্গ মুছে ফেলা হয়.


  2. প্রত্যয় ত্রুটি (যেমন “19/”)। প্রত্যয়টি মুছে ফেলা হয়েছে।


  3. এনকোডিং ত্রুটি (যেমন "5â\x80\x926", "38â39", "3???4")। শুধুমাত্র চরমে থাকা সংখ্যাগুলিকে একটি একক হাইফেন দ্বারা পৃথক করা হয়। অতএব, উদাহরণগুলি যথাক্রমে "5-6", "38-39", এবং "3-4" এ সংশোধন করা হয়েছে, যেহেতু "â\x80\x92", "â" এবং "???" ভুলভাবে এনকোড করা হাইফেন।


  4. ভলিউম ইস্যু হিসাবে শ্রেণীবদ্ধ (যেমন "ইস্যু" ক্ষেত্রের "ভলিউম 1")। যদি "ইস্যু" ফিল্ডে ভলিউম প্যাটার্ন পাওয়া যায় এবং "ভলিউম" ক্ষেত্রটি খালি থাকে, তাহলে বিষয়বস্তু "ভলিউম" ফিল্ডে সরানো হয় এবং "ইস্যু" ফিল্ডটি নাল সেট করা হয়। যাইহোক, যদি "ইস্যু" ফিল্ডে একটি ভলিউম প্যাটার্ন থাকে এবং "ভলিউম" ফিল্ডে একটি ইস্যু প্যাটার্ন থাকে, তাহলে দুটি মান অদলবদল করা হয়।


  5. ইস্যুটি ভলিউম হিসাবে শ্রেণীবদ্ধ করা হয়েছে (যেমন "ভলিউম" ক্ষেত্রের "বিশেষ ইস্যু 2")। এটি কেস 5 এর মতো একইভাবে পরিচালনা করা হয়, তবে বিপরীত ভূমিকায়।


"মূল সিরিজ", "ভলিউম", "ভলিউম" এবং অন্যান্য বিভিন্ন ভাষায় ভলিউম, যেমন ফরাসি ভাষায় "টোম" এবং তুর্কি ভাষায় "সিল্ট" শব্দগুলি সম্বলিত প্যাটার্নগুলিকে আমরা ভলিউম হিসাবে বিবেচনা করি। উদাহরণস্বরূপ, "অরিজিনাল সিরিজ", "ভলিউম 1", "Vol 71", "Tome 1", এবং "Cilt: 1" ভলিউম হিসাবে শ্রেণীবদ্ধ করা হয়েছে। পরিবর্তে, আমরা "ইস্যু", "বিশেষ সমস্যা" এবং বিভিন্ন ভাষায় ইস্যু, যেমন "হর্সেরি" (ফরাসি ভাষায় বিশেষ সমস্যা) এবং "ওজেল সায়" (তুর্কি ভাষায় বিশেষ সমস্যা) শব্দগুলি সম্বলিত প্যাটার্নগুলিকে সমস্যা হিসাবে বিবেচনা করি। উদাহরণস্বরূপ, “ইস্যু 2”, “বিশেষ ইস্যু 2”, “বিশেষ ইস্যু 'আরবান মর্ফোলজি”, “ওজেল সায়ি 5”, এবং “হর্স-সিরি 5” সমস্যা হিসাবে শ্রেণীবদ্ধ করা হয়েছে।


অবশেষে, যদি একটি মান তার বিন্যাসে অবৈধ এবং ভুল ক্ষেত্রের কারণে অবৈধ হয়, তাহলে এই জাতীয় মানটি প্রথমে সংশোধন করা হয় এবং তারপরে উপযুক্ত হলে সঠিক ক্ষেত্রে সরানো হয়।


একবার ইনপুট ডেটা দ্ব্যর্থহীন, সমৃদ্ধ এবং সংশোধন হয়ে গেলে, একটি নতুন CSV ফাইল তৈরি এবং সংরক্ষণ করা হয়। এই ফাইলটি প্রক্রিয়াটির প্রথম আউটপুট প্রতিনিধিত্ব করে (চিত্র 2-এ 3a)।

3.3 স্রষ্টা: শব্দার্থিক ম্যাপিং

এই পর্যায়ে, OCDM (Daquino et al., 2020) অনুসরণ করে RDF-তে ডেটা মডেল করা হয়। এই অন্টোলজি গ্রন্থপঞ্জী সত্ত্বা (ফ্যাবিও:এক্সপ্রেশন), শনাক্তকারী (ডেটাসাইট:আইডেন্টিফায়ার), এজেন্টের ভূমিকা (প্রো:রোলইনটাইম), দায়িত্বশীল এজেন্ট (ফোফ:এজেন্ট) এবং প্রকাশনার বিন্যাসের বিবরণ (ফ্যাবিও: ম্যানিফেস্ট) প্রতিনিধিত্ব করতে SPAR অনটোলজিতে সংজ্ঞায়িত সত্তাগুলিকে পুনরায় ব্যবহার করে। . এজেন্ট ভূমিকা (অর্থাৎ লেখক, সম্পাদক বা প্রকাশক) গ্রন্থপঞ্জী সম্পদ এবং দায়ী এজেন্ট, অর্থাৎ ব্যক্তি বা সংস্থার মধ্যে প্রক্সি হিসাবে ব্যবহৃত হয়। এই পদ্ধতিটি আমাদের সময়-নির্ভর এবং প্রসঙ্গ-নির্ভর ভূমিকা এবং স্থিতিগুলিকে সংজ্ঞায়িত করতে সাহায্য করে, যেমন লেখকদের ক্রম (Peroni et al., 2012)। চিত্র 5 Graffoo গ্রাফিকাল ফ্রেমওয়ার্কের মাধ্যমে বিভিন্ন সত্তার মধ্যে সম্পর্ককে চিত্রিত করে (Falco et al., 2014)।


চিত্র 5: ওপেনসিটেশন মেটাতে ব্যবহৃত OCDM-এর অংশ। হলুদ আয়তক্ষেত্রগুলি ক্লাসগুলিকে প্রতিনিধিত্ব করে, সবুজ বহুভুজগুলি ডেটাটাইপগুলিকে প্রতিনিধিত্ব করে এবং নীল এবং সবুজ তীরগুলি যথাক্রমে বস্তুর বৈশিষ্ট্য এবং ডেটা বৈশিষ্ট্যগুলিকে উপস্থাপন করে


উদাহরণ স্বরূপ, OpenCitations Meta-এ OMID omid:br/062601067530 সহ সত্তার শিরোনাম আছে Open Access And Online Publishing: A New Frontier In Nursing? (dcterms:title), এবং 2012-07-25 তারিখে প্রকাশিত হয়েছিল (প্রিজম:প্রকাশনার তারিখ)। FRBR (Tillett, 2005) ব্যবহার করে, নিবন্ধটি চূড়ান্ত প্রকাশিত সংস্করণ, বা মূল কাজের একটি অভিব্যক্তি (fabio:Expression), যার নমুনা হিসেবে সত্তা omid:re/06260837633 (frbr:মূর্ত্তি) রয়েছে। জার্নাল ভলিউমের 1905-1908 পৃষ্ঠাগুলির সাথে সম্পর্কিত মুদ্রিত প্রকাশনা (প্রিজম:স্টার্টিং পেজ, প্রিজম:এন্ডিং পেজ)। আরও স্পষ্টভাবে, নিবন্ধটি (frbr:partOf) সমস্যা (fabio:JournalIssue) নম্বর 9 (fabio:hasSequenceIdentifier) এর অংশ, যা জার্নাল অফ অ্যাডভান্সড নার্সিং (fabio:Journal) এর ভলিউম (fabio:JournalVolume) নম্বর 68-এ রয়েছে )


অধিকন্তু, ব্যক্তি (foaf:Agent) Glenn Hunt (foaf:givenName, foaf:familyName) এই নিবন্ধের প্রেক্ষাপটে প্রথম লেখক (pro:RoleInTime) (pro:isDocumentContextFor)। একইভাবে, দ্বিতীয় লেখক হলেন মিশেল ক্লিয়ারি (pro:hasNext)।


অবশেষে, এই প্রকাশনাটিতে OpenCitations Meta Identifier (OMID) omid:id/062601093630 (datacite:hasIdentifier), ডেটাসাইট:আইডেন্টিফায়ার টাইপের একটি সত্তা রয়েছে। এটির একটি বাহ্যিক শনাক্তকারীও রয়েছে, যা এটির শনাক্তকারী স্কিম হিসাবে একটি ডিজিটাল অবজেক্ট আইডেন্টিফায়ার (DOI) (ডেটাসাইট: usesIdentifierScheme) ব্যবহার করে এবং এর আক্ষরিক মান "10.1111/j.1365- 2648.2012.06023.x" (আক্ষরিক:Valitealues) রয়েছে৷


ম্যাপিং সম্পূর্ণ হলে, উৎপাদিত RDF ডেটা সংরক্ষণ করা যেতে পারে (চিত্র 2-এ 4a) এবং একটি ট্রিপলস্টোরে আপলোড করা যেতে পারে (চিত্র 2-এ 4b)।

3.4 সৃষ্টিকর্তা: উদ্ভব এবং পরিবর্তন ট্র্যাকিং

তাদের মেটাডেটা পরিচালনা করার পাশাপাশি, OpenCitations Meta-এ সত্তার জন্য উদ্ভব এবং পরিবর্তন ট্র্যাকিংকে অত্যন্ত গুরুত্ব দেওয়া হয়। প্রোভেন্যান্স হল একটি রেকর্ড হল কে একটি নির্দিষ্ট সত্তাকে তৈরি, মুছে, পরিবর্তন বা মার্জ করে প্রক্রিয়া করেছে, কখন এই ক্রিয়াটি সম্পাদিত হয়েছিল এবং প্রাথমিক উত্স কী ছিল (Gil et al., 2010)। OpenCitations Meta-এর মধ্যে মেটাডেটার নির্ভরযোগ্যতা নিশ্চিত করতে এই তথ্যের ট্র্যাক রাখা অত্যন্ত গুরুত্বপূর্ণ। প্রকৃতপক্ষে, ওয়েব এবং শব্দার্থিক ওয়েবে একটি বিবৃতির সত্যতা কখনই নিরঙ্কুশ নয়, এবং প্রতিটি অ্যাপ্লিকেশনের দ্বারা অখণ্ডতা মূল্যায়ন করা উচিত যা তথ্যের প্রসঙ্গ মূল্যায়ন করে তথ্য প্রক্রিয়া করে (কোইভুনেন এবং মিলার, 2001)।


যাইহোক, উদ্ভব তথ্য সংরক্ষণের পাশাপাশি, গবেষণা মূল্যায়ন অনুশীলনের মতো ক্রিয়াকলাপগুলির সাথে কাজ করার সময় সত্তার বিবর্তন বোঝার প্রক্রিয়াগুলি গুরুত্বপূর্ণ, যেখানে সংশোধন বা ভুল নির্দিষ্টকরণের কারণে পরিবর্তনগুলি একজন পণ্ডিত, একটি গবেষণা গোষ্ঠী বা সামগ্রিক মূল্যায়নকে প্রভাবিত করতে পারে। একটি সম্পূর্ণ প্রতিষ্ঠান। উদাহরণস্বরূপ, সময়ের সাথে সাথে একটি প্রতিষ্ঠানের নাম পরিবর্তিত হতে পারে এবং একটি ডাটাবেসে এই পরিবর্তনগুলির প্রতিফলন "প্রতিষ্ঠানের ইতিহাস সম্পর্কে কোনো জ্ঞান ছাড়াই সমস্ত প্রতিষ্ঠানের নাম এবং ইউনিট সনাক্ত করা কঠিন করে তোলে" (Pranckut˙e, 2021)। ডাটাবেসে ডেটা কীভাবে বিবর্তিত হয়েছে তার ট্র্যাক রাখার মাধ্যমে এই দৃশ্যটি প্রতিরোধ করা যেতে পারে, এইভাবে ব্যবহারকারীদের বাহ্যিক পটভূমি জ্ঞান অ্যাক্সেস না করেই এই জাতীয় গতিবিদ্যা বুঝতে সক্ষম করে। আমাদের জানামতে, পণ্ডিত মেটাডেটার অন্য কোন শব্দার্থিক ডাটাবেস স্ট্যান্ডার্ড RDF 1.1-এ পরিবর্তন এবং উদ্ভবের ট্র্যাক রাখে না।


OpenCitations দ্বারা নিযুক্ত প্রোভেন্যান্স মেকানিজম প্রতিটি সঞ্চিত সত্তার জন্য একটি প্রাথমিক সৃষ্টির স্ন্যাপশট বর্ণনা করে, সম্ভাব্যভাবে অন্যান্য স্ন্যাপশট দ্বারা অনুসরণ করা হয় যা তথ্যের পরিবর্তন, একত্রীকরণ বা মুছে ফেলার বিশদ বিবরণ দেয়, প্রতিটি তার স্ন্যাপশট নম্বর দিয়ে চিহ্নিত, যেমন চিত্র 6-এ সংক্ষিপ্ত করা হয়েছে।


চিত্র 6: একটি সত্তার পরিবর্তনের ট্র্যাক রাখতে OCDM-এর মূল স্তরের একটি উচ্চ-স্তরের বর্ণনা। একটি সত্তার সম্পূর্ণ ইতিহাসের ট্র্যাক রাখতে, আমাদের তার সাম্প্রতিক স্ন্যাপশটের সমস্ত ট্রিপল এবং পূর্ববর্তী স্ন্যাপশটগুলি সংশোধন করে নির্মিত সমস্ত ডেল্টা সংরক্ষণ করতে হবে


শব্দার্থিক উপস্থাপনা সম্পর্কে, প্রোভেন্যান্স মডেলিং (সিকোস এবং ফিলপ, 2020) এবং RDF (পেলগ্রিন এট আল।, 2021) এর পরিবর্তন-ট্র্যাকিংয়ের সমস্যাটি পণ্ডিত সাহিত্যে আলোচনা করা হয়েছে। আজ অবধি, কোন শেয়ার্ড স্ট্যান্ডার্ড উভয় উদ্দেশ্য অর্জন করে না। এই কারণে, OpenCitations সবচেয়ে ব্যাপকভাবে ভাগ করা পদ্ধতি ব্যবহার করে, যেমন নাম দেওয়া গ্রাফ (ক্যারল এট আল।, 2005), প্রোভেন্যান্স অন্টোলজি (লেবো এট আল।, 2013), এবং ডাবলিন কোর (বোর্ড, 2020)।


বিশেষ করে, প্রতিটি স্ন্যাপশট prov:wasDerivedFrom predicate এর মাধ্যমে আগেরটির সাথে সংযুক্ত থাকে এবং prov:specializationOf এর মাধ্যমে এটি যে সত্তাকে বর্ণনা করে তার সাথে সংযুক্ত থাকে। এছাড়াও, প্রতিটি স্ন্যাপশট একটি নামযুক্ত গ্রাফের সাথে মিলে যায় যেখানে প্রোভেনেন্স মেটাডেটা বর্ণনা করা হয়, যথা দায়ী এজেন্ট (prov:wasAttributedTo), প্রাথমিক উত্স (prov:hadPrimarySource), প্রজন্মের সময় (prov:generatedAtTime), এবং, একটি অতিরিক্ত স্ন্যাপশট তৈরি করা, অবৈধকরণের সময় (prov:invalidatedAtTime)। প্রতিটি স্ন্যাপশট ঐচ্ছিকভাবে যা ঘটেছে তার একটি প্রাকৃতিক ভাষা বর্ণনা দ্বারা প্রতিনিধিত্ব করা যেতে পারে (dcterms:description)।


এছাড়াও, OCDM প্রোভেন্যান্স মডেলটি একটি নতুন প্রেডিকেট যোগ করে, oco:hasUpdateQuery, OpenCitations Ontology (Daquino & Peroni, 2019) এর মধ্যে বর্ণিত, যা একটি SPARQL আপডেট কোয়েরির মাধ্যমে একটি সত্তার দুটি সংস্করণের মধ্যে ডেল্টা প্রকাশ করে। চিত্র 7 একটি গ্রাফু ডায়াগ্রামের মাধ্যমে মডেলটি প্রদর্শন করে।


চিত্র 7: একটি সত্তার স্ন্যাপশট (prov:Entity) বর্ণনা করে (prov:specializationOf এর মাধ্যমে লিঙ্ক করা) এবং সম্পর্কিত উদ্ভব তথ্য


অনুচ্ছেদ 3.1-এ বর্ণিত অনুলিপি প্রক্রিয়াটি শুধুমাত্র ডেটাসেটের বর্তমান অবস্থার উপর নয় বরং পরিবর্তন-ট্র্যাকিং প্রক্রিয়া প্রয়োগ করে এর সমগ্র ইতিহাসে সঞ্চালিত হয়। অন্য কথায়, যদি কোনো শনাক্তকারীকে ট্রিপলস্টোর থেকে মুছে ফেলা কোনো সত্তার কাছে খুঁজে পাওয়া যায়, তাহলে সেই শনাক্তকারীটি মুছে ফেলা সত্তার OMID-এর সাথে যুক্ত হবে। যদি একটি মার্জ চেইনের কারণে মুছে ফেলা হয়, তাহলে ফলস্বরূপ সত্তার OMID অগ্রাধিকার নেয়। টাইম-ট্রাভার্সাল কোয়েরি পদ্ধতি সম্পর্কে আরও জানতে, দেখুন (মাসারি এবং পেরোনি, 2022)। SPAR Ontologies অনুযায়ী ডেটা তৈরি এবং ট্র্যাকিং পরিবর্তনের জন্য প্রোগ্রামিং ইন্টারফেস সম্পর্কে আরও বিশদের জন্য, পরামর্শ করুন (Persiani et al., 2022)।


এই কাগজটি CC 4.0 DEED লাইসেন্সের অধীনে arxiv-এ উপলব্ধ