paint-brush
OpenCitations Meta: সম্পর্কিত কাজদ্বারা@categorize

OpenCitations Meta: সম্পর্কিত কাজ

অতিদীর্ঘ; পড়তে

featured image - OpenCitations Meta: সম্পর্কিত কাজ
Categorize.Tech: Organizing the World of Software HackerNoon profile picture
0-item

লেখক:

(1) Arcangelo Massari, রিসার্চ সেন্টার ফর ওপেন স্কলারলি মেটাডেটা, ক্লাসিক্যাল ফিলোলজি এবং ইতালিয়ান স্টাডিজ বিভাগ, বোলোগনা বিশ্ববিদ্যালয়, বোলোগনা, ইতালি {[email protected]};

(2) ফ্যাবিও মারিয়ানি, ইনস্টিটিউট অফ ফিলোসফি অ্যান্ড সায়েন্সেস অফ আর্ট, লিউফানা ইউনিভার্সিটি, লুনেবার্গ, জার্মানি {[email protected]};

(3) ইভান হেইবি, রিসার্চ সেন্টার ফর ওপেন স্কলারলি মেটাডেটা, ক্লাসিক্যাল ফিলোলজি এবং ইতালিয়ান স্টাডিজ বিভাগ, ইউনিভার্সিটি অফ বোলোগনা, বোলোগনা, ইতালি এবং ডিজিটাল হিউম্যানিটিজ অ্যাডভান্সড রিসার্চ সেন্টার (/DH.arc), ক্লাসিক্যাল ফিলোলজি এবং ইতালিয়ান স্টাডিজ বিভাগ, বিশ্ববিদ্যালয় বোলোগনা, বোলোগনা, ইতালি {[email protected]};

(4) সিলভিও পেরোনি, রিসার্চ সেন্টার ফর ওপেন স্কলারলি মেটাডেটা, ক্লাসিক্যাল ফিলোলজি এবং ইতালিয়ান স্টাডিজ বিভাগ, বোলোগনা বিশ্ববিদ্যালয়, বোলোগনা, ইতালি এবং ডিজিটাল হিউম্যানিটিজ অ্যাডভান্সড রিসার্চ সেন্টার (/DH.arc), ক্লাসিক্যাল ফিলোলজি এবং ইতালিয়ান স্টাডিজ বিভাগ, বিশ্ববিদ্যালয় বোলোগনা, বোলোগনা, ইতালি {[email protected]};

(5) ডেভিড শটন, অক্সফোর্ড ই-রিসার্চ সেন্টার, অক্সফোর্ড বিশ্ববিদ্যালয়, অক্সফোর্ড, যুক্তরাজ্য {[email protected]}।

লিঙ্কের টেবিল

2. সম্পর্কিত কাজ

এই বিভাগে, আমরা সবচেয়ে গুরুত্বপূর্ণ পাণ্ডিত্যপূর্ণ প্রকাশনা ডেটাসেটগুলি পর্যালোচনা করব যেখানে অ্যাক্সেসের জন্য সাবস্ক্রিপশনের প্রয়োজন হয় না, যেমন পাণ্ডিত্যপূর্ণ গ্রন্থপঞ্জী মেটাডেটা ধারণ করে সর্বজনীনভাবে উপলব্ধ ডেটাসেটগুলি। যেহেতু ওপেনসিটেশন মেটা ডেটার প্রতিনিধিত্ব করার জন্য শব্দার্থিক ওয়েব প্রযুক্তি ব্যবহার করে, তাই RDF ডেটাসেটগুলিতে বিশেষ মনোযোগ দেওয়া হবে, যথা উইকিডাটা, স্প্রিংগার নেচার সাইগ্রাফ, বায়োটি, ওপেনরিসার্চ নলেজ গ্রাফ এবং স্কলারলি ডেটা। উপরন্তু, OpenAIRE রিসার্চ গ্রাফ, OpenAlex এবং স্কলারলি ডেটা বর্ণনা করা হবে, কারণ এগুলো কাজের সংখ্যার দিক থেকে সবচেয়ে বিস্তৃত ডেটাসেট, যদিও তারা শব্দার্থগতভাবে ডেটা উপস্থাপন করে না।


OpenAlex (Priem et al., 2022) 1লা জানুয়ারী 2022-এ Microsoft একাডেমিক গ্রাফের ছাই থেকে উঠে এসেছে এবং এর সমস্ত মেটাডেটা উত্তরাধিকারসূত্রে পেয়েছে। এতে Crossref (Hendricks et al., 2020), Pubmed (Maloney et al., 2013), ORCID (Haak et al., 2012), ROR (Lammey, 2020), DOAJ (Morrison, 2017), Unpaywall ( Dhakal, 2019), arXiv (Sigurdsson, 2020), Zenodo (Research & OpenAIRE, 2013), ISSN ইন্টারন্যাশনাল সেন্টার[1], এবং ইন্টারনেট আর্কাইভের সাধারণ সূচক[2]। এছাড়াও, অনুপস্থিত মেটাডেটা যোগ করতে ওয়েব ক্রল ব্যবহার করা হয়। 240 মিলিয়নেরও বেশি কাজের সাথে[3], OpenAlex হল এখন পর্যন্ত সবচেয়ে বিস্তৃত গ্রন্থপঞ্জী সংক্রান্ত মেটাডেটা ডেটাসেট। OpenAlex প্রতিটি রিসোর্সে স্থায়ী শনাক্তকারী বরাদ্দ করে। উপরন্তু, সহ-লেখক, উদ্ধৃতি এবং গ্রন্থপঞ্জী সম্পদের অন্যান্য বৈশিষ্ট্যের উপর ভিত্তি করে হিউরিস্টিকসের মাধ্যমে লেখকদের দ্ব্যর্থহীন করা হয়। ডেটা CC0 লাইসেন্সের অধীনে বিতরণ করা হয় এবং API, ওয়েব ইন্টারফেস বা OpenAlex ডাটাবেসের একটি সম্পূর্ণ স্ন্যাপশট কপি ডাউনলোড করার মাধ্যমে অ্যাক্সেস করা যেতে পারে।


OpenAIRE প্রকল্পটি 2008 সালে ইউরোপীয় কমিশন ওপেন অ্যাকসেস ম্যান্ডেট (Manghi et al., 2010) গ্রহণকে সমর্থন করার জন্য শুরু হয়েছিল এবং এটি এখন ইউরোপীয় ওপেন সায়েন্স ক্লাউড (ইউরোপীয় ওপেন সায়েন্স ক্লাউড) উপলব্ধি করার জন্য হরাইজন 2020 গবেষণা ও উদ্ভাবন কর্মসূচির মধ্যে প্রধান সংস্থা। কমিশন ডিরেক্টরেট জেনারেল ফর রিসার্চ অ্যান্ড ইনোভেশন।, 2016)। এর প্রাথমিক ফলাফলগুলির মধ্যে একটি হল OpenAIRE রিসার্চ গ্রাফ, যার মধ্যে রয়েছে পাণ্ডিত্যপূর্ণ আউটপুট (যেমন সাহিত্য, ডেটাসেট এবং সফ্টওয়্যার), সংস্থা, গবেষণা তহবিল, তহবিল স্ট্রীম, প্রকল্প এবং সম্প্রদায়ের মেটাডেটা, একত্রে মূল তথ্য সহ। বিভিন্ন উৎস থেকে ডেটা সংগ্রহ করা হয় (আটজোরি এট আল।, 2017): আর্কাইভ, যেমন ArXiv (Sigurdsson, 2020) Europe PMC (The Europe PMC Consortium, 2015), সফটওয়্যার হেরিটেজ (Abramatic et al., 2018) এবং Zenodo ( গবেষণা ও OpenAIRE, 2013); সমষ্টিগত পরিষেবা, যেমন DOAJ (Morrison, 2017) এবং OpenCitations (Peroni & Shotton, 2020); এবং অন্যান্য গবেষণা গ্রাফ, যেমন Crossref (Hendricks et al., 2020) এবং DataCite (Brase, 2009)। জুন 2023 পর্যন্ত, এই OpenAIRE ডেটাসেটে 232,174,001টি গবেষণা পণ্য রয়েছে[4]। OpenAIRE দ্বারা বাস্তবায়িত ডিডপ্লিকেশন প্রক্রিয়া শুধুমাত্র পিআইডি নয়, অন্যান্য হিউরিস্টিকসকেও বিবেচনা করে, যেমন লেখকের সংখ্যা এবং শিরোনামের লেভেনস্টাইন দূরত্ব। যাইহোক, অভ্যন্তরীণ শনাক্তকারী OpenAIRE সত্তার সাথে সহযোগীরা স্থায়ী হয় না এবং ডেটা আপডেট হলে পরিবর্তন হতে পারে। OpenAIRE গবেষণা গ্রাফের ডেটা একটি API এবং এক্সপ্লোর ইন্টারফেসের মাধ্যমে অ্যাক্সেস করা যেতে পারে। ক্রিয়েটিভ কমন্স অ্যাট্রিবিউশন 4.0 আন্তর্জাতিক লাইসেন্সের অধীনেও ডাম্প পাওয়া যায়।


অ্যালেন ইনস্টিটিউট ফর কৃত্রিম বুদ্ধিমত্তা 2015 (ফ্রিক, 2018) দ্বারা শব্দার্থিক স্কলার প্রবর্তিত হয়েছিল। এটি একটি সার্চ ইঞ্জিন যা কৃত্রিম বুদ্ধিমত্তা ব্যবহার করে শুধুমাত্র ব্যবহারকারীর অনুসন্ধানের সাথে সবচেয়ে প্রাসঙ্গিক কাগজপত্র নির্বাচন করতে এবং অন্বেষণকে সহজ করার জন্য, যেমন স্বয়ংক্রিয় সারাংশ তৈরি করে। সিমেন্টিক স্কলার ওয়েব ইন্ডেক্সিং এবং বৈজ্ঞানিক জার্নাল, সূচী এবং বিষয়বস্তু প্রদানকারীদের সাথে অংশীদারিত্বের মাধ্যমে এর সামগ্রীর উৎস। এর মধ্যে অ্যাসোসিয়েশন ফর কম্পিউটেশনাল লিঙ্গুইস্টিকস, কেমব্রিজ ইউনিভার্সিটি প্রেস, আইইইই, পাবমেড, স্প্রিংগার নেচার, দ্য এমআইটি প্রেস, উইলি, আরএক্সিভ, এইচএএল এবং পাবমেড। জুন 2023 পর্যন্ত, এটি 212,605,886টি পণ্ডিতের কাজকে সূচী করে[5]। লেখকদের একটি কৃত্রিম বুদ্ধিমত্তা মডেলের (Subramanian et al., 2021) মাধ্যমে দ্ব্যর্থহীন করা হয়, একটি শব্দার্থিক স্কলার আইডির সাথে যুক্ত, এবং প্রতিটি লেখকের জন্য একটি পৃষ্ঠা স্বয়ংক্রিয়ভাবে তৈরি হয়, যা প্রকৃত ব্যক্তি রিডিম করতে পারে। শব্দার্থিক স্কলার একটি ওয়েব ইন্টারফেস, API প্রদান করে এবং সম্পূর্ণ ডেটাসেটটি Open Data Commons Attribution License (ODCBy) v1.0-এর অধীনে ডাউনলোডযোগ্য।


2012 সালে Wikimedia Deutschland দ্বারা উইকিপিডিয়া, উইকিভয়েজ, উইকশনারি, এবং উইকিসোর্স (মোরা-ক্যান্টালপস এট আল।, 2019) এর মতো অন্যান্য উইকিমিডিয়া প্রকল্প থেকে RDF ডেটা সংরক্ষণের জন্য একটি উন্মুক্ত জ্ঞানের ভিত্তি হিসাবে উইকিডাটা চালু করা হয়েছিল। এর সাফল্যের কারণে, Google 2014 সালে Freebase বন্ধ করে দেয়, যা "স্ট্রাকচার্ড ডেটার জন্য উইকিপিডিয়া" হয়ে ওঠার উদ্দেশ্য ছিল এবং এটিকে উইকিডাটাতে স্থানান্তরিত করেছে (Tanon et al., 2016)। 2016 সাল থেকে, উইকিসাইট প্রকল্পটি গ্রন্থপঞ্জিগত ডাটাবেস হিসাবে উইকিডাটার বিবর্তনে উল্লেখযোগ্যভাবে অবদান রেখেছে, যেমন, জুন 2023 পর্যন্ত, উইকিডাটাতে 39,864,447টি একাডেমিক নিবন্ধের বর্ণনা রয়েছে[6]। অভ্যন্তরীণ উইকিডাটা শনাক্তকারী যে কোনো সত্তাকে (গ্রন্থপঞ্জী সংক্রান্ত সম্পদ সহ) উল্লেখ করে অনেক বাহ্যিক শনাক্তকারীর সাথে যুক্ত, যেমন DOI, PMID, PMCID, arXiv, ORCID, Google Scholar, VIAF, Crossref funder ID, ZooBank এবং Twitter। কচ্ছপ এবং এনট্রিপলে RDF ডাম্প হিসাবে ডেটা CC0 লাইসেন্সের অধীনে প্রকাশিত হয়। ব্যবহারকারীরা এগুলিকে SPARQL, একটি ওয়েব ইন্টারফেস এবং 2017 সাল থেকে Scholia-এর মাধ্যমে ব্রাউজ করতে পারেন - একটি ওয়েব পরিষেবা যা গবেষক, সংস্থা, জার্নাল, প্রকাশক, একাডেমিক কাজ এবং গবেষণার বিষয়গুলির প্রোফাইল তৈরি করতে রিয়েল-টাইম SPARQL কোয়েরিগুলি সম্পাদন করে। মূল্যবান ইনফোগ্রাফিক্স (Nielsen et al., 2017)।


ওপেনএয়ার রিসার্চ গ্রাফ এবং উইকিডাটা অনেক ভিন্নধর্মী উৎসকে একত্রিত করলে, স্প্রিংগার নেচার সাইগ্রাফ (হ্যামন্ড এট আল।, 2017), অন্যদিকে, স্প্রিংগার নেচার এবং এর অংশীদারদের থেকে শুধুমাত্র ডেটা একত্রিত করে। এটিতে প্রকাশনা, অধিভুক্তি, গবেষণা প্রকল্প, তহবিল এবং সম্মেলন সংক্রান্ত সত্তা রয়েছে, মোট 14 মিলিয়নেরও বেশি গবেষণা পণ্য[7]। একটি সর্বজনীন SPARQL এন্ডপয়েন্ট অফার করার কোন বর্তমান পরিকল্পনা নেই, তবে একটি ব্রাউজার ইন্টারফেসের মাধ্যমে ডেটা অন্বেষণ করার সম্ভাবনা রয়েছে এবং CC-BY লাইসেন্সের অধীনে JSON-LD ফর্ম্যাটে একটি ডাম্প মাসিক প্রকাশ করা হয়।



BioTea হল একটি ডোমেন-ভিত্তিক ডেটাসেট, এবং RDF প্রযুক্তি ব্যবহার করে PubMed Central (PMC-OA) (Garcia et al., 2018) এর টীকাযুক্ত ফুল-টেক্সট ওপেন-অ্যাক্সেস উপসেটের প্রতিনিধিত্ব করে। সেই 2018 কাগজের সময়, ডেটাসেটে 1.5 মিলিয়ন গ্রন্থপঞ্জী সম্পদ ছিল। অন্যান্য ডেটাসেটের বিপরীতে, BioTea মেটাডেটা এবং উদ্ধৃতি বর্ণনা করে এবং টীকাকৃত পূর্ণ-পাঠ্যকে শব্দার্থকভাবে সংজ্ঞায়িত করে। নাম-সত্তা স্বীকৃতি বিশ্লেষণ বায়োমেডিকাল অনটোলজি সম্পর্কিত অভিব্যক্তি এবং পরিভাষা সনাক্ত করার জন্য গৃহীত হয় যা পরে টীকা হিসাবে রেকর্ড করা হয় (যেমন জৈব অণু, ওষুধ এবং রোগ সম্পর্কে)। BioTea ডেটা ক্রিয়েটিভ কমন্স অ্যাট্রিবিউশন নন-কমার্শিয়াল 4.0 ইন্টারন্যাশনাল লাইসেন্সের অধীনে RDF/XML এবং JSON-LD ফর্ম্যাটে ডাম্প হিসাবে প্রকাশ করা হয়, যখন SPARQL এন্ডপয়েন্ট বর্তমানে অফলাইনে রয়েছে।


একটি উল্লেখযোগ্য পদ্ধতি হল ওপেন রিসার্চ নলেজ গ্রাফ (ORKG) (Auer et al., 2020) দ্বারা গৃহীত। মেটাডেটা প্রধানত বিশ্বস্ত এজেন্টদের দ্বারা ক্রাউডসোর্সিংয়ের মাধ্যমে বা ক্রসরেফ থেকে স্বয়ংক্রিয়ভাবে সংগ্রহ করা হয়। যাইহোক, ORKG এর প্রাথমিক উদ্দেশ্য মেটাডেটা সংগঠিত করা নয় বরং পরিষেবা প্রদান করা। এই পরিষেবাগুলির প্রধান সুযোগ হল শব্দ এম্বেডিং ব্যবহার করে একটি সাহিত্য তুলনা বিশ্লেষণ করা যাতে একটি সাদৃশ্য বিশ্লেষণ সক্ষম হয় এবং সম্পর্কিত কাজের অন্বেষণ এবং লিঙ্ককে উৎসাহিত করা হয়। এই ধরনের পরিশীলিত বিশ্লেষণ সক্ষম করার জন্য, Crossref থেকে মেটাডেটা অপর্যাপ্ত; অতএব, বিষয়, ফলাফল, পদ্ধতি, শিক্ষাগত প্রসঙ্গ এবং মূল্যায়নকারীর উপর কাঠামোগত টীকা প্রতিটি সম্পদের জন্য ম্যানুয়ালি নির্দিষ্ট করা আবশ্যক। ডেটাসেটে (জুন 2023 অনুযায়ী) 25,680টি কাগজপত্র[8], 5153টি ডেটাসেট, 1364টি সফ্টওয়্যার এবং 71টি পর্যালোচনা রয়েছে। ORKG ডেটাসেট তৈরিতে মানুষের অবদানের গুরুত্বের প্রেক্ষিতে, প্ল্যাটফর্মটি RDF ফর্ম্যাটে না হলেও পরিবর্তন এবং উদ্ভবের উপর নজর রাখে। ডেটা একটি ওয়েব ইন্টারফেস, SPARQL, এবং একটি API এর মাধ্যমে অন্বেষণ করা যেতে পারে এবং CC BY-SA লাইসেন্সের অধীনে ডাউনলোড করা যেতে পারে।


ScholarlyData শুধুমাত্র সেমান্টিক ওয়েব (Nuzzolese et al., 2016) বিষয়ে কনফারেন্স এবং ওয়ার্কশপ সম্পর্কে তথ্য সংগ্রহ করে। কনফারেন্স অন্টোলজি অনুসরণ করে ডেটা মডেল করা হয়, যা একটি একাডেমিক কনফারেন্সের সাধারণ সত্ত্বাকে বর্ণনা করে, যেমন গৃহীত কাগজপত্র, লেখক, তাদের অনুষঙ্গ এবং আয়োজক কমিটি, কিন্তু গ্রন্থপঞ্জী উল্লেখ নয়। জুন 2023 পর্যন্ত, ডেটাসেট 5678টি কনফারেন্স পেপার সম্পর্কে তথ্য সঞ্চয় করেছে। কনফারেন্স লিঙ্কড ওপেন ডেটা জেনারেটর সফ্টওয়্যার ব্যবহার করে এই ধরনের ডেটাসেট আপডেট করা হয়, যা CSV ফাইল থেকে শুরু করে RDF আউটপুট করে (জেনটাইল এবং নুজজোলেস, 2015)। এজেন্টদের ডিডপ্লিকেশন শুধুমাত্র তাদের URI-এর উপর ভিত্তি করে একটি তত্ত্বাবধানে শ্রেণীবিভাগ পদ্ধতি ব্যবহার করে (Zhang et al., 2017), যখন ORCIDগুলি আরও একটি ধাপে যোগ করা হয়। এই পদ্ধতিটি সমজাতীয় শব্দগুলির অস্তিত্বকে সম্বোধন করে না। যাইহোক, এটি ScholarlyData-এর জন্য একটি গৌণ সমস্যা, যেহেতু মাত্র কয়েক হাজার মানুষ সূচীকৃত সম্মেলনের সাথে জড়িত। ScholarlyData একটি SPARQL এন্ডপয়েন্টের মাধ্যমে অন্বেষণ করা যেতে পারে, এবং ডাম্পগুলি ক্রিয়েটিভ কমন্স অ্যাট্রিবিউশন 3.0 আনপোর্টেড লাইসেন্সের অধীনে RDF/XML ফর্ম্যাটে উপলব্ধ।


উপসংহারে, আমরা উল্লেখ করতে চাই যে উপরে উল্লিখিত এই অন্যান্য ডেটাসেটগুলির কোনওটিই পরিবর্তন-ট্র্যাকিং ডেটা এবং RDF-তে সম্পর্কিত উত্স তথ্য প্রকাশ করে না।


সারণী 1 প্রতিটি ডেটাসেটে করা সমস্ত বিবেচনার সংক্ষিপ্ত বিবরণ দেয়।


এই কাগজটি CC 4.0 DEED লাইসেন্সের অধীনে arxiv-এ উপলব্ধ


[১] https://www.issn.org/


[২] https://archive.org/details/GeneralIndex


[৩] https://docs.openalex.org/api-entities/works


[৪] https://explore.openaire.eu/search/find/research-outcomes


[৫] https://www.semanticscholar.org/


[৬] https://scholia.toolforge.org/statistics


[৭] https://scigraph.springernature.com/explorer/datasets/data_at_a_glance/


[৮] https://orkg.org/papers