Yazarlar:
(1) Arcangelo Massari, Açık Bilimsel Meta Veri Araştırma Merkezi, Klasik Filoloji ve İtalyan Araştırmaları Bölümü, Bologna Üniversitesi, Bologna, İtalya {[email protected]};
(2) Fabio Mariani, Felsefe ve Sanat Bilimleri Enstitüsü, Leuphana Üniversitesi, Lüneburg, Almanya {[email protected]};
(3) Ivan Heibi, Açık Bilimsel Meta Veri Araştırma Merkezi, Klasik Filoloji ve İtalyan Çalışmaları Bölümü, Bologna Üniversitesi, Bologna, İtalya ve Dijital Beşeri Bilimler İleri Araştırma Merkezi (/DH.arc), Klasik Filoloji ve İtalyan Çalışmaları Bölümü, Üniversite Bologna, Bologna, İtalya {[email protected]};
(4) Silvio Peroni, Açık Bilimsel Meta Veri Araştırma Merkezi, Klasik Filoloji ve İtalyan Çalışmaları Bölümü, Bologna Üniversitesi, Bologna, İtalya ve Dijital Beşeri Bilimler İleri Araştırma Merkezi (/DH.arc), Klasik Filoloji ve İtalyan Çalışmaları Bölümü, Üniversite Bologna, Bologna, İtalya {[email protected]};
(5) David Shotton, Oxford e-Araştırma Merkezi, Oxford Üniversitesi, Oxford, Birleşik Krallık {[email protected]}.
Bu bölümde, erişimin abonelik gerektirmediği en önemli bilimsel yayın veri kümelerini, yani bilimsel bibliyografik meta verileri içeren kamuya açık veri kümelerini inceleyeceğiz. OpenCitations Meta, verileri temsil etmek için Anlamsal Web teknolojilerini kullandığından, RDF veri kümelerine, yani Wikidata, Springer Nature SciGraph, BioTea, OpenResearch Bilgi Grafiği ve Bilimsel Verilere özel önem verilecektir. Ayrıca anlamsal olarak veriyi temsil etmeseler de eser sayısı açısından en kapsamlı veri kümeleri olmaları nedeniyle OpenAIRE Araştırma Grafiği, OpenAlex ve Bilimsel Veriler anlatılacaktır.
OpenAlex (Priem ve diğerleri, 2022), 1 Ocak 2022'de Microsoft Academic Graph'ın küllerinden doğdu ve tüm meta verilerini devraldı. Crossref (Hendricks ve diğerleri, 2020), Pubmed (Maloney ve diğerleri, 2013), ORCID (Haak ve diğerleri, 2012), ROR (Lammey, 2020), DOAJ (Morrison, 2017), Unpaywall () verilerini içerir. Dhakal, 2019), arXiv (Sigurdsson, 2020), Zenodo (Research & OpenAIRE, 2013), ISSN International Centre[1] ve İnternet Arşivi Genel Dizini[2]. Ayrıca eksik meta verileri eklemek için web taramaları kullanılır. 240 milyondan fazla eserle[3] OpenAlex bugüne kadarki en kapsamlı bibliyografik meta veri veri kümesidir. OpenAlex her kaynağa kalıcı tanımlayıcılar atar. Ek olarak yazarlar, ortak yazarlara, alıntılara ve bibliyografik kaynakların diğer özelliklerine dayalı buluşsal yöntemler aracılığıyla belirsizliği giderilir. Veriler bir CC0 lisansı altında dağıtılır ve API, web arayüzü aracılığıyla veya OpenAlex veritabanının tam anlık görüntü kopyasının indirilmesi yoluyla erişilebilir.
OpenAIRE projesi, Avrupa Komisyonu Açık Erişim talimatlarının (Manghi ve diğerleri, 2010) benimsenmesini desteklemek için 2008 yılında başlamıştır ve şu anda Avrupa Açık Bilim Bulutunu (Avrupa Açık Bilim Bulutu) hayata geçirmek için Horizon 2020 araştırma ve yenilik programının amiral gemisi kuruluşudur. Komisyonu. Araştırma ve Yenilik Genel Müdürlüğü., 2016). Başlıca sonuçlarından biri, bilimsel çıktılar (örneğin, literatür, veri kümeleri ve yazılım), kuruluşlar, araştırma fon sağlayıcıları, finansman akışları, projeler ve topluluklar ile birlikte kaynak bilgileri ile ilgili meta verileri içeren OpenAIRE Araştırma Grafiğidir. Veriler çeşitli kaynaklardan toplanır (Atzori ve diğerleri, 2017): arşivler, örneğin ArXiv (Sigurdsson, 2020) Europe PMC (The Europe PMC Consortium, 2015), Software Heritage (Abramatic ve diğerleri, 2018) ve Zenodo ( Araştırma ve OpenAIRE, 2013); toplayıcı hizmetler, örneğin DOAJ (Morrison, 2017) ve OpenCitations (Peroni & Shotton, 2020); ve diğer araştırma grafikleri, örneğin Crossref (Hendricks ve diğerleri, 2020) ve DataCite (Brase, 2009). Haziran 2023 itibarıyla bu OpenAIRE veri seti 232.174.001 araştırma ürününden oluşuyordu[4]. OpenAIRE tarafından uygulanan veri tekilleştirme süreci yalnızca PID'leri değil aynı zamanda yazar sayısı ve başlıkların Levenstein mesafesi gibi diğer buluşsal yöntemleri de dikkate alır. Ancak OpenAIRE'in varlıklarla ilişkilendirdiği dahili tanımlayıcılar kalıcı değildir ve veriler güncellendiğinde değişebilir. OpenAIRE Araştırma Grafiği verilerine bir API ve Keşfet arayüzü aracılığıyla erişilebilir. Dökümler ayrıca Creative Commons Atıf 4.0 Uluslararası Lisansı kapsamında da mevcuttur.
Semantic Scholar, Allen Yapay Zeka Enstitüsü tarafından 2015 yılında tanıtıldı (Fricke, 2018). Yalnızca kullanıcının aramasıyla en alakalı makaleleri seçmek ve örneğin otomatik özetler üreterek araştırmayı basitleştirmek için yapay zekayı kullanan bir arama motorudur. Semantic Scholar, içeriğini web indeksleme yoluyla ve bilimsel dergiler, indeksler ve içerik sağlayıcılarla ortaklıklar yoluyla sağlar. Bunlar arasında Hesaplamalı Dilbilim Derneği, Cambridge University Press, IEEE, PubMed, Springer Nature, The MIT Press, Wiley, arXiv, HAL ve PubMed bulunmaktadır. Haziran 2023 itibarıyla 212.605.886 bilimsel eseri indekslemektedir[5]. Yazarlar, Semantic Scholar ID ile ilişkilendirilen bir yapay zeka modeli (Subramanian ve diğerleri, 2021) aracılığıyla belirsizliği giderilir ve her yazar için otomatik olarak gerçek kişinin kullanabileceği bir sayfa oluşturulur. Semantic Scholar bir web arayüzü ve API'ler sağlar ve veri kümesinin tamamı Open Data Commons Atıf Lisansı (ODCBy) v1.0 kapsamında indirilebilir.
Wikidata, 2012 yılında Wikimedia Deutschland tarafından Wikipedia, Wikivoyage, Vikisözlük ve Wikisource gibi diğer Wikimedia projelerinden gelen RDF verilerini depolamak için açık bir bilgi tabanı olarak tanıtıldı (Mora-Cantallops ve diğerleri, 2019). Google, başarısı nedeniyle 2014 yılında “yapılandırılmış veriler için Wikipedia” olması planlanan Freebase'i kapatarak onu Wikidata'ya taşıdı (Tanon ve diğerleri, 2016). 2016'dan beri WikiCite projesi, bibliyografik bir veritabanı olarak Vikiveri'nin gelişimine önemli ölçüde katkıda bulunmuştur; öyle ki, Haziran 2023 itibarıyla Vikiveri 39.864.447 akademik makalenin açıklamalarını içeriyordu[6]. Herhangi bir varlığa (bibliyografik kaynaklar dahil) atıfta bulunan dahili Vikiveri tanımlayıcısı, örneğin DOI, PMID, PMCID, arXiv, ORCID, Google Akademik, VIAF, Crossref fon sağlayıcı kimliği, ZooBank ve Twitter gibi çok sayıda harici tanımlayıcıyla ilişkilidir. Veriler, Turtle ve NTriples'ta RDF dökümleri olarak CC0 lisansı altında yayınlanır. Kullanıcılar, bir web arayüzü olan SPARQL aracılığıyla ve 2017'den itibaren araştırmacılar, kuruluşlar, dergiler, yayıncılar, akademik çalışmalar ve araştırma konuları hakkında profiller oluşturmak için gerçek zamanlı SPARQL sorguları gerçekleştiren bir web hizmeti olan Scholia aracılığıyla bunlara göz atabilir. değerli infografikler (Nielsen ve diğerleri, 2017).
OpenAIRE Research Graph ve Wikidata birçok heterojen kaynağı bir araya getirirken Springer Nature SciGraph (Hammond ve diğerleri, 2017) yalnızca Springer Nature ve ortaklarından gelen verileri bir araya getirir. Toplamda 14 milyonu aşkın araştırma ürünü[7] içeren yayınlar, bağlantılar, araştırma projeleri, fon sağlayıcılar ve konferanslarla ilgili kuruluşlar içerir. Herkese açık bir SPARQL uç noktası sunmaya yönelik mevcut bir plan yoktur, ancak verileri bir tarayıcı arayüzü aracılığıyla keşfetme olasılığı vardır ve CC-BY lisansı altında JSON-LD formatında aylık olarak bir döküm yayınlanır.
BioTea aynı zamanda etki alanı odaklı bir veri kümesidir ve RDF teknolojilerini kullanan PubMed Central'ın (PMC-OA) (Garcia ve diğerleri, 2018) açıklamalı tam metin açık erişim alt kümesini temsil eder. Bu 2018 makalesinin yayınlandığı tarihte veri seti 1,5 milyon bibliyografik kaynak içeriyordu. Diğer veri kümelerinden farklı olarak BioTea, meta verileri ve alıntıları tanımlar ve açıklamalı tam metinleri anlamsal olarak tanımlar. Adlandırılmış varlık tanıma analizi, daha sonra ek açıklamalar olarak kaydedilen (örneğin biyomoleküller, ilaçlar ve hastalıklar hakkında) biyomedikal ontolojilerle ilgili ifadeleri ve terminolojiyi tanımlamak için benimsenmiştir. BioTea verileri, Creative Commons Atıf Ticari Olmayan 4.0 Uluslararası lisansı kapsamında RDF/XML ve JSON-LD formatlarında dökümler olarak yayınlanırken, SPARQL uç noktası şu anda çevrimdışıdır.
Dikkate değer bir yaklaşım, Açık Araştırma Bilgi Grafiği (ORKG) tarafından benimsenen yaklaşımdır (Auer ve diğerleri, 2020). Meta veriler çoğunlukla ya güvenilir temsilciler tarafından kitle kaynak kullanımı yoluyla ya da otomatik olarak Crossref'ten toplanır. Ancak ORKG'nin öncelikli amacı meta verileri düzenlemek değil, hizmet sunmaktır. Bu hizmetlerin ana kapsamı, benzerlik analizini mümkün kılmak ve ilgili çalışmaların araştırılmasını ve bağlantısını teşvik etmek için kelime yerleştirmeleri kullanarak literatür karşılaştırma analizi yapmaktır. Bu tür karmaşık analizleri mümkün kılmak için Crossref'in meta verileri yetersizdir; bu nedenle konu, sonuç, yöntem, eğitim bağlamı ve değerlendiriciye ilişkin yapılandırılmış ek açıklamalar her kaynak için manuel olarak belirtilmelidir. Veri seti (Haziran 2023 itibarıyla) 25.680 makale[8], 5153 veri seti, 1364 yazılım ve 71 inceleme içermektedir. ORKG veri kümesinin oluşturulmasında insan katkısının önemi göz önüne alındığında platform, RDF formatında olmasa da değişiklikleri ve kökenleri takip ediyor. Veriler bir web arayüzü, SPARQL ve bir API aracılığıyla incelenebilir ve ayrıca CC BY-SA lisansı altında indirilebilir.
ScholarlyData, yalnızca Anlamsal Web konusundaki konferanslar ve çalıştaylar hakkında bilgi toplar (Nuzzolese ve diğerleri, 2016). Veriler, bir akademik konferanstaki kabul edilen makaleler, yazarlar, bağlantıları ve organizasyon komitesi gibi tipik varlıkları tanımlayan ancak bibliyografik referansları tanımlamayan Konferans Ontolojisine göre modellenmiştir. Haziran 2023'e kadar veri seti 5678 konferans makalesi hakkında bilgi depoladı. Böyle bir veri seti, CSV dosyalarından başlayarak RDF çıktısı veren Konferans Bağlantılı Açık Veri oluşturucu yazılımı kullanılarak güncellenir (Gentile ve Nuzzolese, 2015). Ajanların veri tekilleştirmesi, denetimli bir sınıflandırma yöntemi kullanılarak yalnızca URI'lerine dayanır (Zhang ve diğerleri, 2017), ORCID'ler ise bir sonraki adımda eklenir. Bu metodoloji eşseslilerin varlığını ele almaz. Ancak bu, ScholarlyData için küçük bir sorundur çünkü indekslenen konferanslara yalnızca birkaç bin kişi katılmaktadır. ScholarlyData, bir SPARQL uç noktası aracılığıyla incelenebilir ve dökümler, Creative Commons Attribution 3.0 Unported lisansı altında RDF/XML formatında mevcuttur.
Sonuç olarak, yukarıda bahsedilen diğer veri kümelerinin hiçbirinin RDF'deki değişiklik izleme verilerini ve ilgili kaynak bilgilerini göstermediğini belirtmek isteriz.
Tablo 1, her bir veri kümesinde dikkate alınan tüm hususları özetlemektedir.
Bu makale arxiv'de CC 4.0 DEED lisansı altında mevcuttur .
[1] https://www.issn.org/
[2] https://archive.org/details/GeneralIndex
[3] https://docs.openalex.org/api-entities/works
[4] https://explore.openaire.eu/search/find/research-outcomes
[5] https://www.semanticscholar.org/
[6] https://scholia.toolforge.org/statistics
[7] https://scigraph.springernature.com/explorer/datasets/data_at_a_glance/
[8] https://orkg.org/papers