paint-brush
OpenCitations Meta: Özet ve Girişile@categorize
106 okumalar

OpenCitations Meta: Özet ve Giriş

Çok uzun; Okumak

featured image - OpenCitations Meta: Özet ve Giriş
Categorize.Tech: Organizing the World of Software HackerNoon profile picture
0-item

Yazarlar:

(1) Arcangelo Massari, Açık Bilimsel Meta Veri Araştırma Merkezi, Klasik Filoloji ve İtalyan Araştırmaları Bölümü, Bologna Üniversitesi, Bologna, İtalya {[email protected]};

(2) Fabio Mariani, Felsefe ve Sanat Bilimleri Enstitüsü, Leuphana Üniversitesi, Lüneburg, Almanya {[email protected]};

(3) Ivan Heibi, Açık Bilimsel Meta Veri Araştırma Merkezi, Klasik Filoloji ve İtalyan Çalışmaları Bölümü, Bologna Üniversitesi, Bologna, İtalya ve Dijital Beşeri Bilimler İleri Araştırma Merkezi (/DH.arc), Klasik Filoloji ve İtalyan Çalışmaları Bölümü, Üniversite Bologna, Bologna, İtalya {[email protected]};

(4) Silvio Peroni, Açık Bilimsel Meta Veri Araştırma Merkezi, Klasik Filoloji ve İtalyan Çalışmaları Bölümü, Bologna Üniversitesi, Bologna, İtalya ve Dijital Beşeri Bilimler İleri Araştırma Merkezi (/DH.arc), Klasik Filoloji ve İtalyan Çalışmaları Bölümü, Üniversite Bologna, Bologna, İtalya {[email protected]};

(5) David Shotton, Oxford e-Araştırma Merkezi, Oxford Üniversitesi, Oxford, Birleşik Krallık {[email protected]}.

Bağlantı Tablosu

Soyut

OpenCitations Meta, OpenCitations altyapısı tarafından indekslenen alıntılarda yer alan bilimsel yayınların bibliyografik meta verilerini içeren yeni bir veritabanıdır. Açık Bilim ilkelerine uyar ve maksimum yeniden kullanım için verileri CC0 lisansı altında sağlar. Verilere SPARQL uç noktası, REST API'leri ve dökümler aracılığıyla erişilebilir. OpenCitations Meta üç önemli amaca hizmet eder. İlk olarak, çeşitli kaynaklardan farklı tanımlayıcılar kullanılarak açıklanan yayınlar arasındaki alıntıların netleştirilmesine olanak sağlar. Örneğin Crossref'teki DOI'ler ve PubMed'deki PMID'ler tarafından tanımlanan yayınları birbirine bağlayabilir. İkinci olarak, OpenCitations Meta Tanımlayıcıları (OMID'ler) olarak bilinen yeni küresel kalıcı tanımlayıcıları (PID'ler), DOI'ler gibi mevcut harici kalıcı tanımlayıcılar olmadan bibliyografik kaynaklara atar. Son olarak, bibliyografik meta verileri dahili olarak barındırarak OpenCitations Meta, alıntı yapılan ve alıntı yapılan belgeler için meta veri alma hızını artırır. Veritabanı, tekilleştirme, hata düzeltme ve meta veri zenginleştirme dahil olmak üzere otomatik veri iyileştirme yoluyla doldurulur. Veriler, OpenCitations Veri Modeli izlenerek RDF formatında depolanır ve değişiklikler ve kaynak bilgileri takip edilir. OpenCitations Meta ve üretimi. OpenCitations Meta şu anda Crossref, DataCite ve NIH Open Citation Collection'dan gelen verileri içermektedir. Anlamsal yayıncılık veri kümeleri açısından şu anda veri hacminde ilk sırada yer alıyor.



Anahtar Kelimeler — bilimsel alıntılar, bibliyografik meta veriler, kaynak, değişiklik takibi, açık bilim, OpenCitations

1. Giriş

OpenCitations, Anlamsal Web teknolojilerini kullanarak açık bibliyografik ve alıntı verilerini yayınlamaya adanmış, açık burs için bağımsız, kar amacı gütmeyen bir altyapı kuruluşudur. OpenCitations, bilimsel alıntılarla ilgili bilgileri, yani alıntı yapan bir varlığı alıntı yapılan bir varlığa bağlayan kavramsal bağlantıları OpenCitations Dizinlerinde saklar ve yönetir. Şimdiye kadar dört OpenCitations Dizini mevcuttu: COCI (https://opencitations.net/index/coci), Crossref açık DOI'den DOI'ye Alıntıların OpenCitations Dizini (Heibi ve diğerleri, 2019b); POCI (https://opencitations.net/index/poci), PubMed'in OpenCitations Dizini açık PMID'den PMID'ye alıntılar; DOCI (https://opencitations.net/index/doci), DataCite'ın OpenCitations Dizini açık DOI'den DOI'ye alıntılar; ve CROCI (https://opencitations.net/index/croci), Kitle Kaynaklı Açık Alıntılar Dizini (Heibi ve diğerleri, 2019a).


OpenCitations Dizinlerinin kapsamı ticari tescilli alıntı dizinlerinin kapsamına yaklaşmış olsa da (bkz. https://opencitations.hypotheses.org/ 1420), OpenCitations tarafından daha önce ele alınmamış önemli sorunlar da mevcuttur.


Birincisi alıntı belirsizliğinin giderilmesidir. Bazen bibliyografik kaynaklara DOI ve PMID gibi birden fazla tanımlayıcı atanabilir. Bu gibi durumlarda aynı alıntı, veri kaynağına bağlı olarak farklı şekillerde birden çok kez temsil edilebilir. Örneğin, OpenCitations, COCI'de Crossref'ten türetilmiş meta verileri DOI'den DOI'ye alıntı olarak kullanarak iki yayın arasındaki alıntıyı ve POCI'de aynı alıntıyı PMID'den PMID'ye alıntı olarak PubMed'den türetilmiş meta verileri kullanarak tanımlayacaktır. Bu çoğaltma, kütüphaneler, dergiler ve Scientometrics çalışmaları için çok önemli bir istatistik olan her bir belgenin gelen ve giden alıntılarının sayısını sayarken sorunlar yaratır. OpenCitations Meta'nın kullanılması, bu tür alıntıları tekilleştirmemize ve bu tür çoğaltmanın aksi takdirde neden olacağı sorunları çözmemize olanak tanır.


İkincisi, belgelere küresel olarak kalıcı tanımlayıcıların atanması, tüm bilimsel alanlarda evrensel bir uygulama değildir. Gorraiz ve ark. (2016), Doğa ve Sosyal Bilimler topluluklarının DOI'leri Sanat ve Beşeri Bilimler topluluğundan çok daha fazla benimsediğini göstermiştir. Scopus ve Web of Science Core Collection üzerinde gerçekleştirilen bu araştırmadan, Bilimler ve Sosyal Bilimler alanındaki yayınların neredeyse %90'ının bir DOI ile ilişkili olduğu, Sanat ve Beşeri Bilimler'de ise bu rakamın yalnızca %50 olduğu ortaya çıktı. Ek olarak, Beşeri Bilimler ile ilgili olarak, DOI'leri olmayan eski birincil kaynaklardan (örn. Aristoteles) alıntılar birçok alanda (örn. Tarihte) gereklidir. Bir belgenin tanımlayıcısı yoksa meta verileri, bilimsel dijital araştırma nesnelerinin bulunabilir, erişilebilir, birlikte çalışabilir ve yeniden kullanılabilir olması gerektiğini öngören FAIR ilkelerine (Wilkinson ve diğerleri, 2016) uymaz. Küresel olarak benzersiz ve kalıcı bir tanımlayıcı, meta verileri bulunabilir ve erişilebilir kılmak için kritik öneme sahiptir. Üstelik tanımlayıcısı olmayan bir bibliyografik kaynak, onu içeren alıntıların FAIR ilkelerine uygun olarak tanımlanmasını engeller. OpenCitations Dizinleri popülasyonunu yöneten Açık Alıntı Tanımına (Peroni ve Shotton, 2018) göre, dizine alınmış bir alıntıyla bağlantılı herhangi iki varlığın her ikisinin de aynı tanımlayıcı şemadan gelen kalıcı bir tanımlayıcıyla tanımlanmasının nedeni budur. örneğin her ikisi de DOI'lerle veya her ikisi de PubMed kimlikleriyle. Örneğin, COCI (Heibi ve diğerleri, 2019b) yalnızca alıntı yapan ve alıntı yapılan varlıkların Crossref'te tanımlandığı ve her ikisinin de DOI'ye sahip olduğu durumlarda alıntı bilgilerini saklar. DOI'leri veya diğer tanınmış PID'leri içermeyen yayınları içeren alıntılar şimdiye kadar OpenCitations alıntı dizinlerinin dışında tutulmuştur.


Ancak artık OpenCitations Meta, birden fazla tanımlayıcı tarafından tanımlanan bibliyografik kaynakların ve aynı zamanda kalıcı tanımlayıcılardan yoksun bibliyografik kaynakların oluşturduğu sorunları, bir OpenCitations Meta Tanımlayıcısı (OMID) olan OpenCitations Meta'da açıklanan her belgeye yeni bir global kalıcı tanımlayıcıyı ilişkilendirerek çözmektedir. Bu şekilde tüm alıntılar OMID'den OMID'ye alıntılar olarak temsil edilebilir (Şekil 1). OpenCitations Meta'da depolanan her varlık için benzersiz bir tanımlayıcı sağlayarak, varlığın OMID'si, her varlık için kullanılan farklı harici tanımlayıcılar arasında bir proxy görevi görür ve belirsizliğin ortadan kaldırılmasına olanak tanır. Üstelik OpenCitations Meta, meta verinin kaynağı tarafından sağlanacak harici bir kalıcı tanımlayıcıya zorunlu ihtiyaç olmaksızın, her biri bir OMID tarafından tanımlanan tüm bilimsel yayınlar için meta veriler içerebilir.


Böylece, OpenCitations Meta sayesinde, tüm bilimsel yayınların meta verileri artık OpenCitations tarafından saklanabiliyor ve bu tür yayınların tümünü birbirine bağlayan alıntılar, diğer dizinlerin (COCI, DOCI, POCI, vb.) Alıntı bilgilerinin çeşitli girdi kaynaklarına göre alt indeksler olacaktır.


Üçüncüsü, OpenCitations hizmetlerinin, özellikle de alıntı yapılan ve alıntı yapılan kaynakların temel bibliyografik meta verilerini döndüren API işlemlerinin daha önce zayıf olan zamansal performansıdır. Bunun nedeni, OpenCitations Dizinlerinin şimdiye kadar yalnızca alıntıyla ilgili meta verileri içermesidir (alıntılar, kendi meta verileriyle birlikte Birinci Sınıf veri varlıkları olarak ele alınır), ancak alıntı yapılan ve alıntı yapılan varlıklarla (başlık, yazarlar, sayfa numaraları) ilgili bibliyografik meta verileri barındırmaz. , vesaire.). Bunun yerine, bu meta veriler şimdiye kadar Crossref, ORCID ve DataCite gibi harici hizmetlere yapılan açık API istekleri aracılığıyla anında alınıyordu.


Geçtiğimiz üç yıl boyunca, yukarıda belirtilen sorunları ele almak için, Aralık 2022'de kullanıma sunduğumuz OpenCitations Meta adlı yeni bir bibliyografik meta veri koleksiyonu oluşturmak için şu anda kullandığımız yazılımı geliştirdik ve test ettik. Bu veritabanını destekleyen yazılım açıktır. kaynaktır ve https://github.com/ opencitations/oc_meta adresinde mevcuttur. OpenCitations Meta tarafından sunulan meta veriler, bilimsel bir bibliyografik kaynağı tanımlayan temel bibliyografik meta verileri içerir. Özellikle, bibliyografik kaynak için bilinen tüm bibliyografik kaynak tanımlayıcılarını (örn. DOI, PMID, ISSN ve ISBN), başlığı, türü, yayın tarihini, sayfaları, kaynağın yeri ve cilt ve sayı numaralarını saklar. mekan bir günlüktür. Buna ek olarak, OpenCitations Meta, her bibliyografik kaynağın yayınlanmasında yer alan ana aktörlere ilişkin meta verileri içerir; yani yazarların, editörlerin ve yayıncıların adları, mümkün olduğunda her biri kendi kalıcı tanımlayıcılarını (örn. ORCID'ler) içerir. Daha sonraki bir tarihte ek meta veri alanları (örn. yazarların kurumları ve fon bilgileri) eklemeyi planlıyoruz.


Şekil 1: Bir belge, örneğin Crossref'ten bir DOI ve Pubmed'den bir PMID gibi birden fazla tanımlayıcıyla tanımlanıyorsa, onu içeren alıntılar, belirsizlik ve tekilleştirme sorunu yaratarak birden fazla şekilde tanımlanabilir. OpenCitations Meta Tanımlayıcısının kullanılması, farklı harici tanımlayıcılar arasında proxy görevi görerek bu sorunu çözer


OpenCitations Meta oluşturma süreci iki adıma ayrılabilir. İlk adım, giriş verilerinin iyileştirilmesini içerir. Küratöryel prosedür, hataların otomatik olarak düzeltilmesi, veri formatının standartlaştırılması ve aynı öğe için ayrı meta veri girişlerinin tekilleştirilmesiyle ilgilidir. Tekilleştirme işlemi yalnızca tanımlayıcılara dayanır. Bu yaklaşım, hatırlama yerine kesinliği tercih eder: örneğin, insanlar yalnızca atanmış bir ORCID'ye sahip olmaları durumunda tekilleştirilir ve asla başka buluşsal yöntemlerle tekilleştirilir. Normalleştirme ve veri tekilleştirme aşamalarından sonra, halihazırda harici bir kalıcı tanımlayıcıya (örn. DOI, PubMed ID, ISBN) sahip olsun veya olmasın, her varlığa bir OpenCitations Meta Tanımlayıcısı (OMID) atanır.


OpenCitations Meta'yı doldurmanın ikinci adımı, bu tür verilerin SPARQL aracılığıyla sorgulanmasını sağlamak için ham giriş verilerinin OpenCitations Veri Modeli (OCDM) (Daquino ve diğerleri, 2020) ile uyumlu RDF'ye (Bağlantılı Açık Veri formatı) dönüştürülmesini içerir. Bu süreç sırasında, kaynak ve değişiklik takibine büyük önem verilmektedir: bir varlık her oluşturulduğunda, değiştirildiğinde, silindiğinde veya birleştirildiğinde, bu tür değişiklikler RDF'ye kaydedilir ve oluşturulma tarihleri, birincil kaynaklar ve sorumlu aracılarla karakterize edilir. .


Makalenin geri kalanı şu şekilde organize edilmiştir. Bölüm 2'de diğer anlamsal yayınlama veri kümeleri incelenmektedir. Daha sonra, Bölüm 3'te, OpenCitations Meta'yı üretmek için benimsenen metodolojik yaklaşım, küratöryel aşamadan (3.1) başlayarak, ardından hata düzeltmesini (3.2) tanımlayarak ve OCDM'ye göre RDF'ye veri çevirisinin açıklamasına geçerek ayrıntılı olarak sunulmaktadır. (3.3) ve RDF menşei ve değişiklik izleme verilerinin (3.4) üretimine ilişkin bir açıklama ile sonuçlanmaktadır. Bölüm 4'te mevcut OpenCitations Meta veri kümesine ilişkin bazı tanımlayıcı istatistikler verilmektedir. Son olarak Bölüm 5'te OpenCitations Meta'nın bazı mevcut sınırlamaları tartışılıyor ve OpenCitations Meta'nın benzer bilimsel veri kümeleri arasında nerede durduğuna dair bir değerlendirme yapılıyor.