Autoren:
(1) Arcangelo Massari, Forschungszentrum für offene wissenschaftliche Metadaten, Abteilung für Klassische Philologie und Italianistik, Universität Bologna, Bologna, Italien {[email protected]};
(2) Fabio Mariani, Institut für Philosophie und Kunstwissenschaften, Leuphana Universität, Lüneburg, Deutschland {[email protected]};
(3) Ivan Heibi, Forschungszentrum für offene wissenschaftliche Metadaten, Abteilung für Klassische Philologie und Italianistik, Universität Bologna, Bologna, Italien und Digital Humanities Advanced Research Centre (/DH.arc), Abteilung für Klassische Philologie und Italianistik, Universität Bologna, Bologna, Italien {[email protected]};
(4) Silvio Peroni, Forschungszentrum für offene wissenschaftliche Metadaten, Abteilung für Klassische Philologie und Italianistik, Universität Bologna, Bologna, Italien und Digital Humanities Advanced Research Centre (/DH.arc), Abteilung für Klassische Philologie und Italianistik, Universität Bologna, Bologna, Italien {[email protected]};
(5) David Shotton, Oxford e-Research Centre, University of Oxford, Oxford, Vereinigtes Königreich {[email protected]}.
OpenCitations Meta ist eine neue Datenbank, die bibliografische Metadaten von wissenschaftlichen Publikationen enthält, die in von der OpenCitations-Infrastruktur indizierte Zitate involviert sind. Sie hält sich an die Open Science-Prinzipien und stellt Daten unter einer CC0-Lizenz für maximale Wiederverwendung bereit. Auf die Daten kann über einen SPARQL-Endpunkt, REST-APIs und Dumps zugegriffen werden. OpenCitations Meta dient drei wichtigen Zwecken. Erstens ermöglicht es die Disambiguierung von Zitaten zwischen Publikationen, die mit unterschiedlichen Kennungen aus verschiedenen Quellen beschrieben werden. Beispielsweise kann es Publikationen verknüpfen, die durch DOIs in Crossref und PMIDs in PubMed identifiziert wurden. Zweitens weist es bibliografischen Ressourcen ohne vorhandene externe persistente Kennungen wie DOIs neue global persistente Kennungen (PIDs), sogenannte OpenCitations Meta Identifiers (OMIDs), zu. Schließlich verbessert OpenCitations Meta durch das interne Hosten der bibliografischen Metadaten die Geschwindigkeit des Metadatenabrufs für zitierende und zitierte Dokumente. Die Datenbank wird durch automatisierte Datenkuratierung gefüllt, einschließlich Deduplizierung, Fehlerkorrektur und Metadatenanreicherung. Die Daten werden im RDF-Format gemäß dem OpenCitations-Datenmodell gespeichert und Änderungen sowie Herkunftsinformationen werden nachverfolgt. OpenCitations Meta und seine Produktion. OpenCitations Meta enthält derzeit Daten von Crossref, DataCite und der NIH Open Citation Collection. In Bezug auf semantische Veröffentlichungsdatensätze ist es derzeit das erste in Bezug auf das Datenvolumen.
Schlüsselwörter — wissenschaftliche Zitate, bibliografische Metadaten, Provenienz, Änderungsverfolgung, Open Science, OpenCitations
OpenCitations ist eine unabhängige, gemeinnützige Infrastrukturorganisation für offene wissenschaftliche Forschung, die sich der Veröffentlichung offener bibliografischer und Zitationsdaten unter Verwendung von Technologien des Semantic Web widmet. OpenCitations speichert und verwaltet Informationen zu wissenschaftlichen Zitaten, d. h. die konzeptionellen Links, die eine zitierende Entität mit einer zitierten Entität verbinden, in den OpenCitations-Indizes. Bisher gab es vier OpenCitations-Indizes: COCI (https://opencitations.net/index/coci), der OpenCitations Index of Crossref open DOI-to-DOI Citations (Heibi et al., 2019b); POCI (https://opencitations.net/index/poci), der OpenCitations Index of PubMed open PMID-to-PMID Citations; DOCI (https://opencitations.net/index/doci), der OpenCitations Index of DataCite open DOI-to-DOI Citations; und CROCI (https://opencitations.net/index/croci), der Crowdsourced Open Citations Index (Heibi et al., 2019a).
Obwohl die Abdeckung der OpenCitations-Indizes mittlerweile annähernd dem Niveau kommerzieller, proprietärer Zitationsindizes entspricht (siehe https://opencitations.hypotheses.org/1420), gibt es noch offene Fragen, die von OpenCitations bisher nicht behandelt wurden.
Zunächst geht es um die Disambiguierung von Zitaten. Manchmal werden bibliografischen Ressourcen mehrere Kennungen zugewiesen, wie z. B. ein DOI und ein PMID. In solchen Fällen kann dasselbe Zitat je nach Datenquelle mehrfach und auf unterschiedliche Weise dargestellt werden. Beispielsweise beschreibt OpenCitations in COCI ein Zitat zwischen zwei Publikationen unter Verwendung von Metadaten, die von Crossref abgeleitet wurden, als DOI-zu-DOI-Zitat und in POCI dasselbe Zitat unter Verwendung von Metadaten, die von PubMed abgeleitet wurden, als PMID-zu-PMID-Zitat. Diese Duplizierung wirft Probleme auf, wenn die Anzahl der eingehenden und ausgehenden Zitate jedes Dokuments gezählt wird, eine wichtige Statistik für Bibliotheken, Zeitschriften und szientometrische Studien. Die Verwendung von OpenCitations Meta ermöglicht es uns, solche Zitate zu deduplizieren und die Probleme zu lösen, die eine solche Duplizierung sonst verursachen würde.
Zweitens ist die Zuweisung global persistenter Kennungen zu Dokumenten nicht in allen wissenschaftlichen Bereichen gängige Praxis. Gorraiz et al. (2016) haben gezeigt, dass die Natur- und Sozialwissenschaften DOIs in weitaus größerem Umfang verwenden als die Geisteswissenschaften. Aus dieser Forschung, die mit Scopus und der Web of Science Core Collection durchgeführt wurde, ging hervor, dass fast 90 % der Veröffentlichungen in den Natur- und Sozialwissenschaften mit einer DOI verknüpft sind, während diese Zahl in den Geisteswissenschaften nur 50 % beträgt. Darüber hinaus sind in den Geisteswissenschaften in vielen Bereichen (z. B. in der Geschichte) Zitate aus antiken Primärquellen ohne DOI (z. B. Aristoteles) erforderlich. Wenn ein Dokument keine Kennung hat, entsprechen seine Metadaten nicht den FAIR-Prinzipien (Wilkinson et al., 2016), denen zufolge wissenschaftliche digitale Forschungsobjekte auffindbar, zugänglich, interoperabel und wiederverwendbar sein müssen. Eine global eindeutige und persistente Kennung ist entscheidend, um Metadaten auffindbar und zugänglich zu machen. Darüber hinaus verhindert eine bibliografische Ressource ohne Kennung, dass Zitate, die sie enthalten, gemäß den FAIR-Prinzipien beschrieben werden können. Aus diesem Grund müssen gemäß der Open Citation Definition (Peroni & Shotton, 2018), die die Füllung der OpenCitations-Indizes regelt, zwei durch eine indexierte Zitierung verknüpfte Entitäten beide durch einen persistenten Identifikator identifiziert werden, der aus demselben Identifikationsschema stammt, beispielsweise beide mit DOIs oder beide mit PubMed-IDs. Beispielsweise speichert COCI (Heibi et al., 2019b) nur Zitierungsinformationen, wenn die zitierenden und zitierten Entitäten in Crossref beschrieben sind und beide DOIs haben. Zitierungen, die Veröffentlichungen ohne DOIs oder andere anerkannte PIDs betreffen, wurden bisher von den OpenCitations-Zitationsindizes ausgeschlossen.
OpenCitations Meta löst nun jedoch die Probleme, die durch bibliografische Ressourcen entstehen, die durch mehrere Kennungen identifiziert werden, sowie durch bibliografische Ressourcen, denen keine dauerhaften Kennungen fehlen, indem jedem in OpenCitations Meta beschriebenen Dokument eine neue global dauerhafte Kennung zugeordnet wird – ein OpenCitations Meta Identifier (OMID). Auf diese Weise können alle Zitate als OMID-zu-OMID-Zitate dargestellt werden (Abb. 1). Durch die Bereitstellung einer eindeutigen Kennung für jede in OpenCitations Meta gespeicherte Entität fungiert die OMID der Entität als Proxy zwischen den verschiedenen externen Kennungen, die für jede Entität verwendet werden, und ermöglicht so die Disambiguierung. Darüber hinaus kann OpenCitations Meta Metadaten für alle wissenschaftlichen Veröffentlichungen enthalten, die jeweils durch eine OMID identifiziert werden, ohne dass zwingend eine externe dauerhafte Kennung von der Quelle der Metadaten bereitgestellt werden muss.
Somit können dank OpenCitations Meta nun Metadaten für alle wissenschaftlichen Veröffentlichungen von OpenCitations gespeichert werden und Zitate, die alle diese Veröffentlichungen verknüpfen, können in einen neuen umfassenden OpenCitations-Index aufgenommen werden, dessen Unterindizes die anderen Indizes (COCI, DOCI, POCI usw.) entsprechend den verschiedenen Eingabequellen der Zitationsinformationen sein werden.
Drittens ist die bisher schlechte zeitliche Leistung der OpenCitations-Dienste, insbesondere der API-Operationen, die grundlegende bibliografische Metadaten der zitierenden und zitierten Ressourcen zurückgeben, zu bemängeln. Dies liegt daran, dass die OpenCitations-Indizes selbst bisher nur zitationsbezogene Metadaten enthielten (Zitate wurden als First-Class-Datenentitäten mit eigenen Metadaten behandelt), aber keine bibliografischen Metadaten zu den zitierenden und zitierten Entitäten (Titel, Autoren, Seitenzahlen usw.). Vielmehr wurden diese Metadaten bisher spontan mithilfe expliziter API-Anfragen an externe Dienste wie Crossref, ORCID und DataCite abgerufen.
Um die oben genannten Probleme zu lösen, haben wir in den letzten drei Jahren die Software entwickelt und getestet, mit der wir jetzt eine neue bibliografische Metadatensammlung erstellen, nämlich OpenCitations Meta, die wir im Dezember 2022 veröffentlicht haben. Die Software, die diese Datenbank unterstützt, ist Open Source und unter https://github.com/opencitations/oc_meta verfügbar. Die von OpenCitations Meta bereitgestellten Metadaten umfassen die grundlegenden bibliografischen Metadaten, die eine wissenschaftliche bibliografische Ressource beschreiben. Insbesondere werden darin alle bekannten bibliografischen Ressourcenkennungen für die bibliografische Ressource (z. B. DOI, PMID, ISSN und ISBN), Titel, Typ, Veröffentlichungsdatum, Seiten, der Veranstaltungsort der Ressource sowie die Band- und Ausgabenummern gespeichert, wenn es sich bei dem Veranstaltungsort um eine Zeitschrift handelt. Darüber hinaus enthält OpenCitations Meta Metadaten zu den Hauptakteuren, die an der Veröffentlichung jeder bibliografischen Ressource beteiligt sind, d. h. die Namen der Autoren, Herausgeber und Verleger, jeweils einschließlich ihrer eigenen dauerhaften Kennungen (z. B. ORCIDs), sofern verfügbar. Es ist unsere Absicht, zu einem späteren Zeitpunkt weitere Metadatenfelder (z. B. Institutionen der Autoren und Finanzierungsinformationen) hinzuzufügen.
Der Prozess der Generierung von OpenCitations-Metadaten kann in zwei Schritte unterteilt werden. Der erste Schritt umfasst die Kuratierung der Eingabedaten. Das kuratorische Verfahren umfasst die automatische Korrektur von Fehlern, die Standardisierung des Datenformats und die Deduplizierung separater Metadateneinträge für dasselbe Element. Der Deduplizierungsprozess basiert nur auf Kennungen. Dieser Ansatz bevorzugt Präzision gegenüber Rückruf: Personen werden beispielsweise nur dann dedupliziert, wenn ihnen eine ORCID zugewiesen ist, und niemals durch andere Heuristiken. Nach den Normalisierungs- und Deduplizierungsphasen wird jeder Entität ein OpenCitations-Meta-Identifier (OMID) zugewiesen, unabhängig davon, ob sie bereits eine externe dauerhafte Kennung (z. B. DOI, PubMed-ID, ISBN) hat oder nicht.
Der zweite Schritt beim Füllen von OpenCitations Meta besteht darin, die Roheingabedaten in RDF (Linked Open Data Format) zu konvertieren, das mit dem OpenCitations Data Model (OCDM) kompatibel ist (Daquino et al., 2020), um die Abfrage dieser Daten über SPARQL zu ermöglichen. Während dieses Prozesses wird der Herkunft und der Änderungsverfolgung große Aufmerksamkeit gewidmet: Jedes Mal, wenn eine Entität erstellt, geändert, gelöscht oder zusammengeführt wird, werden solche Änderungen in RDF aufgezeichnet und durch ihre Erstellungsdaten, Primärquellen und verantwortlichen Agenten gekennzeichnet.
Der Rest des Dokuments ist wie folgt gegliedert. Abschnitt 2 befasst sich mit anderen semantischen Publikationsdatensätzen. Anschließend wird in Abschnitt 3 der methodische Ansatz zur Erstellung von OpenCitations Meta ausführlich vorgestellt, beginnend mit der kuratorischen Phase (3.1), dann wird die Fehlerkorrektur beschrieben (3.2), dann folgt eine Erläuterung der Datenübersetzung in RDF gemäß OCDM (3.3) und abschließend eine Beschreibung der Erstellung der RDF-Provenienz- und Änderungsverfolgungsdaten (3.4). Abschnitt 4 enthält einige beschreibende Statistiken zum aktuellen OpenCitations Meta-Datensatz. Schließlich werden in Abschnitt 5 einige aktuelle Einschränkungen von OpenCitations Meta erörtert und es wird untersucht, wo OpenCitations Meta im Vergleich zu ähnlichen wissenschaftlichen Datensätzen steht.
Dieses Dokument ist auf arxiv unter der CC 4.0 DEED-Lizenz verfügbar .