paint-brush
OpenCitations Meta: Diskussionvon@categorize
111 Lesungen

OpenCitations Meta: Diskussion

Zu lang; Lesen

featured image - OpenCitations Meta: Diskussion
Categorize.Tech: Organizing the World of Software HackerNoon profile picture
0-item

Autoren:

(1) Arcangelo Massari, Forschungszentrum für offene wissenschaftliche Metadaten, Abteilung für Klassische Philologie und Italianistik, Universität Bologna, Bologna, Italien {[email protected]};

(2) Fabio Mariani, Institut für Philosophie und Kunstwissenschaften, Leuphana Universität, Lüneburg, Deutschland {[email protected]};

(3) Ivan Heibi, Forschungszentrum für offene wissenschaftliche Metadaten, Abteilung für Klassische Philologie und Italianistik, Universität Bologna, Bologna, Italien und Digital Humanities Advanced Research Centre (/DH.arc), Abteilung für Klassische Philologie und Italianistik, Universität Bologna, Bologna, Italien {[email protected]};

(4) Silvio Peroni, Forschungszentrum für offene wissenschaftliche Metadaten, Abteilung für Klassische Philologie und Italianistik, Universität Bologna, Bologna, Italien und Digital Humanities Advanced Research Centre (/DH.arc), Abteilung für Klassische Philologie und Italianistik, Universität Bologna, Bologna, Italien {[email protected]};

(5) David Shotton, Oxford e-Research Centre, University of Oxford, Oxford, Vereinigtes Königreich {[email protected]}.

Linktabelle

5. Diskussion

Wie in Abschnitt 2 gezeigt, ist OpenCitations Meta, das derzeit Daten von Crossref, DataCite und der NIH Open Citation Collection (ICite et al., 2022) enthält, bei der Datenmenge führend, wenn man nur semantische Veröffentlichungsdatensätze betrachtet. Darüber hinaus wird bereits daran gearbeitet, Daten aus neuen Quellen aufzunehmen, wie dem Japan Link Center (Hara, 2020), dem OpenAIRE Research Graph (Atzori et al., 2017) und dem Dryad Digital Repository (Vision, 2010).


Im Vergleich zum OpenAIRE Research Graph bietet OpenCitations Meta funktionale Vorteile: nämlich die Verwendung von OMIDs, global eindeutigen persistenten Kennungen, die intern zur Identifizierung jeder Entität innerhalb von OpenCitations Meta verwendet werden. Diese Verwendung ermöglicht die Darstellung und Indizierung von Zitaten zwischen bibliografischen Ressourcen, denen eine externe persistente Kennung wie ein Digital Object Identifier (DOI) fehlt. Diese Funktion bietet einen erheblichen Mehrwert für die OpenCitations-Indizes, da sie erstmals die Aufnahme vieler Zitate ermöglicht, die bisher nicht charakterisiert werden konnten, insbesondere Zitate zwischen Veröffentlichungen aus den Geistes- und Sozialwissenschaften (Gorraiz et al., 2016) und Zitate mit Primärquellen, z. B. einer Statue, einem Gemälde oder einem Kodex, denen normalerweise eine persistente Kennung fehlt. Wichtig ist, dass eine OMID auch die Zuweisung einer eindeutigen URL zur identifizierten Ressource ermöglicht, beispielsweise https://w3id.org/oc/meta/br/061401975837 für omid:br/061401975837.


Ein weiteres Feature, das unseres Wissens nach nur in OpenCitations Meta vorhanden ist, ist der Mechanismus zur Verwaltung der Änderungsverfolgung innerhalb der in RDF gespeicherten Herkunftsinformationen. Diese Informationen können mit der Python-Software timeagnostic-library (Massari & Peroni, 2022) abgefragt werden. Sie kann zeitübergreifende SPARQL-Abfragen durchführen, d. h. Abfragen über verschiedene Snapshots hinweg zusammen mit Herkunftsinformationen.


Was andere bibliografische Datensätze betrifft, die keine Semantic-Web-Technologien verwenden, ist OpenAlex (Priem et al., 2022) ein wichtiger Fall, der für den Vergleich mit OpenCitations Meta berücksichtigt werden muss. OpenAlex verwendet Web-Crawls, um fehlende Metadaten hinzuzufügen. Diese Funktion ermöglicht es, im Vergleich zu OpenCitations Meta eine größere Anzahl von Fehlern in den Daten der Quellen automatisch zu korrigieren.


Tatsächlich betrifft die Hauptbeschränkung von OpenCitations Meta derzeit die Qualität der Daten, die streng von der Qualität der Quellen abhängt. Crossref überprüft die von den Herausgebern bereitgestellten Metadaten nicht doppelt, und daher bleiben viele Fehler erhalten. So ist es beispielsweise möglich, auf Artikel zu stoßen, die in der Zukunft veröffentlicht werden (die unter https://api.crossref.org/v1/works/10.12960/tsh.2020.0006 verfügbaren Metadaten geben an, dass der Artikel 2029 in gedruckter Form veröffentlicht wird). Einige dieser Fehler können automatisch und ohne Hintergrundwissen korrigiert werden, während andere entweder den Einsatz von Webcrawlern oder manuelle Eingriffe erfordern. Während OpenAlex den Weg der Webcrawler verfolgt, arbeitet OpenCitations an einem Framework, das die Bearbeitung und Kuratierung von Daten durch vertrauenswürdige menschliche Fachexperten (wie etwa wissenschaftliche Bibliothekare) ermöglicht.


OpenCitations Meta erfüllt seinen Hauptzweck, indem es die bibliografischen Metadaten enthält, die zur Beschreibung der zitierenden und zitierten Publikationen erforderlich sind, die in den OpenCitations-Indizes enthalten sind. Wir sind uns jedoch bewusst, dass es neben diesen bibliografischen Metadatenelementen weitere Metadatenelemente gibt, die für die akademische Gemeinschaft von großer Bedeutung sind: Abstracts für Text Mining, Bestimmung von Domänen und Fachgebieten und Indizierung (auch wenn die Volltexte der Publikationen anderswo frei zugänglich sind) sowie Funder-IDs, Finanzierungsinformationen und institutionelle Kennungen, die für die Bestimmung von Leistungskennzahlen und die Durchführung von Forschungsbewertungen von wesentlicher Bedeutung sind. Sobald wir die Bereitstellung unserer Textsuchvorgänge abgeschlossen, unsere Abdeckung in den angegebenen Weisen erweitert und die Computerinfrastruktur verbessert haben, auf der OpenCitations Meta und die OpenCitations-Indizes laufen, werden wir mit der Integration und Befüllung dieser zusätzlichen Metadatenfelder fortfahren.


Die Bereitstellung qualitativ hochwertiger bibliografischer Metadaten ist ein komplexes und schwer durch automatisierte Vorgänge zu erreichendes Ziel, während der Umfang der Vorgänge eine manuelle Kuratierung mit Ausnahme einer Minderheit von Datensätzen ausschließt. Kein bibliografischer Datensatz ist derzeit in der Lage, dieses Ziel allein zu erreichen. Aus diesem Grund sollten alle verfügbaren bibliografischen Datenbanken als komplementär betrachtet werden. Während beispielsweise OpenAlex derzeit qualitativ bessere Metadaten bereitstellt, verfügt OpenCitations Meta über vollständige, frei zugängliche Provenienzdaten und ermöglicht dank der Möglichkeiten der Semantic-Web-Technologien komplexere Suchvorgänge. Beispiel: „Suche nach allen Autoren, die gemeinsam mit Silvio Peroni oder Fabio Vitali an Konferenzberichten mitgearbeitet haben, die nach 2009 bei Springer veröffentlicht wurden.“ Darüber hinaus ist OpenAlex nur teilweise kostenlos, da für mehr als hunderttausend Anfragen pro Tag über die API und den Zugriff auf stündlich über die API aktualisierte Daten (anstatt jeden Monat über den Dump) eine Gebühr zu entrichten ist[9]. Im Gegensatz dazu können Benutzer unbegrenzt viele Anfragen an die neueste Version von OpenCitations Meta kostenlos stellen.


Auch wenn der OpenAIRE Research Graph derzeit mehr Metadaten enthält, werden diese Daten unter einer CC-BY-Lizenz mit Namensnennung veröffentlicht, während die von OpenCitations Meta veröffentlichten Daten unter einer CC0-Public-Domain-Verzichtserklärung stehen, was völlige Freiheit für die Wiederverwendung, einschließlich der kommerziellen Wiederverwendung, und für die maschinelle Verarbeitung ohne jegliche Anforderung einer Namensnennung ermöglicht.