Auteurs:
(1) Arcangelo Massari, Centre de recherche sur les métadonnées savantes ouvertes, Département de philologie classique et d'études italiennes, Université de Bologne, Bologne, Italie {[email protected]} ;
(2) Fabio Mariani, Institut de philosophie et des sciences de l'art, Université Leuphana, Lunebourg, Allemagne {[email protected]} ;
(3) Ivan Heibi, Centre de recherche sur les métadonnées savantes ouvertes, Département de philologie classique et d'études italiennes, Université de Bologne, Bologne, Italie et Centre de recherche avancée en humanités numériques (/DH.arc), Département de philologie classique et d'études italiennes, Université de Bologne, Bologne, Italie {[email protected]} ;
(4) Silvio Peroni, Centre de recherche sur les métadonnées savantes ouvertes, Département de philologie classique et d'études italiennes, Université de Bologne, Bologne, Italie et Centre de recherche avancée en humanités numériques (/DH.arc), Département de philologie classique et d'études italiennes, Université de Bologne, Bologne, Italie {[email protected]} ;
(5) David Shotton, Oxford e-Research Centre, Université d'Oxford, Oxford, Royaume-Uni {[email protected]}.
Dans cette section, nous passerons en revue les ensembles de données d'édition savante les plus importants auxquels l'accès ne nécessite pas d'abonnement, c'est-à-dire les ensembles de données accessibles au public contenant des métadonnées bibliographiques savantes. Étant donné qu'OpenCitations Meta utilise les technologies du Web sémantique pour représenter les données, une attention particulière sera accordée aux ensembles de données RDF, à savoir Wikidata, Springer Nature SciGraph, BioTea, OpenResearch Knowledge Graph et Scholarly Data. De plus, OpenAIRE Research Graph, OpenAlex et Scholarly Data seront décrits, car ce sont les ensembles de données les plus complets en termes de nombre de travaux, bien qu'ils ne représentent pas les données sémantiquement.
OpenAlex (Priem et al., 2022) est né des cendres de Microsoft Academic Graph le 1er janvier 2022 et a hérité de toutes ses métadonnées. Il comprend des données de Crossref (Hendricks et al., 2020), Pubmed (Maloney et al., 2013), ORCID (Haak et al., 2012), ROR (Lammey, 2020), DOAJ (Morrison, 2017), Unpaywall ( Dhakal, 2019), arXiv (Sigurdsson, 2020), Zenodo (Research & OpenAIRE, 2013), le Centre international de l'ISSN[1] et l'index général d'Internet Archive[2]. De plus, les analyses Web sont utilisées pour ajouter des métadonnées manquantes. Avec plus de 240 millions d’ouvrages[3], OpenAlex est à ce jour l’ensemble de métadonnées bibliographiques le plus complet. OpenAlex attribue des identifiants persistants à chaque ressource. De plus, les auteurs sont levés grâce à des heuristiques basées sur les co-auteurs, les citations et d'autres caractéristiques des ressources bibliographiques. Les données sont distribuées sous licence CC0 et sont accessibles via l'API, l'interface Web ou en téléchargeant une copie instantanée complète de la base de données OpenAlex.
Le projet OpenAIRE a débuté en 2008 pour soutenir l'adoption des mandats de libre accès de la Commission européenne (Manghi et al., 2010), et il est désormais l'organisation phare du programme de recherche et d'innovation Horizon 2020 pour réaliser le Cloud européen de la science ouverte (European Open Science Cloud). Commission. Direction générale de la recherche et de l'innovation., 2016). L'un de ses principaux résultats est l'OpenAIRE Research Graph, qui comprend des métadonnées sur les résultats scientifiques (par exemple, la littérature, les ensembles de données et les logiciels), les organisations, les bailleurs de fonds de la recherche, les flux de financement, les projets et les communautés, ainsi que des informations sur leur provenance. Les données sont collectées à partir de diverses sources (Atzori et al., 2017) : archives, par exemple ArXiv (Sigurdsson, 2020) Europe PMC (The Europe PMC Consortium, 2015), Software Heritage (Abramatic et al., 2018) et Zenodo ( Recherche & OpenAIRE, 2013); les services d'agrégation, par exemple DOAJ (Morrison, 2017) et OpenCitations (Peroni & Shotton, 2020) ; et d'autres graphiques de recherche, par exemple Crossref (Hendricks et al., 2020) et DataCite (Brase, 2009). En juin 2023, cet ensemble de données OpenAIRE comprenait 232 174 001 produits de recherche[4]. Le processus de déduplication mis en œuvre par OpenAIRE prend en compte non seulement les PID mais également d'autres heuristiques, comme le nombre d'auteurs et la distance de Levenstein des titres. Cependant, les identifiants internes qu'OpenAIRE associe aux entités ne sont pas persistants et peuvent changer lorsque les données sont mises à jour. Les données de l'OpenAIRE Research Graph sont accessibles via une API et l'interface Explore. Les dumps sont également disponibles sous une licence internationale Creative Commons Attribution 4.0.
Semantic Scholar a été introduit par l’Allen Institute for Artificial Intelligence en 2015 (Fricke, 2018). Il s'agit d'un moteur de recherche qui utilise l'intelligence artificielle pour sélectionner uniquement les articles les plus pertinents par rapport à la recherche de l'utilisateur et pour simplifier l'exploration, par exemple en produisant des résumés automatiques. Semantic Scholar approvisionne son contenu via une indexation Web et des partenariats avec des revues scientifiques, des index et des fournisseurs de contenu. Parmi ceux-ci figurent l'Association for Computational Linguistics, Cambridge University Press, IEEE, PubMed, Springer Nature, The MIT Press, Wiley, arXiv, HAL et PubMed. En juin 2023, il indexe 212 605 886 ouvrages scientifiques[5]. Les auteurs sont levés via un modèle d'intelligence artificielle (Subramanian et al., 2021), associé à un identifiant Semantic Scholar, et une page est automatiquement générée pour chaque auteur, que la personne réelle peut utiliser. Semantic Scholar fournit une interface Web, des API et l'ensemble de données complet est téléchargeable sous la licence Open Data Commons Attribution (ODCBy) v1.0.
Wikidata a été introduit en 2012 par Wikimedia Deutschland en tant que base de connaissances ouverte permettant de stocker en RDF des données provenant d'autres projets Wikimedia, tels que Wikipedia, Wikivoyage, Wiktionary et Wikisource (Mora-Cantallops et al., 2019). En raison de son succès, Google a fermé en 2014 Freebase, qui devait devenir « Wikipédia des données structurées », et l’a migré vers Wikidata (Tanon et al., 2016). Depuis 2016, le projet WikiCite a contribué de manière significative à l'évolution de Wikidata en tant que base de données bibliographique, de sorte qu'en juin 2023, Wikidata contenait les descriptions de 39 864 447 articles académiques[6]. L'identifiant interne Wikidata faisant référence à toute entité (y compris les ressources bibliographiques) est associé à de nombreux identifiants externes, par exemple DOI, PMID, PMCID, arXiv, ORCID, Google Scholar, VIAF, Crossref funder ID, ZooBank et Twitter. Les données sont publiées sous licence CC0 sous forme de dumps RDF dans Turtle et NTriples. Les utilisateurs peuvent les parcourir via SPARQL, une interface web et, depuis 2017, via Scholia – un service web qui effectue des requêtes SPARQL en temps réel pour générer des profils sur des chercheurs, des organisations, des revues, des éditeurs, des travaux universitaires et des sujets de recherche, tout en générant également infographies précieuses (Nielsen et al., 2017).
Alors qu’OpenAIRE Research Graph et Wikidata regroupent de nombreuses sources hétérogènes, Springer Nature SciGraph (Hammond et al., 2017), en revanche, regroupe uniquement les données de Springer Nature et de ses partenaires. Il contient des entités concernant les publications, les affiliations, les projets de recherche, les bailleurs de fonds et les conférences, totalisant plus de 14 millions de produits de recherche[7]. Il n'est actuellement pas prévu de proposer un point de terminaison SPARQL public, mais il existe la possibilité d'explorer les données via une interface de navigateur, et un dump est publié mensuellement au format JSON-LD sous licence CC-BY.
BioTea est également un ensemble de données orienté domaine et représente le sous-ensemble annoté en texte intégral en libre accès de PubMed Central (PMC-OA) (Garcia et al., 2018) utilisant les technologies RDF. Au moment de cet article de 2018, l'ensemble de données contenait 1,5 million de ressources bibliographiques. Contrairement à d’autres ensembles de données, BioTea décrit les métadonnées et les citations et définit sémantiquement les textes intégraux annotés. L'analyse de reconnaissance d'entités nommées est adoptée pour identifier les expressions et la terminologie liées aux ontologies biomédicales qui sont ensuite enregistrées sous forme d'annotations (par exemple sur les biomolécules, les médicaments et les maladies). Les données BioTea sont publiées sous forme de dumps aux formats RDF/XML et JSON-LD sous la licence Creative Commons Attribution Non-Commercial 4.0 International, tandis que le point de terminaison SPARQL est actuellement hors ligne.
Une approche remarquable est celle adoptée par l’Open Research Knowledge Graph (ORKG) (Auer et al., 2020). Les métadonnées sont principalement collectées soit par des agents de confiance via le crowdsourcing, soit automatiquement depuis Crossref. Cependant, l'objectif premier d'ORKG n'est pas d'organiser des métadonnées mais de fournir des services. L'objectif principal de ces services est d'effectuer une analyse comparative de la littérature à l'aide d'intégrations de mots pour permettre une analyse de similarité et favoriser l'exploration et la liaison d'œuvres connexes. Pour permettre des analyses aussi sophistiquées, les métadonnées de Crossref sont insuffisantes ; par conséquent, des annotations structurées sur le sujet, le résultat, la méthode, le contexte pédagogique et l'évaluateur doivent être spécifiées manuellement pour chaque ressource. L'ensemble de données contient (en juin 2023) 25 680 articles[8], 5 153 ensembles de données, 1 364 logiciels et 71 revues. Compte tenu de l'importance de la contribution humaine à la création de l'ensemble de données ORKG, la plateforme assure le suivi des changements et de la provenance, mais pas au format RDF. Les données peuvent être explorées via une interface web, SPARQL et une API, et peuvent également être téléchargées sous licence CC BY-SA.
ScholarlyData collecte des informations uniquement sur les conférences et ateliers sur le thème du Web sémantique (Nuzzolese et al., 2016). Les données sont modélisées selon l'ontologie de la conférence, qui décrit les entités typiques d'une conférence universitaire, telles que les articles acceptés, les auteurs, leurs affiliations et le comité organisateur, mais pas les références bibliographiques. Jusqu'en juin 2023, l'ensemble de données stockait des informations sur 5 678 articles de conférence. Un tel ensemble de données est mis à jour à l'aide du logiciel générateur de données ouvertes liées à la conférence, qui génère du RDF à partir de fichiers CSV (Gentile & Nuzzolese, 2015). La déduplication des agents repose uniquement sur leurs URI à l'aide d'une méthode de classification supervisée (Zhang et al., 2017), tandis que les ORCID sont ajoutés dans une étape ultérieure. Cette méthodologie ne traite pas de l'existence d'homonymes. Il s’agit cependant d’un problème mineur pour ScholarlyData, puisque seules quelques milliers de personnes sont impliquées dans les conférences indexées. ScholarlyData peut être exploré via un point de terminaison SPARQL et les dumps sont disponibles au format RDF/XML sous une licence Creative Commons Attribution 3.0 Unported.
Pour conclure, nous tenons à souligner qu'aucun de ces autres ensembles de données mentionnés ci-dessus n'expose les données de suivi des modifications et les informations de provenance associées dans RDF.
Le tableau 1 résume toutes les considérations faites sur chaque ensemble de données.
Cet article est disponible sur arxiv sous licence CC 4.0 DEED.
[1] https://www.issn.org/
[2] https://archive.org/details/GeneralIndex
[3] https://docs.openalex.org/api-entities/works
[4] https://explore.openaire.eu/search/find/research-outcomes
[5] https://www.semanticscholar.org/
[6] https://scholia.toolforge.org/statistics
[7] https://scigraph.springernature.com/explorer/datasets/data_at_a_glance/
[8] https://orkg.org/papers