Auteurs:
(1) Arcangelo Massari, Centre de recherche sur les métadonnées savantes ouvertes, Département de philologie classique et d'études italiennes, Université de Bologne, Bologne, Italie {[email protected]} ;
(2) Fabio Mariani, Institut de philosophie et des sciences de l'art, Université Leuphana, Lunebourg, Allemagne {[email protected]} ;
(3) Ivan Heibi, Centre de recherche sur les métadonnées savantes ouvertes, Département de philologie classique et d'études italiennes, Université de Bologne, Bologne, Italie et Centre de recherche avancée en humanités numériques (/DH.arc), Département de philologie classique et d'études italiennes, Université de Bologne, Bologne, Italie {[email protected]} ;
(4) Silvio Peroni, Centre de recherche sur les métadonnées savantes ouvertes, Département de philologie classique et d'études italiennes, Université de Bologne, Bologne, Italie et Centre de recherche avancée en humanités numériques (/DH.arc), Département de philologie classique et d'études italiennes, Université de Bologne, Bologne, Italie {[email protected]} ;
(5) David Shotton, Oxford e-Research Centre, Université d'Oxford, Oxford, Royaume-Uni {[email protected]}.
OpenCitations Meta est une nouvelle base de données qui contient des métadonnées bibliographiques de publications scientifiques impliquées dans des citations indexées par l'infrastructure OpenCitations. Il adhère aux principes de la science ouverte et fournit des données sous licence CC0 pour une réutilisation maximale. Les données sont accessibles via un point de terminaison SPARQL, des API REST et des vidages. OpenCitations Meta répond à trois objectifs importants. Premièrement, il permet de lever l’ambiguïté des citations entre des publications décrites à l’aide de différents identifiants provenant de diverses sources. Par exemple, il peut relier des publications identifiées par des DOI dans Crossref et des PMID dans PubMed. Deuxièmement, il attribue de nouveaux identifiants persistants globalement (PID), appelés méta-identifiants OpenCitations (OMID), aux ressources bibliographiques sans identifiants persistants externes existants tels que les DOI. Enfin, en hébergeant les métadonnées bibliographiques en interne, OpenCitations Meta améliore la vitesse de récupération des métadonnées pour les documents citant et cités. La base de données est alimentée grâce à une conservation automatisée des données, y compris la déduplication, la correction des erreurs et l'enrichissement des métadonnées. Les données sont stockées au format RDF selon le modèle de données OpenCitations, et les modifications et les informations de provenance sont suivies. OpenCitations Meta et sa production. OpenCitations Meta intègre actuellement les données de Crossref, DataCite et de la NIH Open Citation Collection. En termes de jeux de données de publication sémantique, il s'agit actuellement du premier en volume de données.
Mots-clés — citations scientifiques, métadonnées bibliographiques, provenance, suivi des modifications, science ouverte, OpenCitations
OpenCitations est une organisation d'infrastructure indépendante à but non lucratif dédiée à la publication de données bibliographiques et de citations ouvertes à l'aide des technologies du Web sémantique. OpenCitations stocke et gère les informations sur les citations scientifiques, c'est-à-dire les liens conceptuels reliant une entité citante à une entité citée, dans les index OpenCitations. Jusqu'à présent, il existe quatre index OpenCitations : COCI (https://opencitations.net/index/coci), l'index OpenCitations de Crossref open DOI-to-DOI Citations (Heibi et al., 2019b) ; POCI (https://opencitations.net/index/poci), l'index OpenCitations des citations ouvertes PMID à PMID de PubMed ; DOCI (https://opencitations.net/index/doci), l'index OpenCitations de DataCite pour les citations ouvertes DOI-to-DOI ; et CROCI (https://opencitations.net/index/croci), l'index des citations ouvertes participatives (Heibi et al., 2019a).
Même si la couverture des index OpenCitations s'approche de la parité avec celle des index de citations commerciaux propriétaires (voir https://opencitations.hypotheses.org/ 1420), il reste des problèmes en suspens qui n'étaient pas abordés auparavant par OpenCitations.
Le premier est la désambiguïsation des citations. Parfois, les ressources bibliographiques se verront attribuer plusieurs identifiants, tels qu'un DOI et un PMID. Dans de tels cas, la même citation peut être représentée plusieurs fois de différentes manières selon la source de données. Par exemple, OpenCitations décrira dans COCI une citation entre deux publications utilisant des métadonnées dérivées de Crossref comme citation DOI à DOI, et dans POCI la même citation utilisant des métadonnées dérivées de PubMed comme citation PMID à PMID. Cette duplication pose des problèmes lorsqu'il s'agit de compter le nombre de citations entrantes et sortantes de chaque document, une statistique cruciale pour les bibliothèques, les revues et les études scientimétriques. L'utilisation d'OpenCitations Meta nous permet de dédupliquer de telles citations et de résoudre les problèmes qu'une telle duplication causerait autrement.
Deuxièmement, l’attribution d’identifiants persistants à l’échelle mondiale aux documents n’est pas une pratique universelle dans tous les domaines scientifiques. Gorraiz et coll. (2016) ont démontré que les communautés des sciences naturelles et sociales adoptent les DOI dans une bien plus grande mesure que la communauté des arts et des sciences humaines. De cette recherche, réalisée sur Scopus et sur la Web of Science Core Collection, il est ressorti que près de 90 % des publications en sciences et sciences sociales sont associées à un DOI, alors que dans les arts et sciences humaines, ce chiffre n'est que de 50 %. De plus, concernant les sciences humaines, les citations de sources primaires anciennes dépourvues de DOI (par exemple Aristote) sont requises dans de nombreux domaines (par exemple en histoire). Si un document n’a pas d’identifiant, ses métadonnées ne respectent pas les principes FAIR (Wilkinson et al., 2016) selon lesquels les objets de recherche numérique scientifique doivent être trouvables, accessibles, interopérables et réutilisables. Un identifiant unique et persistant au monde est essentiel pour rendre les métadonnées trouvables et accessibles. De plus, une ressource bibliographique sans identifiant empêche que les citations la concernant soient décrites conformément aux principes FAIR. C'est la raison pour laquelle, selon l'Open Citation Definition (Peroni & Shotton, 2018) régissant la population des index OpenCitations, deux entités liées par une citation indexée doivent toutes deux être identifiées par un identifiant persistant issu du même schéma d'identifiant, par exemple par exemple les deux avec des DOI, ou les deux avec des identifiants PubMed. Par exemple, COCI (Heibi et al., 2019b) stocke uniquement les informations de citation lorsque les entités citant et citées sont décrites dans Crossref et que toutes deux ont des DOI. Les citations impliquant des publications dépourvues de DOI ou d'autres PID reconnus ont jusqu'à présent été exclues des index de citations OpenCitations.
Mais désormais, OpenCitations Meta résout les problèmes posés par les ressources bibliographiques identifiées par plusieurs identifiants ainsi que par les ressources bibliographiques dépourvues d'identifiants persistants, en associant un nouvel identifiant globalement persistant à chaque document décrit dans OpenCitations Meta - un OpenCitations Meta Identifier (OMID). De cette manière, toutes les citations peuvent être représentées sous forme de citations OMID à OMID (Fig. 1). En fournissant un identifiant unique pour chaque entité stockée dans OpenCitations Meta, l'OMID de l'entité agit comme un proxy entre les différents identifiants externes utilisés pour chaque entité, permettant ainsi la levée de l'ambiguïté. De plus, OpenCitations Meta peut contenir des métadonnées pour toutes les publications scientifiques, chacune identifiée par un OMID, sans qu'il soit obligatoire qu'un identifiant persistant externe soit fourni par la source des métadonnées.
Ainsi, grâce à OpenCitations Meta, les métadonnées de toutes les publications scientifiques peuvent désormais être stockées par OpenCitations, et les citations reliant toutes ces publications peuvent être incluses dans un nouvel index OpenCitations inclusif, dont les autres index (COCI, DOCI, POCI, etc.) seront des sous-index, en fonction des différentes sources d’entrée des informations de citation.
Troisièmement, les performances temporelles auparavant médiocres des services d'OpenCitations, en particulier les opérations API renvoyant les métadonnées bibliographiques de base des ressources citantes et citées. En effet, les index OpenCitations eux-mêmes ne contenaient jusqu'à présent que des métadonnées liées aux citations (les citations étant traitées comme des entités de données de première classe avec leurs propres métadonnées), mais ne contenaient pas de métadonnées bibliographiques relatives aux entités citant et citées (titre, auteurs, numéros de page). , etc.). Jusqu'à présent, ces métadonnées étaient récupérées à la volée au moyen de requêtes API explicites adressées à des services externes tels que Crossref, ORCID et DataCite.
Au cours des trois dernières années, pour répondre aux problématiques évoquées ci-dessus, nous avons développé et testé le logiciel que nous utilisons désormais pour créer une nouvelle collection de métadonnées bibliographiques, à savoir OpenCitations Meta, que nous avons lancé en décembre 2022. Le logiciel supportant cette base de données est ouvert source et disponible sur https://github.com/opencitations/oc_meta. Les métadonnées exposées par OpenCitations Meta incluent les métadonnées bibliographiques de base décrivant une ressource bibliographique scientifique. En particulier, il stocke tous les identifiants de ressources bibliographiques connus pour la ressource bibliographique (par exemple DOI, PMID, ISSN et ISBN), le titre, le type, la date de publication, les pages, l'origine de la ressource, ainsi que les numéros de volume et de numéro où se trouve la ressource. le lieu est un journal. De plus, OpenCitations Meta contient des métadonnées concernant les principaux acteurs impliqués dans la publication de chaque ressource bibliographique, c'est-à-dire les noms des auteurs, éditeurs et éditeurs, chacun incluant ses propres identifiants persistants (par exemple ORCID) lorsqu'ils sont disponibles. Nous avons l'intention d'ajouter des champs de métadonnées supplémentaires (par exemple, les institutions des auteurs et les informations de financement) à une date ultérieure.
Le processus de génération d'OpenCitations Meta peut être divisé en deux étapes. La première étape implique la conservation des données d'entrée. La procédure curatoriale concerne la correction automatique des erreurs, la standardisation du format des données et la déduplication d'entrées de métadonnées distinctes pour un même élément. Le processus de déduplication est basé uniquement sur les identifiants. Cette approche privilégie la précision plutôt que le rappel : par exemple, les personnes ne sont dédupliquées que si elles ont un ORCID attribué, et jamais par d'autres heuristiques. Après les étapes de normalisation et de déduplication, chaque entité se voit attribuer un méta-identifiant OpenCitations (OMID), qu'elle possède ou non déjà un identifiant persistant externe (par exemple DOI, PubMed ID, ISBN).
La deuxième étape du remplissage d'OpenCitations Meta consiste à convertir les données d'entrée brutes en RDF (format Linked Open Data) conforme au modèle de données OpenCitations (OCDM) (Daquino et al., 2020), pour permettre l'interrogation de ces données via SPARQL. Au cours de ce processus, une grande attention est accordée à la provenance et au suivi des changements : chaque fois qu'une entité est créée, modifiée, supprimée ou fusionnée, ces changements sont enregistrés dans RDF et sont caractérisés par leurs dates de création, leurs sources primaires et leurs agents responsables. .
Le reste du document est organisé comme suit. La section 2 passe en revue d’autres ensembles de données de publication sémantique. Par la suite, dans la section 3, l'approche méthodologique adoptée pour produire OpenCitations Meta est présentée en détail, en commençant par la phase de conservation (3.1), puis en décrivant la correction d'erreurs (3.2), en passant à une explication de la traduction des données en RDF selon l'OCDM. (3.3), et en concluant par une description de la production des données de provenance et de suivi des modifications RDF (3.4). La section 4 fournit quelques statistiques descriptives concernant l'ensemble de données Meta OpenCitations actuel. Enfin, la section 5 discute de certaines limites actuelles d'OpenCitations Meta et examine la place d'OpenCitations Meta parmi des ensembles de données scientifiques similaires.
Cet article est disponible sur arxiv sous licence CC 4.0 DEED.