Auteurs:
(1) Arcangelo Massari, Centre de recherche sur les métadonnées savantes ouvertes, Département de philologie classique et d'études italiennes, Université de Bologne, Bologne, Italie {[email protected]} ;
(2) Fabio Mariani, Institut de philosophie et des sciences de l'art, Université Leuphana, Lunebourg, Allemagne {[email protected]} ;
(3) Ivan Heibi, Centre de recherche sur les métadonnées savantes ouvertes, Département de philologie classique et d'études italiennes, Université de Bologne, Bologne, Italie et Centre de recherche avancée en humanités numériques (/DH.arc), Département de philologie classique et d'études italiennes, Université de Bologne, Bologne, Italie {[email protected]} ;
(4) Silvio Peroni, Centre de recherche sur les métadonnées savantes ouvertes, Département de philologie classique et d'études italiennes, Université de Bologne, Bologne, Italie et Centre de recherche avancée en humanités numériques (/DH.arc), Département de philologie classique et d'études italiennes, Université de Bologne, Bologne, Italie {[email protected]} ;
(5) David Shotton, Oxford e-Research Centre, Université d'Oxford, Oxford, Royaume-Uni {[email protected]}.
Comme le montre la section 2, si l'on considère uniquement les ensembles de données de publication sémantique, OpenCitations Meta, qui comprend actuellement les données de Crossref, DataCite et de la NIH Open Citation Collection (ICite et al., 2022), est le premier en termes de volume de données. De plus, des travaux sont déjà en cours pour ingérer des données provenant de nouvelles sources, telles que le Japan Link Center (Hara, 2020), l'OpenAIRE Research Graph (Atzori et al., 2017) et le Dryad Digital Repository (Vision, 2010).
Par rapport à OpenAIRE Research Graph, OpenCitations Meta présente des avantages en termes de fonctionnalités : à savoir l'utilisation d'OMID, des identifiants persistants uniques au monde utilisés en interne pour identifier chaque entité au sein d'OpenCitations Meta. Cet usage permet de représenter et d'indexer des citations entre des ressources bibliographiques dépourvues d'un identifiant persistant externe tel qu'un identifiant d'objet numérique (DOI). Cette fonctionnalité ajoute une valeur significative aux index OpenCitations, car elle permet pour la première fois l'ingestion de nombreuses citations qui jusqu'à présent n'étaient pas possibles à caractériser, en particulier les citations entre les publications des sciences humaines et sociales (Gorraiz et al., 2016). , et les citations impliquant des sources primaires, par exemple une statue, une peinture ou un codex, qui manquent généralement d'identifiant persistant. Il est important de noter qu'avoir un OMID permet également d'attribuer à la ressource identifiée une URL unique, par exemple https://w3id.org/oc/meta/br/061401975837 pour omid:br/061401975837.
Une autre fonctionnalité qui, à notre connaissance, n'est présente que dans OpenCitations Meta est le mécanisme de gestion du suivi des modifications au sein des informations de provenance stockées dans RDF. Ces informations peuvent être interrogées à l'aide du logiciel Python timeagnostic-library (Massari & Peroni, 2022). Il peut effectuer des requêtes SPARQL temporelles, c'est-à-dire des requêtes sur différents instantanés ainsi que des informations de provenance.
En ce qui concerne les autres ensembles de données bibliographiques qui n'utilisent pas les technologies du Web sémantique, OpenAlex (Priem et al., 2022) est un cas important à considérer pour une comparaison avec OpenCitations Meta. OpenAlex utilise des analyses Web pour ajouter des métadonnées manquantes, une fonctionnalité qui lui permet de corriger automatiquement un nombre plus élevé d'erreurs apparaissant dans les données des sources, par rapport à OpenCitations Meta.
En effet, actuellement, la principale limitation d’OpenCitations Meta concerne la qualité des données, qui dépend strictement de la qualité des sources. Crossref ne revérifie pas les métadonnées fournies par les éditeurs, et ainsi de nombreuses erreurs sont préservées. Par exemple, il est possible de rencontrer des articles publiés dans le futur (les métadonnées disponibles sur https://api.crossref.org/v1/works/10.12960/tsh.2020.0006 indiquent que l'article sera publié sous forme imprimée en 2029). Certaines de ces erreurs peuvent être corrigées automatiquement sans aucune connaissance de base, tandis que d'autres nécessitent soit l'utilisation de robots d'exploration Web, soit une intervention manuelle. Alors qu'OpenAlex poursuit la voie des explorations Web, OpenCitations travaille sur un cadre qui permettra l'édition et la conservation des données par des experts du domaine humain de confiance (tels que des bibliothécaires universitaires).
OpenCitations Meta remplit son objectif principal en contenant les métadonnées bibliographiques nécessaires pour décrire les publications citantes et citées impliquées dans les citations au sein des index OpenCitations. Cependant, en plus de ces éléments de métadonnées bibliographiques, nous sommes bien conscients qu'il existe d'autres éléments de métadonnées d'une grande importance pour la communauté universitaire : les résumés, pour l'exploration de textes, la détermination de domaines et de sujets, et l'indexation (même si les textes intégraux du les publications sont disponibles en libre accès ailleurs), ainsi que les identifiants des bailleurs de fonds, les informations de financement et les identifiants institutionnels, essentiels pour déterminer les mesures de performance et entreprendre l'évaluation de la recherche. Une fois que nous aurons terminé la fourniture de nos opérations de recherche textuelle, étendu notre couverture de la manière indiquée et amélioré l'infrastructure informatique sur laquelle s'exécutent OpenCitations Meta et les index OpenCitations, nous procéderons à l'intégration et au remplissage de ces champs de métadonnées supplémentaires.
La fourniture de métadonnées bibliographiques de haute qualité est un objectif complexe et difficile à atteindre par des opérations automatisées, tandis que l'ampleur des opérations exclut la conservation manuelle, sauf pour une minorité de notices. Aucun ensemble de données bibliographiques ne permet actuellement à lui seul d’atteindre cet objectif. Pour cette raison, toutes les bases de données bibliographiques disponibles doivent être considérées comme complémentaires. Par exemple, alors qu'OpenAlex fournit actuellement des métadonnées de meilleure qualité, OpenCitations Meta dispose de données de provenance complètes et librement disponibles et permet des recherches plus complexes, grâce aux potentialités offertes par les technologies du Web sémantique. Par exemple, « Recherchez tous les auteurs ayant co-écrit avec Silvio Peroni ou Fabio Vitali dans des actes de conférence publiés par Springer après 2009 ». De plus, OpenAlex n'est que partiellement gratuit, puisqu'il faut payer des frais pour faire plus de cent mille requêtes par jour via l'API et pour accéder aux données mises à jour toutes les heures via l'API (au lieu de chaque mois via le dump)[9]. En revanche, les utilisateurs peuvent effectuer gratuitement des requêtes illimitées vers la dernière version d’OpenCitations Meta.
De plus, bien que l'OpenAIRE Research Graph contienne actuellement plus de métadonnées, ces données sont publiées sous une licence d'attribution CC-BY, tandis que les données publiées par OpenCitations Meta sont sous une renonciation au domaine public CC0, permettant une totale liberté de réutilisation, y compris la réutilisation commerciale, et pour le traitement mécanique sans aucune exigence d'attribution.
Cet article est disponible sur arxiv sous licence CC 4.0 DEED.