paint-brush
Méta OpenCitations : données et servicespar@categorize

Méta OpenCitations : données et services

Trop long; Pour lire

featured image - Méta OpenCitations : données et services
Categorize.Tech: Organizing the World of Software HackerNoon profile picture
0-item

Auteurs:

(1) Arcangelo Massari, Centre de recherche sur les métadonnées savantes ouvertes, Département de philologie classique et d'études italiennes, Université de Bologne, Bologne, Italie {[email protected]} ;

(2) Fabio Mariani, Institut de philosophie et des sciences de l'art, Université Leuphana, Lunebourg, Allemagne {[email protected]} ;

(3) Ivan Heibi, Centre de recherche sur les métadonnées savantes ouvertes, Département de philologie classique et d'études italiennes, Université de Bologne, Bologne, Italie et Centre de recherche avancée en humanités numériques (/DH.arc), Département de philologie classique et d'études italiennes, Université de Bologne, Bologne, Italie {[email protected]} ;

(4) Silvio Peroni, Centre de recherche sur les métadonnées savantes ouvertes, Département de philologie classique et d'études italiennes, Université de Bologne, Bologne, Italie et Centre de recherche avancée en humanités numériques (/DH.arc), Département de philologie classique et d'études italiennes, Université de Bologne, Bologne, Italie {[email protected]} ;

(5) David Shotton, Oxford e-Research Centre, Université d'Oxford, Oxford, Royaume-Uni {[email protected]}.

Tableau des liens

4. Données et services

Au moment de sa publication initiale en décembre 2022, OpenCitations Meta incluait Crossref (Hendricks et al., 2020), DataCite (Brase, 2010) et la NIH Open Citation Collection (ICite et al., 2022) comme principales sources d'informations. les métadonnées bibliographiques décrivant les publications impliquées dans les citations au sein des index OpenCitations suivants : COCI (https://opencitations.net/index/coci) (OpenCitations, 2022), DOCI (https://opencitations.net/index/doci), et POCI (https://opencitations.net/index/poci). D'un point de vue quantitatif, il y a au sein de cette première version d'OpenCitations Meta 98 243 101 entités bibliographiques (fabio:Expression), 309 881 223 auteurs (pro:author), 2 406 510 éditeurs (pro:editor), 19 076 éditeurs (pro:publisher), et 659 214 sites (par exemple ressources de type fabio:AcademicProceedings, fabio:ExpressionCollection, fabio:Book, fabio:BookSeries, fabio:Journal, fabio:ReferenceBook ou fabio:Series). Ainsi, en moyenne, chaque ressource bibliographique compte trois auteurs. Généralement aucun éditeur n’est enregistré, ces dernières métadonnées étant peu utilisées dans nos sources. Au total, le triplestore se compose de 3 749 729 755 triples (hors provenance).


Les éditeurs et les auteurs ont été comptés comme des rôles, sans lever l'ambiguïté des personnes occupant ces rôles. À l’inverse, les entités bibliographiques, les éditeurs et les lieux ont été comptabilisés par l’OMID. Cependant, pour les sites (par exemple les revues), nous avons pris une précaution supplémentaire : beaucoup sont dupliqués dans OpenCitations Meta car ils n'ont pas d'identifiant autre que l'OMID. Par conséquent, dans les figures présentées ci-dessus, nous avons jugé raisonnable de lever l’ambiguïté des lieux par titre en l’absence d’autres identifiants.


Comme le montre le tableau 2, Springer Science est l'entité d'édition comptant le plus grand nombre de sites (2 097), suivie par Elsevier BV (1961) et l'IEEE (1 775). En comptant le nombre de publications, Elsevier arrive en tête (16 933 610), suivi de Springer Science (11 507 498) et Wiley (7 262 893) dans le tableau 3.


Compte tenu des sites indiqués dans le tableau 4, ChemInform de Wiley compte le plus de publications (421 735), suivi du SSRN Electronic Journal d'Elsevier (337 223) et du Springer's Journal On Data Semantics (330 093).


Le tableau 5 répertorie tous les types de ressources bibliographiques dans OpenCitations Meta. L'ensemble de données actuel contient principalement des articles de revues (67 904 323), qui dépassent d'environ dix fois le nombre de chapitres de livres en deuxième place (6 476 623), et d'articles d'actes en troisième place (5 046 165) d'environ treize fois.


Le tableau 6, qui répertorie le nombre de publications par an, montre une tendance à la hausse, avec un nombre de publications plus élevé d'année en année.


Tableau 2 : Les dix premiers éditeurs par nombre de sites


Tableau 3 : Les dix premiers éditeurs par nombre de publications


Tableau 4 : Les dix premiers lieux par nombre de publications


Tableau 5 : Tous les types de ressources bibliographiques impliqués dans OpenCitations Meta, triés par nombre de publications de ce type. Les ontologies de référence sont FaBiO (http://purl.org/spar/fabio), DOCO (http://purl.org/spar/doco) et FAIR reviews (http://purl.org/spar/fr).


Tableau 6 : Dix principales années de publication selon le nombre de publications cette année-là


OpenCitations Meta permet aux utilisateurs d'explorer ces données soit via SPARQL (https://opencitations.net/meta/sparql) soit via une API (https://opencitations.net/meta/api/v1). En particulier, l'OpenCitations Meta API récupère une liste de ressources bibliographiques et de métadonnées associées à partir d'un ou plusieurs identifiants de publication, l'ORCID d'un auteur ou l'ORCID d'un éditeur. Les recherches textuelles sont actuellement en cours de test et seront publiées à l'avenir en tant qu'opération supplémentaire de la méta API OpenCitations. En particulier, des recherches textuelles sur les titres, les auteurs, les éditeurs, les identifiants et les lieux peuvent être effectuées. Ils peuvent également être réalisés sur des volumes et des numéros de parution, à condition que le lieu soit préalablement précisé. En effet, les recherches sur plusieurs champs peuvent être combinées à l'aide des opérateurs booléens de conjonction et de disjonction. Par exemple, une fois l'opération lancée, l'utilisateur pourra rechercher toutes les ressources bibliographiques dont le titre contient le mot « micro-chaos » publiées soit par Philosophical Studies, soit par le Journal of Nonlinear Science : title=micro-chaos&&venue=philosophical% 20studies||title=microchaos&&venue=journal%20of%20nonlinear%20science, où « && » est l'opérateur de conjonction, tandis que || est l'opérateur de disjonction.


Enfin, toutes les données et provenances sont disponibles sous forme de dumps au format RDF (JSON-LD) (OpenCitations, 2023b) ou CSV (OpenCitations, 2023a) sous licence CC0.


Cet article est disponible sur arxiv sous licence CC 4.0 DEED.