Auteurs:
(1) Arcangelo Massari, Centre de recherche sur les métadonnées savantes ouvertes, Département de philologie classique et d'études italiennes, Université de Bologne, Bologne, Italie {[email protected]} ;
(2) Fabio Mariani, Institut de philosophie et des sciences de l'art, Université Leuphana, Lunebourg, Allemagne {[email protected]} ;
(3) Ivan Heibi, Centre de recherche sur les métadonnées savantes ouvertes, Département de philologie classique et d'études italiennes, Université de Bologne, Bologne, Italie et Centre de recherche avancée en humanités numériques (/DH.arc), Département de philologie classique et d'études italiennes, Université de Bologne, Bologne, Italie {[email protected]} ;
(4) Silvio Peroni, Centre de recherche sur les métadonnées savantes ouvertes, Département de philologie classique et d'études italiennes, Université de Bologne, Bologne, Italie et Centre de recherche avancée en humanités numériques (/DH.arc), Département de philologie classique et d'études italiennes, Université de Bologne, Bologne, Italie {[email protected]} ;
(5) David Shotton, Oxford e-Research Centre, Université d'Oxford, Oxford, Royaume-Uni {[email protected]}.
Cet article détaille la méthodologie utilisée pour développer OpenCitations Meta, une base de données qui stocke et fournit des métadonnées bibliographiques pour toutes les publications impliquées dans les index OpenCitations. Ce processus implique deux phases principales : (1) une analyse de curation automatique visant à dédoublonner les entités, à corriger les erreurs et à enrichir les informations, et (2) une conversion des données en RDF, tout en gardant une trace des modifications et de la provenance dans RDF.
Des informations sur les nouvelles publications sont continuellement ajoutées à Crossref, DataCite et PubMed, et nous développerons des procédures pour ingérer ces nouvelles métadonnées dans OpenCitations Meta de manière régulière et opportune. De plus, des travaux sont déjà en cours pour ingérer des métadonnées bibliographiques du Japan Link Center et d'OpenAIRE Research Graph, et d'autres sources seront incluses dans la mesure où nos ressources humaines et informatiques le permettent. OpenCitations Meta va donc continuer à croître.
OpenCitations Meta présente trois avantages majeurs. Premièrement, l'utilisation d'OMID (OpenCitation Meta Identifiers) pour toutes les entités stockées permet à OpenCitations Meta d'agir comme un hub de cartographie pour les publications qui peuvent avoir plus d'un PID externe (par exemple un article de revue décrit dans Crossref avec un DOI (Digital Object Identifier). ), et la même publication décrite dans PubMed avec un PMID (PubMed Identifier), tout en permettant également de caractériser les citations impliquant des ressources dépourvues de PID externes. Par conséquent, le deuxième avantage est qu'OpenCitations Meta permet de décrire les citations dans les index OpenCitations comme. OMID à OMID, clarifiant les citations entre des documents avec des schémas d'identification différents, par exemple représentés comme DOI-to-DOI sur Crossref et PMID-to-PMID sur PubMed. Troisièmement, OpenCitations Meta accélère les opérations de recherche pour récupérer les métadonnées sur les publications impliquées dans les citations. stockées dans les index de citations OpenCitations, puisque ces métadonnées sont désormais conservées en interne, plutôt que d'être récupérées par des appels d'API à la volée vers des ressources externes.
Les défis futurs seront d'élaborer un système de levée d'ambiguïté pour les personnes dépourvues de ORCID identifiant, d'améliorer la qualité des métadonnées existantes, d'améliorer les opérations de recherche et l'efficacité du stockage, d'ajouter des champs de métadonnées supplémentaires pour les résumés, les identifiants des bailleurs de fonds, les informations de financement et Identifiants institutionnels, et de les renseigner là où ces métadonnées sont disponibles à partir de nos sources.
Enfin, une interface sera implémentée et mise à la disposition des experts du domaine de confiance pour permettre une curation manuelle directe en temps réel des métadonnées détenues par OpenCitations Meta. Un tel système suivra les modifications et leur provenance, préservera le delta entre les différentes versions de chaque entité et conservera des informations telles que l'agent responsable du changement, la source principale et la date. De cette manière, nous nous efforcerons de faire d’OpenCitations Meta non seulement une source complète mais également précise, entièrement ouverte et réutilisable de métadonnées bibliographiques à laquelle les membres de la communauté scientifique peuvent directement contribuer.
Ce travail a été partiellement financé par le programme de recherche et d'innovation Horizon 2020 de l'Union européenne dans le cadre de la convention de subvention n° 101017452 (projet OpenAIRE-Nexus).
Abramatic, J.-F., Di Cosmo, R. et Zacchiroli, S. (2018). Construire l'archive universelle du code source. Communications de l'ACM, 61 (10), 29-31. https://doi.org/10.1145/3183558
Atzori, C., Bardi, A., Manghi, P. et Mannocci, A. (2017). Les flux de travail OpenAIRE pour la gestion des données [Titre de la série : Communications en informatique et sciences de l'information]. Dans C. Grana et L. Baraldi (Eds.), Bibliothèques et archives numériques (pp. 95-107). Éditions internationales Springer. https://doi.org/10.1007/978-3-319-68130-6_8
Auer, S., Oelen, A., Haris, M., Stocker, M., D'Souza, J., Farfar, KE, Vogt, L., Prinz, M., Wiens, V. et Jaradeh, MY (2020). Améliorer l'accès à la littérature scientifique avec les Knowledge Graphs. Bibliothek Forschung und Praxis, 44 (3), 516-529. https://doi.org/10.1515/bfp-2020-2042
Conseil, DU (2020). Conditions des métadonnées DCMI. Consulté le 16 juillet 2021 sur http://dublincore.org/specifications/dublin-core/dcmi-terms/2020-01- 20/
Brase, J. (2009). DataCite - Une agence mondiale d'enregistrement des données de recherche. 2009 Quatrième Conférence internationale sur la coopération et la promotion des ressources d'information en science et technologie, 257-261. https://doi.org/10.1109/COINFO.2009.66
Brase, J. (2010). Datacite - Une agence mondiale d'enregistrement des données de recherche. Journal électronique SSRN. https://doi.org/10.2139/ssrn.1639998
Carroll, JJ, Bizer, C., Hayes, P. et Stickler, P. (2005). Graphiques nommés, provenance et confiance. Actes de la 14e conférence internationale sur le World Wide Web - WWW '05, 613. https://doi.org/10.1145/1060745. 1060835
Daquino, M. et Peroni, S. (2019). OCO, l'ontologie OpenCitations. Récupéré le 4 septembre 2021 sur https://w3id.org/oc/ontology/2019-09-19
Daquino, M., Peroni, S. et Shotton, D. (2020). Le modèle de données OpenCitations [Taille de l'illustration : 836 876 octets Éditeur : figshare], 836 876 octets. https://doi.org/10.6084/M9.FIGSHARE.3443876.V7
Dhakal, K. (2019). Unpaywall. Journal de l'Association des bibliothèques médicales, 107 (2). https://doi.org/10.5195/jmla.2019.650
Commission européenne. Direction générale de la recherche et de l'innovation. (2016). Réaliser le cloud scientifique ouvert européen : premier rapport et recommandations du groupe d'experts de haut niveau de la Commission sur le cloud scientifique ouvert européen. Office des publications. Consulté le 17 octobre 2022 sur https://data.europa.eu/doi/10.2777/940154
Falco, R., Gangemi, A., Peroni, S., Shotton, D. et Vitali, F. (2014). Modélisation d'ontologies OWL avec Graffoo [Titre de la série : Notes de cours en informatique]. Dans V. Presutti, E. Blomqvist, R. Troncy, H. Sack, I. Papadakis et A. Tordai (Eds.), The Semantic Web : ESWC 2014 Satellite Events (pp. 320-325). Éditions internationales Springer. https://doi.org/10. 1007/978-3-319-11955-7_42
Fricke, S. (2018). Érudit sémantique. Journal de l'Association des bibliothèques médicales, 106 (1). https://doi.org/10.5195/jmla.2018.280
Garcia, A., Lopez, F., Garcia, L., Giraldo, O., Bucheli, V. et Dumontier, M. (2018). Biotea : Sémantique pour Pubmed Central. PeerJ, 6, e4201. https://doi.org/10.7717/peerj.4201
Gentile, AL et Nuzzolese, AG (2015). Générateur de données ouvertes lié à la conférence cLODg. ISWC (affiches et démos).
Gil, Y., Cheney, J., Groth, P., Hartig, O., Miles, S., Moreau, L. et Silva, P. (2010). Provenance Rapport final XG [Type : W3C.]. http://www.w3. org/2005/Incubator/prov/XGR-prov-20101214/
Gorraiz, J., Melero-Fuentes, D., Gumpenberger, C. et Valderrama-Zurián, J.-C. (2016). Disponibilité d'identifiants d'objets numériques (DOI) dans Web of Science et Scopus. Journal d'Informatique, 10 (1), 98-109. https://doi.org/10.1016/j.joi.2015.11.008
Haak, LL, Fenner, M., Paglione, L., Pentz, E. et Ratner, H. (2012). ORCID : Un système pour identifier de manière unique les chercheurs. Éditions savantes, 25 (4), 259-264. https://doi.org/10.1087/20120404
Hammond, T., Pasin, M. et Theodoridis, E. (2017). Intégration et désintégration de données : gestion de Springer Nature SciGraph avec SHACL et OWL. ISWC (affiches, démos et pistes industrielles). http://ceur-ws.org/Vol1963/paper493.pdf
Hara, M. (2020). Introduction du Japan Link Center (JaLC) [Taille de l'illustration : 2213661 octets Éditeur : ORCID], 2213661 octets. https://doi.org/10. 23640/07243.12469094.V1
Heibi, I., Peroni, S. et Shotton, D. (2019a). Crowdsourcing de citations ouvertes avec CROCI – Une analyse de l'état actuel des citations ouvertes et une proposition [arXiv : 1902.02534]. arXiv : 1902.02534 [cs]. Consulté le 15 septembre 2021 sur http://arxiv.org/abs/1902.02534
Heibi, I., Peroni, S. et Shotton, D. (2019b). Revue du logiciel : COCI, l'index OpenCitations des citations ouvertes DOI-to-DOI de Crossref. Scientométrie, 121 (2), 1213-1228. https://doi.org/10.1007/s11192-019-03217-6
Hendricks, G., Tkaczyk, D., Lin, J. et Feeney, P. (2020). Crossref : la source durable de métadonnées scientifiques appartenant à la communauté. Études scientifiques quantitatives, 1 (1), 414-427. https://doi.org/10.1162/qss_a_00022
ICite, Hutchins, BI et Santangelo, G. (2022). Instantanés de la base de données iCite (NIH Open Citation Collection) [Éditeur : The NIH Figshare Archive]. https://doi.org/10.35092/YHJC.C.4586573
Koivunen, MR et Miller, E. (2001). Activité du Web sémantique [Édition : W3C Volume : 11 02]. https://www.w3.org/2001/12/semweb-fin/w3csw
Lammey, R. (2020). Solutions aux problèmes d'identification : un aperçu du registre des organismes de recherche. Édition scientifique, 7 (1), 65-69. https://doi.org/10.6087/kcse.192
Lebo, T., Sahoo, S. et McGuinness, D. (2013). PROV-O : L'ontologie PROV [Lieu : PROV-O Volume : 04 30]. Consulté le 16 juillet 2021 sur http://www.w3.org/TR/2013/REC-prov-o-20130430/
Maloney, C., Sequeira, E., Kelly, C., Orris, R. et Beck, J. (2013). PubMed Central. Dans le manuel NCBI.
Manghi, P., Manola, N., Horstmann, W. et Peters, D. (2010). Une infrastructure pour gérer les résultats de la recherche financée par la CE : le projet OpenAIRE. Journal gris (TGJ), 6 (1).
Massari, A. et Heibi, I. (2022). Comment structurer les données de citations et les métadonnées bibliographiques au format accepté par OpenCitations. Actes de l'atelier sur la compréhension des références littéraires en texte académique complet, 3220. http://ceur-ws.org/Vol-3220/invited-talk2.pdf
Massari, A. et Peroni, S. (2022). Exécution de requêtes temporelles en direct via SPARQL sur des ensembles de données RDF [Éditeur : arXiv Version Number : 2]. https://doi.org/10.48550/ARXIV.2210.02534
Mora-Cantallops, M., Sánchez-Alonso, S. et García-Barriocanal, E. (2019). Une revue systématique de la littérature sur Wikidata. Technologies et applications des données, 53 (3), 250-268. https://doi.org/10.1108/DTA-12-2018-0110
Morrison, H. (2017). Répertoire des revues en libre accès (DOAJ). Le conseiller de Charleston, 18 (3), 25-28. https://doi.org/10.5260/chara.18.3.25
Nielsen, F. Å., Mietchen, D. et Willighagen, EL (2017). Scholia, Scientométrie et Wikidata. Dans E. Blomqvist, K. Hose, H. Paulheim, A. Lawrynowicz, F. Ciravegna et O. Hartig (Eds.), The Semantic Web: ESWC 2017 Satellite Events - ESWC 2017 Satellite Events, Portorož, Slovénie, 28 mai - 1er juin 2017, articles sélectionnés révisés (p. 237 à 259). Springer. https://doi.org/10.1007/978-3-319-70407-4_36
Nuzzolese, AG, Gentile, AL, Presutti, V. et Gangemi, A. (2016). Ontologie de conférence Web sémantique - une solution de refactoring. Conférence européenne du web sémantique, 84-87.
Citations ouvertes. (2022). Ensemble de données COCI CSV de toutes les données de citation. https://doi. org/10.6084/M9.FIGSHARE.6741422.V18
Citations ouvertes. (2023a). Ensemble de données OpenCitations Meta CSV de toutes les métadonnées bibliographiques. https://doi.org/10.6084/M9.FIGSHARE.21747461.V3
Citations ouvertes. (2023b). Ensemble de données OpenCitations Meta RDF de toutes les métadonnées bibliographiques et leurs informations de provenance. https://doi.org/10.6084/M9. FIGSHARE.21747536.V3
Pelgrin, O., Galárraga, L. et Hose, K. (2021). Vers un archivage à part entière des jeux de données RDF (A.-C. Ngonga Ngomo, M. Saleem, R. Verborgh, M. Saleem, R. Verborgh, MI Ali et O. Hartig, Eds.). Journal du Web sémantique, 12 (6), 903-925. https://doi.org/10.3233/SW-210434
Peroni, S. et Shotton, D. (2018). Citation ouverte : Définition [Taille de l'illustration : 95 436 octets Éditeur : figshare], 95 436 octets. https://doi.org/10.6084/M9. FIGSHARE.6683855.V1
Peroni, S. et Shotton, D. (2020). OpenCitations, une organisation d'infrastructure pour les bourses d'études ouvertes [_eprint : https://direct.mit.edu/qss/articlepdf/1/1/428/1760920/qss_a_00023.pdf]. Études scientifiques quantitatives, 1 (1), 428-444. https://doi.org/10.1162/qss_a_00023
Peroni, S., Shotton, D. et Vitali, F. (2012). Publication scientifique et données liées : description des rôles, des statuts, des étendues temporelles et contextuelles. Actes de la 8e Conférence internationale sur les systèmes sémantiques - I-SEMANTICS '12, 9. https://doi.org/10.1145/2362499.2362502
Persani, S., Daquino, M. et Peroni, S. (2022). Une interface de programmation pour créer des données selon les ontologies SPAR et le modèle de données OpenCitations [Titre de la série : Notes de cours en informatique]. Dans P. Groth, M.-E. Vidal, F. Suchanek, P. Szekley, P. Kapanipathi, C. Pesquita, H. Skaf-Molli et M. Tamper (Eds.), The Semantic Web (pp. 305-322). Éditions internationales Springer. https://doi.org/10. 1007/978-3-031-06981-9_18
Pranckut˙e, R. (2021). Web of Science (WoS) et Scopus : les titans de l'information bibliographique dans le monde universitaire d'aujourd'hui. Publications, 9 (1), 12. https://doi.org/10.3390/publications9010012
Priem, J., Piwowar, HA et Orr, R. (2022). OpenAlex : un index entièrement ouvert d'ouvrages scientifiques, d'auteurs, de lieux, d'institutions et de concepts [arXiv : 2205.01833]. CoRR, abs/2205.01833. https://doi.org/10.48550/arXiv. 2205.01833
Recherche, EOFN et OpenAIRE. (2013). Zenodo : Recherche. Partagé. [Éditeur : CERN]. https://doi.org/10.25495/7GXK-RD71
Sigurdsson, S. (2020). L'avenir d'arXiv et la découverte de connaissances dans la science ouverte. Actes du premier atelier sur le traitement des documents scientifiques, 7–9. https://doi.org/10.18653/v1/2020.sdp-1.2
Sikos, LF et Philp, D. (2020). Représentation des connaissances basée sur la provenance : une enquête sur les modèles de données et les graphiques de connaissances contextualisés. Science et ingénierie des données, 5 (3), 293-316. https://doi. org / 10. 1007 / s41019-020-00118-0
Subramanian, S., King, D., Downey, D. et Feldman, S. (2021). S2AND : un système de référence et d'évaluation pour la désambiguïsation des noms d'auteurs. Conférence conjointe ACM/IEEE 2021 sur les bibliothèques numériques (JCDL), 170-179. https://doi.org/10.1109/JCDL52503.2021.00029
Tanon, TP, Vrandecic, D., Schaffert, S., Steiner, T. et Pintscher, L. (2016). De Freebase à Wikidata : la grande migration. Dans J. Bourdeau, J. Hendler, R. Nkambou, I. Horrocks et BY Zhao (Eds.), Actes de la 25e Conférence internationale sur le World Wide Web, WWW 2016, Montréal, Canada, 11 - 15 avril 2016 ( pp. 1419-1428). ACM. https://doi.org/10.1145/2872427.2874809
Le Consortium Europe PMC. (2015). Europe PMC : base de données de littérature en texte intégral pour les sciences de la vie et plateforme pour l'innovation. Recherche sur les acides nucléiques, 43 (D1), D1042 – D1048. https://doi.org/10.1093/nar/gku1061
En ligneTillett, B. (2005). Qu’est-ce que les FRBR ? Un modèle conceptuel pour l'univers bibliographique. Le Journal de la bibliothèque australienne, 54 (1), 24-30. https://doi. org/10.1080/00049670.2005.10721710
Vision, T. (2010). Le référentiel numérique Dryad : données évolutives publiées dans le cadre du plus grand écosystème de données. Nature Précédents. https://doi. org/10.1038/npre.2010.4595.1
Wilkinson, MD, Dumontier, M., Aalbersberg, IJ, Appleton, G., Axton, M., Baak, A., Blomberg, N., Boiten, J.-W., da Silva Santos, LB, Bourne, PE , Bouwman, J., Brookes, AJ, Clark, T., Crosas, M., Dillo, I., Dumon, O., Edmunds, S., Evelo, CT, Finkers, R., . . . Mons, B. (2016). Les principes directeurs FAIR pour la gestion et la gestion des données scientifiques. Données scientifiques, 3 (1), 160018. https://doi.org/10. 1038/sdata.2016.18
Wolf, M. et Wicksteed, C. (1997). Formats de date et d’heure. Récupéré le 9 mai 2022 sur https://www.w3.org/TR/NOTE-datetime
Zhang, Z., Nuzzolese, AG et Gentile, AL (2017). Déduplication d'entités sur ScholarlyData [Titre de la série : Notes de cours en informatique]. Dans E. Blomqvist, D. Maynard, A. Gangemi, R. Hoekstra, P. Hitzler et O. Hartig (Eds.), The Semantic Web (pp. 85-100). Éditions internationales Springer. https://doi.org/10.1007/978-3-319-58068-5_6
Cet article est disponible sur arxiv sous licence CC 4.0 DEED.