Autores:
(1) Arcangelo Massari, Centro de Investigación de Metadatos Académicos Abiertos, Departamento de Filología Clásica y Estudios Italianos, Universidad de Bolonia, Bolonia, Italia {[email protected]};
(2) Fabio Mariani, Instituto de Filosofía y Ciencias del Arte, Universidad Leuphana, Lüneburg, Alemania {[email protected]};
(3) Ivan Heibi, Centro de Investigación para Metadatos Académicos Abiertos, Departamento de Filología Clásica y Estudios Italianos, Universidad de Bolonia, Bolonia, Italia y Centro de Investigación Avanzada en Humanidades Digitales (/DH.arc), Departamento de Filología Clásica y Estudios Italianos, Universidad de Bolonia, Bolonia, Italia {[email protected]};
(4) Silvio Peroni, Centro de Investigación de Metadatos Académicos Abiertos, Departamento de Filología Clásica y Estudios Italianos, Universidad de Bolonia, Bolonia, Italia y Centro de Investigación Avanzada en Humanidades Digitales (/DH.arc), Departamento de Filología Clásica y Estudios Italianos, Universidad de Bolonia, Bolonia, Italia {[email protected]};
(5) David Shotton, Oxford e-Research Centre, Universidad de Oxford, Oxford, Reino Unido {[email protected]}.
Este artículo detalla la metodología utilizada para desarrollar OpenCitations Meta, una base de datos que almacena y entrega metadatos bibliográficos para todas las publicaciones involucradas en los índices OpenCitations. Este proceso implica dos fases principales: (1) un análisis de curación automático destinado a deduplicar entidades, corregir errores y enriquecer la información, y (2) una conversión de datos a RDF, manteniendo al mismo tiempo un seguimiento de los cambios y la procedencia en RDF.
Continuamente se agrega información sobre nuevas publicaciones a Crossref, DataCite y PubMed, y desarrollaremos procedimientos para incorporar estos nuevos metadatos en OpenCitations Meta de manera regular y oportuna. Además, ya se está trabajando para incorporar metadatos bibliográficos del Japan Link Center y OpenAIRE Research Graph, y se incluirán otras fuentes según lo permitan nuestros recursos humanos y computacionales. OpenCitations Meta seguirá así creciendo.
OpenCitations Meta tiene tres beneficios principales. En primer lugar, el uso de OMID (OpenCitation Meta Identifiers) para todas las entidades almacenadas permite a OpenCitations Meta actuar como un centro de mapeo para publicaciones que pueden tener más de un PID externo (por ejemplo, un artículo de revista descrito en Crossref con un DOI (Digital Object Identifier). ), y la misma publicación descrita en PubMed con un PMID (PubMed Identifier), al tiempo que permite caracterizar las citas que involucran recursos que carecen de PID externos. En consecuencia, el segundo beneficio es que OpenCitations Meta permite que las citas en OpenCitations Indexes se describan como. OMID a OMID, eliminando la ambigüedad de las citas entre documentos con diferentes esquemas de identificación, por ejemplo, representados como DOI a DOI en Crossref y PMID a PMID en PubMed. En tercer lugar, OpenCitations Meta acelera las operaciones de búsqueda para recuperar metadatos sobre las publicaciones involucradas en las citas. almacenados en los índices de citas de OpenCitations, ya que estos metadatos ahora se mantienen internamente, en lugar de recuperarse mediante llamadas API sobre la marcha a recursos externos.
Los desafíos futuros serán elaborar un sistema de desambiguación para las personas que carecen de un identificador ORCID, mejorar la calidad de los metadatos existentes, mejorar las operaciones de búsqueda y la eficiencia del almacenamiento, agregar campos de metadatos adicionales para resúmenes, ID de financiadores, información de financiación y Identificadores institucionales y completarlos cuando estos metadatos estén disponibles en nuestras fuentes.
Finalmente, se implementará una interfaz y se pondrá a disposición de expertos en dominios confiables para permitir la curación manual directa en tiempo real de los metadatos en poder de OpenCitations Meta. Dicho sistema rastreará los cambios y la procedencia, preservará el delta entre diferentes versiones de cada entidad y retendrá información como el agente responsable del cambio, la fuente principal y la fecha. De esta manera, nos esforzaremos por hacer que OpenCitations Meta no sólo sea integral, sino también una fuente precisa, totalmente abierta y reutilizable de metadatos bibliográficos a la que los miembros de la comunidad académica puedan contribuir directamente.
Este trabajo ha sido financiado parcialmente por el Programa de Investigación e Innovación Horizonte 2020 de la Unión Europea bajo el acuerdo de subvención No 101017452 (Proyecto OpenAIRE-Nexus).
Abramatic, J.-F., Di Cosmo, R. y Zacchiroli, S. (2018). Construyendo el archivo universal de código fuente. Comunicaciones de la JCA, 61 (10), 29–31. https://doi.org/10.1145/3183558
Atzori, C., Bardi, A., Manghi, P. y Mannocci, A. (2017). Los flujos de trabajo OpenAIRE para la gestión de datos [Título de la serie: Comunicaciones en informática y ciencias de la información]. En C. Grana y L. Baraldi (Eds.), Bibliotecas y archivos digitales (págs. 95-107). Publicaciones internacionales Springer. https://doi.org/10.1007/978-3-319-68130-6_8
Auer, S., Oelen, A., Haris, M., Stocker, M., D'Souza, J., Farfar, KE, Vogt, L., Prinz, M., Wiens, V. y Jaradeh, MY (2020). Mejorar el acceso a la literatura científica con gráficos de conocimiento. Bibliothek Forschung und Praxis, 44 (3), 516–529. https://doi.org/10.1515/bfp-2020-2042
Junta, DU (2020). Términos de metadatos de DCMI. Obtenido el 16 de julio de 2021 de http://dublincore.org/specifications/dublin-core/dcmi-terms/2020-01-20/
Brase, J. (2009). DataCite: una agencia de registro global de datos de investigación. 2009 Cuarta Conferencia Internacional sobre Cooperación y Promoción de Recursos de Información en Ciencia y Tecnología, 257–261. https://doi.org/10.1109/COINFO.2009.66
Brase, J. (2010). Datacite: una agencia de registro global de datos de investigación. Revista Electrónica SSRN. https://doi.org/10.2139/ssrn.1639998
Carroll, JJ, Bizer, C., Hayes, P. y Stickler, P. (2005). Gráficos nombrados, procedencia y confianza. Actas de la 14ª conferencia internacional sobre la World Wide Web - WWW '05, 613. https://doi.org/10.1145/1060745. 1060835
Daquino, M. y Peroni, S. (2019). OCO, la ontología OpenCitations. Obtenido el 4 de septiembre de 2021 de https://w3id.org/oc/ontology/2019-09-19
Daquino, M., Peroni, S. y Shotton, D. (2020). El modelo de datos de OpenCitations [Tamaño de la obra de arte: 836876 Bytes Editor: figshare], 836876 Bytes. https://doi.org/10.6084/M9.FIGSHARE.3443876.V7
Dhakal, K. (2019). Muro sin pago. Revista de la Asociación de Bibliotecas Médicas, 107 (2). https://doi.org/10.5195/jmla.2019.650
Comisión Europea. Dirección General de Investigación e Innovación. (2016). Hacer realidad la nube europea de ciencia abierta: primer informe y recomendaciones del grupo de expertos de alto nivel de la Comisión sobre la nube europea de ciencia abierta. Oficina de Publicaciones. Recuperado el 17 de octubre de 2022 de https://data.europa.eu/doi/10.2777/940154
Falco, R., Gangemi, A., Peroni, S., Shotton, D. y Vitali, F. (2014). Modelado de ontologías OWL con Graffoo [Título de la serie: Apuntes de conferencias sobre informática]. En V. Presutti, E. Blomqvist, R. Troncy, H. Sack, I. Papadakis y A. Tordai (Eds.), The Semantic Web: ESWC 2014 Satellite Events (págs. 320–325). Publicaciones internacionales Springer. https://doi.org/10. 1007/978-3-319-11955-7_42
Fricke, S. (2018). Académico semántico. Revista de la Asociación de Bibliotecas Médicas, 106 (1). https://doi.org/10.5195/jmla.2018.280
García, A., López, F., García, L., Giraldo, O., Bucheli, V. y Dumontier, M. (2018). Biotea: Semántica para Pubmed Central. PeerJ, 6, e4201. https://doi.org/10.7717/peerj.4201
Gentile, AL y Nuzzolese, AG (2015). Generador de datos abiertos vinculados a la conferencia cLODg. ISWC (carteles y demostraciones).
Gil, Y., Cheney, J., Groth, P., Hartig, O., Miles, S., Moreau, L. y Silva, P. (2010). Informe final de Procedencia XG [Tipo: W3C.]. http://www.w3. org/2005/Incubator/prov/XGR-prov-20101214/
Gorraiz, J., Melero-Fuentes, D., Gumpenberger, C., & Valderrama-Zurián, J.-C. (2016). Disponibilidad de identificadores de objetos digitales (DOI) en Web of Science y Scopus. Revista de Informetrics, 10 (1), 98–109. https://doi.org/10.1016/j.joi.2015.11.008
Haak, LL, Fenner, M., Paglione, L., Pentz, E. y Ratner, H. (2012). ORCID: Un sistema para identificar de forma única a los investigadores. Publicaciones aprendidas, 25 (4), 259–264. https://doi.org/10.1087/20120404
Hammond, T., Pasin, M. y Theodoridis, E. (2017). Integración y desintegración de datos: gestión de Springer Nature SciGraph con SHACL y OWL. ISWC (pósteres, demostraciones y temas industriales). http://ceur-ws.org/Vol1963/paper493.pdf
Hara, M. (2020). Introducción del Japan Link Center (JaLC) [Tamaño de la obra de arte: 2213661 Bytes Editor: ORCID], 2213661 Bytes. https://doi.org/10. 23640/07243.12469094.V1
Heibi, I., Peroni, S. y Shotton, D. (2019a). Crowdsourcing de citas abiertas con CROCI: un análisis del estado actual de las citas abiertas y una propuesta [arXiv: 1902.02534]. arXiv:1902.02534 [cs]. Obtenido el 15 de septiembre de 2021 de http://arxiv.org/abs/1902.02534
Heibi, I., Peroni, S. y Shotton, D. (2019b). Revisión de software: COCI, el índice OpenCitations de citas abiertas DOI a DOI de Crossref. Cienciometría, 121 (2), 1213-1228. https://doi.org/10.1007/s11192-019-03217-6
Hendricks, G., Tkaczyk, D., Lin, J. y Feeney, P. (2020). Crossref: la fuente sostenible de metadatos académicos de propiedad comunitaria. Estudios de ciencias cuantitativas, 1 (1), 414–427. https://doi.org/10.1162/qss_a_00022
ICite, Hutchins, BI y Santangelo, G. (2022). Instantáneas de la base de datos iCite (Colección abierta de citas de los NIH) [Editor: The NIH Figshare Archive]. https://doi.org/10.35092/YHJC.C.4586573
Koivunen, M.-R. y Miller, E. (2001). Actividad de Web Semántica [Edición: W3C Volumen: 11 02]. https://www.w3.org/2001/12/semweb-fin/w3csw
Lammey, R. (2020). Soluciones para problemas de identificación: una mirada al Registro de Organizaciones de Investigación. Edición científica, 7 (1), 65–69. https://doi.org/10.6087/kcse.192
Lebo, T., Sahoo, S. y McGuinness, D. (2013). PROV-O: La Ontología PROV [Lugar: PROV-O Volumen: 04 30]. Recuperado el 16 de julio de 2021 de http://www.w3.org/TR/2013/REC-prov-o-20130430/
Maloney, C., Sequeira, E., Kelly, C., Orris, R. y Beck, J. (2013). PubMed Central. En el manual del NCBI.
Manghi, P., Manola, N., Horstmann, W. y Peters, D. (2010). Una infraestructura para gestionar los resultados de la investigación financiada por la CE: el proyecto OpenAIRE. Diario Gris (TGJ), 6 (1).
Massari, A. y Heibi, I. (2022). Cómo estructurar datos de citas y metadatos bibliográficos en el formato aceptado por OpenCitations. Actas del taller sobre comprensión de las referencias literarias en texto académico completo, 3220. http://ceur-ws.org/Vol-3220/invited-talk2.pdf
Massari, A. y Peroni, S. (2022). Realización de consultas de recorrido de tiempo en vivo a través de SPARQL en conjuntos de datos RDF [Editor: arXiv Número de versión: 2]. https://doi.org/10.48550/ARXIV.2210.02534
Mora-Cantallops, M., Sánchez-Alonso, S., & García-Barriocanal, E. (2019). Una revisión sistemática de la literatura sobre Wikidata. Tecnologías y aplicaciones de datos, 53 (3), 250–268. https://doi.org/10.1108/DTA-12-2018-0110
Morrison, H. (2017). Directorio de revistas de acceso abierto (DOAJ). El asesor de Charleston, 18 (3), 25-28. https://doi.org/10.5260/chara.18.3.25
Nielsen, F. Å., Mietchen, D. y Willighagen, EL (2017). Escolia, Cienciometría y Wikidata. En E. Blomqvist, K. Hose, H. Paulheim, A. Lawrynowicz, F. Ciravegna y O. Hartig (Eds.), The Semantic Web: ESWC 2017 Satellite Events - ESWC 2017 Satellite Events, Portorož, Eslovenia, 28 de mayo - 1 de junio de 2017, artículos seleccionados revisados (págs. 237 a 259). Saltador. https://doi.org/10.1007/978-3-319-70407-4_36
Nuzzolese, AG, Gentile, AL, Presutti, V. y Gangemi, A. (2016). Ontología de conferencias de web semántica: una solución de refactorización. Conferencia europea sobre web semántica, 84–87.
Citas abiertas. (2022). Conjunto de datos COCI CSV de todos los datos de citas. https://doi. org/10.6084/M9.FIGSHARE.6741422.V18
Citas abiertas. (2023a). OpenCitations Meta CSV conjunto de datos de todos los metadatos bibliográficos. https://doi.org/10.6084/M9.FIGSHARE.21747461.V3
Citas abiertas. (2023b). OpenCitations Meta RDF conjunto de datos de todos los metadatos bibliográficos y su información de procedencia. https://doi.org/10.6084/M9. FIGSHARE.21747536.V3
Pelgrin, O., Galárraga, L., & Hose, K. (2021). Hacia un archivado completo para conjuntos de datos RDF (A.-C. Ngonga Ngomo, M. Saleem, R. Verborgh, M. Saleem, R. Verborgh, MI Ali y O. Hartig, Eds.). Revista de web semántica, 12 (6), 903–925. https://doi.org/10.3233/SW-210434
Peroni, S. y Shotton, D. (2018). Cita abierta: Definición [Tamaño de la obra de arte: 95436 Bytes Editorial: figshare], 95436 Bytes. https://doi.org/10.6084/M9. FIGSHARE.6683855.V1
Peroni, S. y Shotton, D. (2020). OpenCitations, una organización de infraestructura para becas abiertas [_eprint: https://direct.mit.edu/qss/articlepdf/1/1/428/1760920/qss_a_00023.pdf]. Estudios de ciencias cuantitativas, 1 (1), 428–444. https://doi.org/10.1162/qss_a_00023
Peroni, S., Shotton, D. y Vitali, F. (2012). Publicaciones académicas y datos vinculados: descripción de roles, estados, extensiones temporales y contextuales. Actas de la 8ª Conferencia Internacional sobre Sistemas Semánticos - I-SEMANTICS '12, 9. https://doi.org/10.1145/2362499.2362502
Persiani, S., Daquino, M. y Peroni, S. (2022). Una interfaz de programación para crear datos según las ontologías SPAR y el modelo de datos OpenCitations [Título de la serie: Apuntes de conferencias sobre informática]. En P. Groth, M.-E. Vidal, F. Suchanek, P. Szekley, P. Kapanipathi, C. Pesquita, H. Skaf-Molli y M. Tamper (Eds.), The Semantic Web (págs. 305–322). Publicaciones internacionales Springer. https://doi.org/10. 1007/978-3-031-06981-9_18
Prancku˙e, R. (2021). Web of Science (WoS) y Scopus: los titanes de la información bibliográfica en el mundo académico actual. Publicaciones, 9 (1), 12. https://doi.org/10.3390/publications9010012
Priem, J., Piwowar, HA y Orr, R. (2022). OpenAlex: un índice completamente abierto de trabajos académicos, autores, lugares, instituciones y conceptos [arXiv: 2205.01833]. CoRR, abs/2205.01833. https://doi.org/10.48550/arXiv. 2205.01833
Investigación, EOFN y OpenAIRE. (2013). Zenodo: Investigación. Compartido. [Editorial: CERN]. https://doi.org/10.25495/7GXK-RD71
Sigurdsson, S. (2020). El futuro de arXiv y el descubrimiento de conocimiento en ciencia abierta. Actas del primer taller sobre procesamiento de documentos académicos, 7–9. https://doi.org/10.18653/v1/2020.sdp-1.2
Sikos, LF y Philp, D. (2020). Representación del conocimiento basada en la procedencia: un estudio de modelos de datos y gráficos de conocimiento contextualizados. Ingeniería y ciencia de datos, 5 (3), 293–316. https://doi. org / 10. 1007 / s41019-020-00118-0
Subramanian, S., King, D., Downey, D. y Feldman, S. (2021). S2AND: Un sistema de evaluación y referencia para la desambiguación del nombre del autor. Conferencia conjunta ACM/IEEE de 2021 sobre bibliotecas digitales (JCDL), 170–179. https://doi.org/10.1109/JCDL52503.2021.00029
Tanon, TP, Vrandecic, D., Schaffert, S., Steiner, T. y Pintscher, L. (2016). De Freebase a Wikidata: la gran migración. En J. Bourdeau, J. Hendler, R. Nkambou, I. Horrocks y BY Zhao (Eds.), Actas de la 25.ª Conferencia Internacional sobre la World Wide Web, WWW 2016, Montreal, Canadá, 11 al 15 de abril de 2016 ( págs. 1419-1428). ACM. https://doi.org/10.1145/2872427.2874809
El Consorcio PMC de Europa. (2015). Europe PMC: una base de datos de literatura en texto completo para las ciencias biológicas y una plataforma para la innovación. Investigación de ácidos nucleicos, 43 (D1), D1042 – D1048. https://doi.org/10.1093/nar/gku1061
Tillett, B. (2005). ¿Qué es FRBR? Un modelo conceptual para el universo bibliográfico. El diario de la biblioteca australiana, 54 (1), 24–30. https://doi. org/10.1080/00049670.2005.10721710
Visión, T. (2010). El repositorio digital Dryad: datos evolutivos publicados como parte de un ecosistema de datos más amplio. Antecedentes de la naturaleza. https://doi. org/10.1038/npre.2010.4595.1
Wilkinson, MD, Dumontier, M., Aalbersberg, IJ, Appleton, G., Axton, M., Baak, A., Blomberg, N., Boiten, J.-W., da Silva Santos, LB, Bourne, PE , Bouwman, J., Brookes, AJ, Clark, T., Crosas, M., Dillo, I., Dumon, O., Edmunds, S., Evelo, CT, Finkers, R.,. . . Mons, B. (2016). Los principios rectores de FAIR para la gestión y administración de datos científicos. Datos científicos, 3 (1), 160018. https://doi.org/10. 1038/sdata.2016.18
Wolf, M. y Wicksteed, C. (1997). Formatos de fecha y hora. Obtenido el 9 de mayo de 2022 de https://www.w3.org/TR/NOTE-datetime
Zhang, Z., Nuzzolese, AG y Gentile, AL (2017). Deduplicación de entidades en ScholarlyData [Título de la serie: Apuntes de conferencias sobre informática]. En E. Blomqvist, D. Maynard, A. Gangemi, R. Hoekstra, P. Hitzler y O. Hartig (Eds.), The Semantic Web (págs. 85-100). Publicaciones internacionales Springer. https://doi.org/10.1007/978-3-319-58068-5_6
Este documento está disponible en arxiv bajo licencia CC 4.0 DEED.