Autores:
(1) Arcangelo Massari, Centro de Investigación de Metadatos Académicos Abiertos, Departamento de Filología Clásica y Estudios Italianos, Universidad de Bolonia, Bolonia, Italia {[email protected]};
(2) Fabio Mariani, Instituto de Filosofía y Ciencias del Arte, Universidad Leuphana, Lüneburg, Alemania {[email protected]};
(3) Ivan Heibi, Centro de Investigación para Metadatos Académicos Abiertos, Departamento de Filología Clásica y Estudios Italianos, Universidad de Bolonia, Bolonia, Italia y Centro de Investigación Avanzada en Humanidades Digitales (/DH.arc), Departamento de Filología Clásica y Estudios Italianos, Universidad de Bolonia, Bolonia, Italia {[email protected]};
(4) Silvio Peroni, Centro de Investigación de Metadatos Académicos Abiertos, Departamento de Filología Clásica y Estudios Italianos, Universidad de Bolonia, Bolonia, Italia y Centro de Investigación Avanzada en Humanidades Digitales (/DH.arc), Departamento de Filología Clásica y Estudios Italianos, Universidad de Bolonia, Bolonia, Italia {[email protected]};
(5) David Shotton, Oxford e-Research Centre, Universidad de Oxford, Oxford, Reino Unido {[email protected]}.
Como se muestra en la Sección 2, al considerar solo conjuntos de datos de publicación semántica, OpenCitations Meta, que actualmente incluye datos de Crossref, DataCite y NIH Open Citation Collection (ICite et al., 2022), ocupa el primer lugar en volumen de datos. Además, ya se está trabajando para incorporar datos de nuevas fuentes, como el Japan Link Center (Hara, 2020), OpenAIRE Research Graph (Atzori et al., 2017) y Dryad Digital Repository (Vision, 2010).
En comparación con OpenAIRE Research Graph, OpenCitations Meta tiene ventajas en términos de funcionalidad: a saber, el uso de OMID, identificadores persistentes únicos a nivel mundial que se utilizan internamente para identificar cada entidad dentro de OpenCitations Meta. Este uso permite representar e indexar citas entre recursos bibliográficos que carecen de un identificador externo persistente, como un Identificador de objetos digitales (DOI). Esta característica añade un valor significativo a los índices OpenCitations, ya que permite por primera vez la ingesta de muchas citas que hasta ahora no eran posibles de caracterizar, particularmente citas entre publicaciones de humanidades y ciencias sociales (Gorraiz et al., 2016) y citas que involucran fuentes primarias, por ejemplo, una estatua, una pintura o un códice, que normalmente carecen de un identificador persistente. Es importante destacar que tener un OMID también permite asignar una URL única al recurso identificado, por ejemplo https://w3id.org/oc/meta/br/061401975837 para omid:br/061401975837.
Otra característica que, hasta donde sabemos, solo está presente en OpenCitations Meta es el mecanismo para la gestión de seguimiento de cambios dentro de la información de procedencia almacenada en RDF. Esta información se puede consultar utilizando el software de biblioteca de diagnóstico de tiempo Python (Massari & Peroni, 2022). Puede realizar consultas SPARQL de recorrido temporal, es decir, consultas a través de diferentes instantáneas junto con información de procedencia.
En lo que respecta a otros conjuntos de datos bibliográficos que no utilizan tecnologías de Web Semántica, OpenAlex (Priem et al., 2022) es un caso importante a considerar para la comparación con OpenCitations Meta. OpenAlex utiliza rastreos web para agregar metadatos faltantes, una característica que le permite corregir automáticamente una mayor cantidad de errores que aparecen en los datos de las fuentes, en comparación con OpenCitations Meta.
De hecho, actualmente, la principal limitación de OpenCitations Meta se refiere a la calidad de los datos, que depende estrictamente de la calidad de las fuentes. Crossref no vuelve a verificar los metadatos proporcionados por los editores y, por lo tanto, se conservan muchos errores. Por ejemplo, es posible encontrar artículos publicados en el futuro (los metadatos disponibles en https://api.crossref.org/v1/works/10.12960/tsh.2020.0006 dicen que el artículo se publicará impresa en 2029). Algunos de estos errores se pueden corregir automáticamente sin ningún conocimiento previo, mientras que otros requieren el uso de rastreadores web o intervención manual. Mientras OpenAlex sigue el camino de los rastreos web, OpenCitations está trabajando en un marco que permitirá la edición y conservación de datos por parte de expertos confiables en el dominio humano (como bibliotecarios académicos).
OpenCitations Meta cumple su propósito principal al contener los metadatos bibliográficos necesarios para describir las citas y las publicaciones citadas involucradas en las citas dentro de los índices OpenCitations. Sin embargo, además de estos elementos de metadatos bibliográficos, somos conscientes de que existen elementos de metadatos adicionales de gran importancia para la comunidad académica: resúmenes, para la extracción de textos, determinación de dominios y campos temáticos, e indexación (incluso si los textos completos de los las publicaciones están disponibles en acceso abierto en otros lugares), e ID de financiadores, información de financiación e identificadores institucionales, esenciales para determinar métricas de desempeño y realizar evaluaciones de investigación. Una vez que hayamos completado la provisión de nuestras operaciones de búsqueda textual, ampliado nuestra cobertura en las formas indicadas y mejorado la infraestructura computacional sobre la cual se ejecutan OpenCitations Meta y los OpenCitations Indexes, procederemos a integrar y completar estos campos de metadatos adicionales.
El suministro de metadatos bibliográficos de alta calidad es un objetivo complejo y difícil de lograr mediante operaciones automatizadas, mientras que la escala de las operaciones impide la curación manual, excepto para una minoría de registros. Actualmente, ningún conjunto de datos bibliográficos es capaz de lograr este objetivo por sí solo. Por este motivo, todas las bases de datos bibliográficas disponibles deben considerarse complementarias. Por ejemplo, mientras que actualmente OpenAlex proporciona metadatos de mejor calidad, OpenCitations Meta tiene datos completos de procedencia disponibles en abierto y permite búsquedas más complejas, gracias a las potencialidades que ofrecen las tecnologías de la Web Semántica. Por ejemplo, "Busque todos los autores que fueron coautores con Silvio Peroni o Fabio Vitali en actas de congresos publicadas por Springer después de 2009". Además, OpenAlex es sólo parcialmente gratuito, ya que se debe pagar una tarifa para realizar más de cien mil solicitudes por día a través de la API y para acceder a los datos actualizados cada hora a través de la API (en lugar de cada mes a través del volcado)[9]. Por el contrario, los usuarios pueden realizar solicitudes ilimitadas a la última versión de OpenCitations Meta de forma gratuita.
Además, aunque OpenAIRE Research Graph contiene actualmente más metadatos, dichos datos se publican bajo una licencia de atribución CC-BY, mientras que los datos publicados por OpenCitations Meta están bajo una exención de dominio público CC0, lo que permite total libertad de reutilización, incluida la reutilización comercial, y para el procesamiento mecánico sin ningún requisito de atribución.
Este documento está disponible en arxiv bajo licencia CC 4.0 DEED.