Autores:
(1) Arcangelo Massari, Centro de Pesquisa para Metadados Acadêmicos Abertos, Departamento de Filologia Clássica e Estudos Italianos, Universidade de Bolonha, Bolonha, Itália {[email protected]};
(2) Fabio Mariani, Instituto de Filosofia e Ciências da Arte, Universidade Leuphana, Lüneburg, Alemanha {[email protected]};
(3) Ivan Heibi, Centro de Pesquisa para Metadados Acadêmicos Abertos, Departamento de Filologia Clássica e Estudos Italianos, Universidade de Bolonha, Bolonha, Itália e Centro de Pesquisa Avançada em Humanidades Digitais (/DH.arc), Departamento de Filologia Clássica e Estudos Italianos, Universidade de Bolonha, Bolonha, Itália {[email protected]};
(4) Silvio Peroni, Centro de Pesquisa para Metadados Acadêmicos Abertos, Departamento de Filologia Clássica e Estudos Italianos, Universidade de Bolonha, Bolonha, Itália e Centro de Pesquisa Avançada em Humanidades Digitais (/DH.arc), Departamento de Filologia Clássica e Estudos Italianos, Universidade de Bolonha, Bolonha, Itália {[email protected]};
(5) David Shotton, Oxford e-Research Centre, Universidade de Oxford, Oxford, Reino Unido {[email protected]}.
Nesta seção, revisaremos os conjuntos de dados de publicações acadêmicas mais importantes, cujo acesso não requer assinatura, ou seja, conjuntos de dados disponíveis publicamente que contêm metadados bibliográficos acadêmicos. Dado que o OpenCitations Meta utiliza tecnologias da Web Semântica para representar dados, será dada especial atenção aos conjuntos de dados RDF, nomeadamente Wikidata, Springer Nature SciGraph, BioTea, OpenResearch Knowledge Graph e Scholarly Data. Além disso, serão descritos o OpenAIRE Research Graph, o OpenAlex e o Scholarly Data, por serem os conjuntos de dados mais extensos em termos de número de trabalhos, embora não representem os dados semanticamente.
OpenAlex (Priem et al., 2022) ressuscitou das cinzas do Microsoft Academic Graph em 1º de janeiro de 2022 e herdou todos os seus metadados. Inclui dados de Crossref (Hendricks et al., 2020), Pubmed (Maloney et al., 2013), ORCID (Haak et al., 2012), ROR (Lammey, 2020), DOAJ (Morrison, 2017), Unpaywall ( Dhakal, 2019), arXiv (Sigurdsson, 2020), Zenodo (Research & OpenAIRE, 2013), o Centro Internacional ISSN[1] e o Índice Geral do Internet Archive[2]. Além disso, os rastreamentos da web são usados para adicionar metadados ausentes. Com mais de 240 milhões de trabalhos[3], o OpenAlex é o conjunto de dados de metadados bibliográficos mais extenso até hoje. OpenAlex atribui identificadores persistentes a cada recurso. Além disso, os autores são desambiguados por meio de heurísticas baseadas em coautores, citações e outras características dos recursos bibliográficos. Os dados são distribuídos sob uma licença CC0 e podem ser acessados via API, interface web ou baixando uma cópia completa do banco de dados OpenAlex.
O projeto OpenAIRE começou em 2008 para apoiar a adoção dos mandatos de Acesso Aberto da Comissão Europeia (Manghi et al., 2010), e é agora a organização emblemática do programa de investigação e inovação Horizonte 2020 para concretizar a Nuvem Europeia de Ciência Aberta (Europa Comissão. Direção Geral de Investigação e Inovação., 2016). Um dos seus principais resultados é o OpenAIRE Research Graph, que inclui metadados sobre resultados académicos (por exemplo, literatura, conjuntos de dados e software), organizações, financiadores de investigação, fluxos de financiamento, projetos e comunidades, juntamente com informações de proveniência. Os dados são recolhidos de diversas fontes (Atzori et al., 2017): arquivos, por exemplo, ArXiv (Sigurdsson, 2020) Europe PMC (The Europe PMC Consortium, 2015), Software Heritage (Abramatic et al., 2018) e Zenodo ( Pesquisa e OpenAIRE, 2013); serviços agregadores, por exemplo, DOAJ (Morrison, 2017) e OpenCitations (Peroni & Shotton, 2020); e outros gráficos de pesquisa, por exemplo, Crossref (Hendricks et al., 2020) e DataCite (Brase, 2009). Em junho de 2023, este conjunto de dados OpenAIRE consistia em 232.174.001 produtos de pesquisa[4]. O processo de desduplicação implementado pelo OpenAIRE leva em consideração não apenas os PIDs, mas também outras heurísticas, como o número de autores e a distância de Levenstein dos títulos. No entanto, os identificadores internos que o OpenAIRE associa às entidades não são persistentes e podem mudar quando os dados são atualizados. Os dados do OpenAIRE Research Graph podem ser acessados por meio de uma API e da interface Explore. Dumps também estão disponíveis sob uma licença Creative Commons Attribution 4.0 International.
O Semantic Scholar foi introduzido pelo Allen Institute for Artificial Intelligence em 2015 (Fricke, 2018). É um motor de busca que utiliza inteligência artificial para selecionar apenas os artigos mais relevantes para a pesquisa do utilizador e para simplificar a exploração, por exemplo, produzindo resumos automáticos. O Semantic Scholar obtém seu conteúdo por meio de indexação na web e parcerias com revistas científicas, índices e provedores de conteúdo. Entre eles estão a Association for Computational Linguistics, Cambridge University Press, IEEE, PubMed, Springer Nature, The MIT Press, Wiley, arXiv, HAL e PubMed. Em junho de 2023, indexava 212.605.886 trabalhos acadêmicos[5]. Os autores são desambiguados por meio de um modelo de inteligência artificial (Subramanian et al., 2021), associado a um Semantic Scholar ID, e uma página é gerada automaticamente para cada autor, que a pessoa real pode resgatar. O Semantic Scholar fornece uma interface web, APIs e o conjunto de dados completo pode ser baixado sob a Open Data Commons Attribution License (ODCBy) v1.0.
O Wikidata foi introduzido em 2012 pela Wikimedia Deutschland como uma base de conhecimento aberta para armazenar em RDF dados de outros projetos da Wikimedia, como Wikipedia, Wikivoyage, Wiktionary e Wikisource (Mora-Cantallops et al., 2019). Devido ao seu sucesso, o Google fechou o Freebase em 2014, que pretendia se tornar “Wikipédia para dados estruturados” e migrou-o para o Wikidata (Tanon et al., 2016). Desde 2016, o projeto WikiCite contribuiu significativamente para a evolução do Wikidata como base de dados bibliográfica, de modo que, até junho de 2023, o Wikidata continha descrições de 39.864.447 artigos acadêmicos[6]. O identificador interno do Wikidata referente a qualquer entidade (incluindo recursos bibliográficos) está associado a vários identificadores externos, por exemplo, DOI, PMID, PMCID, arXiv, ORCID, Google Scholar, VIAF, Crossref funder ID, ZooBank e Twitter. Os dados são liberados sob uma licença CC0 como dumps RDF em Turtle e NTriples. Os usuários podem navegar por eles via SPARQL, uma interface web e, a partir de 2017, via Scholia – um serviço web que realiza consultas SPARQL em tempo real para gerar perfis de pesquisadores, organizações, periódicos, editores, trabalhos acadêmicos e tópicos de pesquisa, ao mesmo tempo que gera infográficos valiosos (Nielsen et al., 2017).
Enquanto o OpenAIRE Research Graph e o Wikidata agregam muitas fontes heterogêneas, o Springer Nature SciGraph (Hammond et al., 2017), por outro lado, agrega apenas dados da Springer Nature e seus parceiros. Contém entidades relativas a publicações, afiliações, projetos de pesquisa, financiadores e conferências, totalizando mais de 14 milhões de produtos de pesquisa[7]. Não há nenhum plano atual para oferecer um endpoint SPARQL público, mas existe a possibilidade de explorar os dados através de uma interface de navegador, e um dump é lançado mensalmente no formato JSON-LD sob uma licença CC-BY.
BioTea também é um conjunto de dados orientado a domínio e representa o subconjunto anotado de acesso aberto de texto completo do PubMed Central (PMC-OA) (Garcia et al., 2018) usando tecnologias RDF. Na época desse artigo de 2018, o conjunto de dados continha 1,5 milhão de recursos bibliográficos. Ao contrário de outros conjuntos de dados, BioTea descreve metadados e citações e define semanticamente os textos completos anotados. A análise de reconhecimento de entidades nomeadas é adotada para identificar expressões e terminologias relacionadas a ontologias biomédicas que são então registradas como anotações (por exemplo, sobre biomoléculas, medicamentos e doenças). Os dados do BioTea são liberados como dumps nos formatos RDF/XML e JSON-LD sob a licença Creative Commons Attribution Non-Commercial 4.0 International, enquanto o endpoint SPARQL está atualmente offline.
Uma abordagem digna de nota é a adotada pelo Open Research Knowledge Graph (ORKG) (Auer et al., 2020). Os metadados são coletados principalmente por agentes confiáveis via crowdsourcing ou automaticamente pelo Crossref. Contudo, o objetivo principal do ORKG não é organizar metadados, mas fornecer serviços. O principal objetivo desses serviços é realizar uma análise de comparação de literatura usando word embeddings para permitir uma análise de similaridade e promover a exploração e vinculação de trabalhos relacionados. Para permitir análises tão sofisticadas, os metadados do Crossref são insuficientes; portanto, anotações estruturadas sobre tema, resultado, método, contexto educacional e avaliador devem ser especificadas manualmente para cada recurso. O conjunto de dados contém (em junho de 2023) 25.680 artigos[8], 5.153 conjuntos de dados, 1.364 softwares e 71 revisões. Dada a importância da contribuição humana para a criação do conjunto de dados ORKG, a plataforma monitoriza as alterações e a proveniência, embora não no formato RDF. Os dados podem ser explorados através de uma interface web, SPARQL e uma API, e também podem ser baixados sob uma licença CC BY-SA.
ScholarlyData coleta informações apenas sobre conferências e workshops sobre o tema Web Semântica (Nuzzolese et al., 2016). Os dados são modelados seguindo a Ontologia de Conferência, que descreve entidades típicas de uma conferência acadêmica, como artigos aceitos, autores, suas afiliações e o comitê organizador, mas não referências bibliográficas. Até junho de 2023, o conjunto de dados armazenou informações sobre 5.678 artigos de conferências. Tal conjunto de dados é atualizado empregando o software gerador Conference Linked Open Data, que produz RDF a partir de arquivos CSV (Gentile & Nuzzolese, 2015). A desduplicação dos agentes é baseada apenas em seus URIs utilizando um método de classificação supervisionada (Zhang et al., 2017), enquanto os ORCIDs são adicionados em uma etapa posterior. Esta metodologia não aborda a existência de homônimos. No entanto, esta é uma questão menor para o ScholarlyData, uma vez que apenas alguns milhares de pessoas estão envolvidas nas conferências que estão sendo indexadas. ScholarlyData pode ser explorado por meio de um endpoint SPARQL, e os dumps estão disponíveis no formato RDF/XML sob uma licença Creative Commons Attribution 3.0 Unported.
Para concluir, gostaríamos de salientar que nenhum destes outros conjuntos de dados mencionados acima expõe dados de rastreamento de alterações e as informações de proveniência relacionadas em RDF.
A Tabela 1 resume todas as considerações feitas em cada conjunto de dados.
Este artigo está disponível no arxiv sob licença CC 4.0 DEED.
[1] https://www.issn.org/
[2] https://archive.org/details/GeneralIndex
[3] https://docs.openalex.org/api-entities/works
[4] https://explore.openaire.eu/search/find/research-outcomes
[5] https://www.semanticscholar.org/
[6] https://scholia.toolforge.org/statistics
[7] https://scigraph.springernature.com/explorer/datasets/data_at_a_glance/
[8] https://orkg.org/papers