Autores:
(1) Arcangelo Massari, Centro de Pesquisa para Metadados Acadêmicos Abertos, Departamento de Filologia Clássica e Estudos Italianos, Universidade de Bolonha, Bolonha, Itália {[email protected]};
(2) Fabio Mariani, Instituto de Filosofia e Ciências da Arte, Universidade Leuphana, Lüneburg, Alemanha {[email protected]};
(3) Ivan Heibi, Centro de Pesquisa para Metadados Acadêmicos Abertos, Departamento de Filologia Clássica e Estudos Italianos, Universidade de Bolonha, Bolonha, Itália e Centro de Pesquisa Avançada em Humanidades Digitais (/DH.arc), Departamento de Filologia Clássica e Estudos Italianos, Universidade de Bolonha, Bolonha, Itália {[email protected]};
(4) Silvio Peroni, Centro de Pesquisa para Metadados Acadêmicos Abertos, Departamento de Filologia Clássica e Estudos Italianos, Universidade de Bolonha, Bolonha, Itália e Centro de Pesquisa Avançada em Humanidades Digitais (/DH.arc), Departamento de Filologia Clássica e Estudos Italianos, Universidade de Bolonha, Bolonha, Itália {[email protected]};
(5) David Shotton, Oxford e-Research Centre, Universidade de Oxford, Oxford, Reino Unido {[email protected]}.
OpenCitations Meta é um novo banco de dados que contém metadados bibliográficos de publicações acadêmicas envolvidas em citações indexadas pela infraestrutura OpenCitations. Ele segue os princípios da Ciência Aberta e fornece dados sob uma licença CC0 para máxima reutilização. Os dados podem ser acessados por meio de um endpoint SPARQL, APIs REST e dumps. OpenCitations Meta atende a três propósitos importantes. Em primeiro lugar, permite a desambiguação de citações entre publicações descritas utilizando diferentes identificadores de várias fontes. Por exemplo, pode vincular publicações identificadas por DOIs no Crossref e PMIDs no PubMed. Em segundo lugar, atribui novos identificadores globalmente persistentes (PIDs), conhecidos como OpenCitations Meta Identifiers (OMIDs), a recursos bibliográficos sem identificadores persistentes externos existentes, como DOIs. Por último, ao hospedar internamente os metadados bibliográficos, o OpenCitations Meta melhora a velocidade de recuperação de metadados para citações e documentos citados. O banco de dados é preenchido por meio de curadoria automatizada de dados, incluindo desduplicação, correção de erros e enriquecimento de metadados. Os dados são armazenados no formato RDF seguindo o modelo de dados OpenCitations, e as alterações e informações de procedência são rastreadas. OpenCitations Meta e sua produção. OpenCitations Meta atualmente incorpora dados de Crossref, DataCite e NIH Open Citation Collection. Em termos de conjuntos de dados de publicação semântica, é atualmente o primeiro em volume de dados.
Palavras -chave — citações acadêmicas, metadados bibliográficos, proveniência, rastreamento de mudanças, ciência aberta, OpenCitations
OpenCitations é uma organização independente de infraestrutura sem fins lucrativos para bolsas abertas dedicada à publicação de dados bibliográficos e de citações abertos usando tecnologias da Web Semântica. OpenCitations armazena e gerencia informações sobre citações acadêmicas, ou seja, os links conceituais que conectam uma entidade citante a uma entidade citada, nos índices OpenCitations. Até agora, houve quatro índices OpenCitations: COCI (https://opencitations.net/index/coci), o índice OpenCitations de citações abertas DOI-to-DOI Crossref (Heibi et al., 2019b); POCI (https://opencitations.net/index/poci), o índice OpenCitations de citações abertas de PMID para PMID do PubMed; DOCI (https://opencitations.net/index/doci), o índice OpenCitations de citações abertas de DOI para DOI do DataCite; e CROCI (https://opencitations.net/index/croci), o Crowdsourced Open Citations Index (Heibi et al., 2019a).
Embora a cobertura dos índices OpenCitations tenha se aproximado da paridade com a dos índices de citações proprietários comerciais (ver https://opencitations.hypotheses.org/ 1420), houve questões pendentes não abordadas anteriormente pelo OpenCitations.
A primeira é a desambiguação de citações. Às vezes, os recursos bibliográficos terão atribuídos vários identificadores, como um DOI e um PMID. Nesses casos, a mesma citação pode ser representada multiplicadamente de diferentes maneiras, dependendo da fonte de dados. Por exemplo, OpenCitations descreverá no COCI uma citação entre duas publicações usando metadados derivados do Crossref como uma citação DOI para DOI, e no POCI a mesma citação usando metadados derivados do PubMed como uma citação PMID para PMID. Esta duplicação coloca problemas na contagem do número de citações recebidas e enviadas de cada documento, uma estatística crucial para bibliotecas, revistas e estudos cientométricos. O uso do OpenCitations Meta nos permite desduplicar tais citações e resolver os problemas que tal duplicação causaria.
Em segundo lugar, a atribuição de identificadores globalmente persistentes a documentos não é uma prática universal em todos os campos académicos. Gorraiz et al. (2016) demonstraram que as comunidades de Ciências Naturais e Sociais adotam DOIs numa extensão muito maior do que a comunidade de Artes e Humanidades. Dessa pesquisa, realizada no Scopus e na Web of Science Core Collection, constatou-se que quase 90% das publicações nas Ciências e Ciências Sociais estão associadas a um DOI, enquanto nas Artes e Humanidades esse número é de apenas 50%. Além disso, no que diz respeito às Ciências Humanas, as citações de fontes primárias antigas sem DOI (por exemplo, Aristóteles) são exigidas em muitos campos (por exemplo, na História). Se um documento não tiver identificador, os seus metadados não respeitam os princípios FAIR (Wilkinson et al., 2016) de que os objetos de investigação digital académica devem ser encontráveis, acessíveis, interoperáveis e reutilizáveis. Um identificador globalmente exclusivo e persistente é fundamental para tornar os metadados localizáveis e acessíveis. Além disso, um recurso bibliográfico sem identificador impede que as citações que o envolvem sejam descritas de acordo com os princípios FAIR. Esta é a razão pela qual, de acordo com a Definição de Citação Aberta (Peroni & Shotton, 2018) que rege a população de Índices OpenCitations, quaisquer duas entidades ligadas por uma citação indexada devem ser ambas identificadas por um identificador persistente proveniente do mesmo esquema de identificador, por por exemplo, ambos com DOIs ou ambos com IDs PubMed. Por exemplo, COCI (Heibi et al., 2019b) armazena apenas informações de citação onde as entidades citantes e citadas são descritas no Crossref e ambas possuem DOIs. Citações envolvendo publicações sem DOIs ou outros PIDs reconhecidos foram até agora excluídas dos índices de citações do OpenCitations.
Mas agora, o OpenCitations Meta resolve os problemas colocados pelos recursos bibliográficos identificados por múltiplos identificadores e também pelos recursos bibliográficos que não possuem identificadores persistentes, associando um novo identificador globalmente persistente a cada documento descrito no OpenCitations Meta - um OpenCitations Meta Identifier (OMID). Desta forma, todas as citações podem ser representadas como citações OMID para OMID (Fig. 1). Ao fornecer um identificador exclusivo para cada entidade armazenada no OpenCitations Meta, o OMID da entidade atua como um proxy entre os diferentes identificadores externos usados para cada entidade, permitindo a desambiguação. Além disso, OpenCitations Meta pode conter metadados para todas as publicações acadêmicas, cada uma identificada por um OMID, sem a necessidade obrigatória de um identificador persistente externo a ser fornecido pela fonte dos metadados.
Assim, graças ao OpenCitations Meta, os metadados de todas as publicações acadêmicas podem agora ser armazenados pelo OpenCitations, e as citações que ligam todas essas publicações podem ser incluídas em um novo Índice OpenCitations inclusivo, do qual os outros índices (COCI, DOCI, POCI, etc.) serão subíndices, de acordo com as diversas fontes de entrada das informações de citação.
O terceiro é o anteriormente fraco desempenho temporal dos serviços do OpenCitations, em particular as operações da API que retornam metadados bibliográficos básicos de citações e recursos citados. Isso ocorre porque os próprios índices OpenCitations continham até agora apenas metadados relacionados a citações (citações sendo tratadas como entidades de dados de primeira classe com seus próprios metadados), mas não continham metadados bibliográficos relacionados às entidades que citam e citadas (título, autores, números de página , etc.). Em vez disso, até agora, esses metadados foram recuperados dinamicamente por meio de solicitações explícitas de API para serviços externos, como Crossref, ORCID e DataCite.
Nos últimos três anos, para resolver as questões acima mencionadas, desenvolvemos e testamos o software que agora utilizamos para criar uma nova coleção de metadados bibliográficos, nomeadamente OpenCitations Meta, que lançámos em dezembro de 2022. O software que suporta esta base de dados é aberto fonte e disponível em https://github.com/opencitations/oc_meta. Os metadados expostos pelo OpenCitations Meta incluem os metadados bibliográficos básicos que descrevem um recurso bibliográfico acadêmico. Em particular, ele armazena todos os identificadores de recursos bibliográficos conhecidos para o recurso bibliográfico (por exemplo, DOI, PMID, ISSN e ISBN), o título, tipo, data de publicação, páginas, o local do recurso e o volume e números de edição onde o recurso foi publicado. local é um diário. Além disso, OpenCitations Meta contém metadados relativos aos principais atores envolvidos na publicação de cada recurso bibliográfico, ou seja, os nomes dos autores, editores e editores, cada um incluindo seus próprios identificadores persistentes (por exemplo, ORCIDs), quando disponíveis. É nossa intenção adicionar campos de metadados adicionais (por exemplo, instituições dos autores e informações de financiamento) posteriormente.
O processo de geração do OpenCitations Meta pode ser dividido em duas etapas. A primeira etapa envolve a curadoria dos dados de entrada. O procedimento curatorial diz respeito à correção automática de erros, à padronização do formato dos dados e à desduplicação de entradas separadas de metadados para o mesmo item. O processo de desduplicação é baseado apenas em identificadores. Esta abordagem favorece a precisão em vez da recuperação: por exemplo, as pessoas são desduplicadas apenas se tiverem um ORCID atribuído, e nunca por outras heurísticas. Após os estágios de normalização e desduplicação, cada entidade recebe um OpenCitations Meta Identifier (OMID), independentemente de já possuir ou não um identificador persistente externo (por exemplo, DOI, PubMed ID, ISBN).
A segunda etapa no preenchimento do OpenCitations Meta envolve a conversão dos dados brutos de entrada em RDF (formato Linked Open Data) compatível com o OpenCitations Data Model (OCDM) (Daquino et al., 2020), para permitir a consulta de tais dados via SPARQL. Durante este processo, grande atenção é dada à proveniência e ao rastreamento de alterações: toda vez que uma entidade é criada, modificada, excluída ou mesclada, tais alterações são registradas em RDF e são caracterizadas por suas datas de criação, fontes primárias e agentes responsáveis. .
O restante do artigo está organizado da seguinte forma. A seção 2 analisa outros conjuntos de dados de publicação semântica. Posteriormente, na Seção 3, é apresentada detalhadamente a abordagem metodológica adotada para produzir o OpenCitations Meta, começando pela fase curatorial (3.1), depois descrevendo a correção de erros (3.2), passando para uma explicação da tradução dos dados para RDF de acordo com o OCDM. (3.3), e concluindo com uma descrição da produção da proveniência RDF e dos dados de rastreamento de alterações (3.4). A seção 4 fornece algumas estatísticas descritivas sobre o atual conjunto de dados OpenCitations Meta. Finalmente, a Seção 5 discute algumas limitações atuais do OpenCitations Meta e uma consideração sobre a posição do OpenCitations Meta entre conjuntos de dados acadêmicos semelhantes.
Este artigo está disponível no arxiv sob licença CC 4.0 DEED.