paint-brush
OpenCitations Meta: Discussãopor@categorize
108 leituras

OpenCitations Meta: Discussão

Muito longo; Para ler

featured image - OpenCitations Meta: Discussão
Categorize.Tech: Organizing the World of Software HackerNoon profile picture
0-item

Autores:

(1) Arcangelo Massari, Centro de Pesquisa para Metadados Acadêmicos Abertos, Departamento de Filologia Clássica e Estudos Italianos, Universidade de Bolonha, Bolonha, Itália {[email protected]};

(2) Fabio Mariani, Instituto de Filosofia e Ciências da Arte, Universidade Leuphana, Lüneburg, Alemanha {[email protected]};

(3) Ivan Heibi, Centro de Pesquisa para Metadados Acadêmicos Abertos, Departamento de Filologia Clássica e Estudos Italianos, Universidade de Bolonha, Bolonha, Itália e Centro de Pesquisa Avançada em Humanidades Digitais (/DH.arc), Departamento de Filologia Clássica e Estudos Italianos, Universidade de Bolonha, Bolonha, Itália {[email protected]};

(4) Silvio Peroni, Centro de Pesquisa para Metadados Acadêmicos Abertos, Departamento de Filologia Clássica e Estudos Italianos, Universidade de Bolonha, Bolonha, Itália e Centro de Pesquisa Avançada em Humanidades Digitais (/DH.arc), Departamento de Filologia Clássica e Estudos Italianos, Universidade de Bolonha, Bolonha, Itália {[email protected]};

(5) David Shotton, Oxford e-Research Centre, Universidade de Oxford, Oxford, Reino Unido {[email protected]}.

Tabela de Links

5. Discussão

Conforme mostrado na Seção 2, ao considerar apenas conjuntos de dados de publicação semântica, OpenCitations Meta, que atualmente inclui dados de Crossref, DataCite e NIH Open Citation Collection (ICite et al., 2022), é o primeiro em volume de dados. Além disso, já está em curso trabalho para ingerir dados de novas fontes, como o Japan Link Center (Hara, 2020), o OpenAIRE Research Graph (Atzori et al., 2017) e o Dryad Digital Repository (Vision, 2010).


Quando comparado ao OpenAIRE Research Graph, o OpenCitations Meta tem vantagens em termos de funcionalidade: nomeadamente o uso de OMIDs, identificadores persistentes globalmente únicos usados internamente para identificar cada entidade dentro do OpenCitations Meta. Esse uso permite representar e indexar citações entre recursos bibliográficos que não possuem um identificador persistente externo, como o Digital Object Identifier (DOI). Esta funcionalidade acrescenta um valor significativo aos OpenCitations Indexes, pois permite pela primeira vez a ingestão de muitas citações que até agora não eram possíveis de caracterizar, nomeadamente citações entre publicações das ciências humanas e das ciências sociais (Gorraiz et al., 2016). e citações envolvendo fontes primárias, por exemplo, uma estátua, uma pintura ou um códice, que normalmente não possuem um identificador persistente. É importante ressaltar que ter um OMID também permite que o recurso identificado receba uma URL exclusiva, por exemplo https://w3id.org/oc/meta/br/061401975837 para omid:br/061401975837.


Outro recurso que, até onde sabemos, só está presente no OpenCitations Meta é o mecanismo de gerenciamento de rastreamento de alterações nas informações de procedência armazenadas em RDF. Essas informações podem ser consultadas usando o software Python timeagnostic-library (Massari & Peroni, 2022). Ele pode realizar consultas SPARQL de passagem no tempo, ou seja, consultas em diferentes instantâneos juntamente com informações de proveniência.


No que diz respeito a outros conjuntos de dados bibliográficos que não utilizam tecnologias da Web Semântica, OpenAlex (Priem et al., 2022) é um caso importante a considerar para comparação com OpenCitations Meta. OpenAlex usa web crawls para adicionar metadados ausentes, recurso que permite corrigir automaticamente um maior número de erros que aparecem nos dados das fontes, quando comparado ao OpenCitations Meta.


Com efeito, atualmente, a principal limitação do OpenCitations Meta diz respeito à qualidade dos dados, que depende estritamente da qualidade das fontes. O Crossref não verifica novamente os metadados fornecidos pelos editores e, portanto, muitos erros são preservados. Por exemplo, é possível encontrar artigos publicados no futuro (os metadados disponíveis em https://api.crossref.org/v1/works/10.12960/tsh.2020.0006 dizem que o artigo será publicado impresso em 2029). Alguns desses erros podem ser corrigidos automaticamente sem qualquer conhecimento prévio, enquanto outros requerem o uso de rastreadores da web ou intervenção manual. Enquanto a OpenAlex segue o caminho dos rastreamentos da web, a OpenCitations está trabalhando em uma estrutura que permitirá a edição e curadoria de dados por especialistas confiáveis no domínio humano (como bibliotecários acadêmicos).


O OpenCitations Meta cumpre seu propósito principal ao conter os metadados bibliográficos necessários para descrever as citações e as publicações citadas envolvidas nas citações nos Índices OpenCitations. Além desses elementos de metadados bibliográficos, no entanto, sabemos que existem elementos adicionais de metadados de grande importância para a comunidade acadêmica: Resumos, para mineração de texto, determinação de domínio e campo temático, e indexação (mesmo que os textos completos do as publicações estão disponíveis em acesso aberto em outros lugares) e IDs de financiadores, informações de financiamento e identificadores institucionais, essenciais para determinar métricas de desempenho e realizar avaliações de pesquisas. Depois de concluirmos o fornecimento de nossas operações de pesquisa textual, expandirmos nossa cobertura nas formas indicadas e aprimorarmos a infraestrutura computacional sobre a qual o OpenCitations Meta e os OpenCitations Indexes são executados, prosseguiremos para integrar e preencher esses campos de metadados adicionais.


O fornecimento de metadados bibliográficos de alta qualidade é um objetivo complexo e difícil de alcançar através de operações automatizadas, enquanto a escala das operações impede a curadoria manual, exceto para uma minoria de registros. Atualmente, nenhum conjunto de dados bibliográficos é capaz de atingir esse objetivo por si só. Por esta razão, todas as bases de dados bibliográficas disponíveis devem ser vistas como complementares. Por exemplo, enquanto no momento o OpenAlex fornece metadados de melhor qualidade, o OpenCitations Meta tem dados completos de proveniência disponíveis abertamente e permite pesquisas mais complexas, graças às potencialidades dadas pelas tecnologias da Web Semântica. Por exemplo, “Pesquise todos os autores que foram coautores com Silvio Peroni ou Fabio Vitali em anais de congressos publicados pela Springer após 2009”. Além disso, o OpenAlex é apenas parcialmente gratuito, uma vez que é necessário pagar uma taxa para fazer mais de cem mil solicitações por dia através da API e para acessar dados atualizados a cada hora através da API (em vez de todos os meses através do dump)[9]. Por outro lado, os usuários podem fazer solicitações ilimitadas para a versão mais recente do OpenCitations Meta gratuitamente.


Além disso, embora o OpenAIRE Research Graph contenha atualmente mais metadados, tais dados são divulgados sob uma licença de atribuição CC-BY, enquanto os dados divulgados pelo OpenCitations Meta estão sob uma renúncia de domínio público CC0, permitindo total liberdade para reutilização, incluindo reutilização comercial, e para processamento mecânico sem qualquer exigência de atribuição.


Este artigo está disponível no arxiv sob licença CC 4.0 DEED.