paint-brush
OpenCitations Meta: 토론~에 의해@categorize
108 판독값

OpenCitations Meta: 토론

너무 오래; 읽다

featured image - OpenCitations Meta: 토론
Categorize.Tech: Organizing the World of Software HackerNoon profile picture
0-item

저자:

(1) Arcangelo Massari, 이탈리아 볼로냐 소재 볼로냐 대학교 고전 문헌학과 이탈리아학과 개방형 학술 메타데이터 연구 센터 {[email protected]};

(2) 파비오 마리아니(Fabio Mariani), 독일 뤼네부르크에 위치한 류파나 대학 예술철학연구소 {[email protected]};

(3) Ivan Heibi, 이탈리아 볼로냐 대학 고전 언어학 및 이탈리아 연구과 오픈 학술 메타데이터 연구 센터 및 대학 고전 언어학 및 이탈리아 연구과 디지털 인문학 고급 연구 센터(/DH.arc) 이탈리아 볼로냐 볼로냐 {[email protected]};

(4) 실비오 페로니(Silvio Peroni), 이탈리아 볼로냐 대학 고전 언어학 및 이탈리아 연구과 오픈 학술 메타데이터 연구 센터 및 대학 고전 언어학 및 이탈리아 연구과 디지털 인문학 고급 연구 센터(/DH.arc) 이탈리아 볼로냐 볼로냐 {[email protected]};

(5) David Shotton, 영국 옥스퍼드 대학교 옥스퍼드 e-Research Centre {[email protected]}.

링크 표

5. 토론

섹션 2에서 볼 수 있듯이 의미론적 출판 데이터 세트만 고려할 때 현재 Crossref, DataCite 및 NIH Open Citation Collection(ICite et al., 2022)의 데이터를 포함하는 OpenCitations Meta가 데이터 양에서 첫 번째입니다. 또한 Japan Link Center(Hara, 2020), OpenAIRE Research Graph(Atzori et al., 2017) 및 Dryad Digital Repository(Vision, 2010)와 같은 새로운 소스에서 데이터를 수집하는 작업이 이미 진행 중입니다.


OpenAIRE Research Graph와 비교할 때 OpenCitations Meta는 기능 측면에서 장점이 있습니다. 즉, OpenCitations Meta 내의 모든 엔터티를 식별하기 위해 내부적으로 사용되는 전역적으로 고유한 영구 식별자인 OMID를 사용한다는 것입니다. 이러한 사용법을 통해 DOI(Digital Object Identifier)와 같은 외부 영구 식별자가 없는 서지 리소스 간의 인용을 표시하고 색인화할 수 있습니다. 이 기능은 지금까지 특성화할 수 없었던 많은 인용, 특히 인문학과 사회과학 출판물 사이의 인용을 처음으로 수집할 수 있게 해주기 때문에 OpenCitations Indexes에 상당한 가치를 더합니다(Gorraiz et al., 2016). , 일반적으로 영구 식별자가 부족한 동상, 그림, 코덱스 등 주요 출처와 관련된 인용입니다. 중요한 점은 OMID가 있으면 식별된 리소스에 고유한 URL을 할당할 수 있다는 것입니다(예: omid:br/061401975837의 경우 https://w3id.org/oc/meta/br/061401975837).


우리가 아는 한 OpenCitations Meta에만 있는 또 다른 기능은 RDF에 저장된 출처 정보 내의 변경 사항 추적 관리 메커니즘입니다. 이 정보는 Python timeagnostic-library 소프트웨어(Massari & Peroni, 2022)를 사용하여 쿼리할 수 있습니다. 이는 시간 순회 SPARQL 쿼리, 즉 출처 정보와 함께 다양한 스냅샷에 대한 쿼리를 수행할 수 있습니다.


Semantic Web 기술을 사용하지 않는 다른 서지 데이터 세트에 따르면 OpenAlex(Priem et al., 2022)는 OpenCitations Meta와의 비교를 위해 고려해야 할 중요한 사례입니다. OpenAlex는 웹 크롤링을 사용하여 누락된 메타데이터를 추가합니다. 이 기능을 사용하면 OpenCitations Meta와 비교할 때 소스 데이터에 나타나는 더 많은 오류를 자동으로 수정할 수 있습니다.


실제로 현재 OpenCitations Meta의 주요 제한 사항은 소스의 품질에 엄격하게 의존하는 데이터의 품질과 관련이 있습니다. Crossref는 출판사가 제공한 메타데이터를 다시 확인하지 않으므로 많은 오류가 보존됩니다. 예를 들어, 미래에 출판된 기사를 접하는 것이 가능합니다(https://api.crossref.org/v1/works/10.12960/tsh.2020.0006에서 사용 가능한 메타데이터에 따르면 해당 기사는 2029년에 인쇄본으로 출판될 것이라고 나와 있습니다). 이러한 오류 중 일부는 배경 지식 없이도 자동으로 수정될 수 있지만, 다른 오류는 웹 크롤러를 사용하거나 수동 개입이 필요합니다. OpenAlex가 웹 크롤링 경로를 추구하는 동안 OpenCitations는 신뢰할 수 있는 인간 도메인 전문가(예: 학술 사서)가 데이터를 편집하고 큐레이션할 수 있는 프레임워크를 개발하고 있습니다.


OpenCitations Meta는 OpenCitations Indexes 내의 인용과 관련된 인용 및 인용 출판물을 설명하는 데 필요한 서지 메타데이터를 보유함으로써 기본 목적을 달성합니다. 그러나 이러한 서지 메타데이터 요소 외에도 우리는 학계에 매우 중요한 추가 메타데이터 요소가 있다는 것을 잘 알고 있습니다. 초록, 텍스트 마이닝, 도메인 및 주제 분야 결정, 색인 생성(전체 텍스트가 출판물은 다른 곳에서 공개적으로 액세스할 수 있음), 성과 지표를 결정하고 연구 평가를 수행하는 데 필수적인 자금 제공자 ID, 자금 정보 및 기관 식별자. 텍스트 검색 작업 제공을 완료하고, 표시된 방식으로 적용 범위를 확장하고, OpenCitations Meta 및 OpenCitations Indexes가 실행되는 계산 인프라를 향상시킨 후 이러한 추가 메타데이터 필드를 통합하고 채울 것입니다.


고품질 서지 메타데이터 제공은 자동화된 작업으로 달성하기 복잡하고 어려운 목표이며, 작업 규모로 인해 소수의 기록을 제외하고는 수동 큐레이션이 불가능합니다. 현재 어떤 서지 데이터세트도 자체적으로 이 목표를 달성할 수 없습니다. 이러한 이유로 이용 가능한 모든 서지 데이터베이스는 보완적인 것으로 보아야 합니다. 예를 들어 현재 OpenAlex는 더 나은 품질의 메타데이터를 제공하지만 OpenCitations Meta는 완전한 출처 데이터를 공개적으로 사용할 수 있으며 Semantic Web 기술이 제공하는 잠재력 덕분에 더욱 복잡한 검색을 가능하게 합니다. 예를 들어 "2009년 이후 Springer에서 출판한 회의록에서 Silvio Peroni 또는 Fabio Vitali와 공동 집필한 모든 저자를 검색합니다." 또한 OpenAlex는 부분적으로만 무료입니다. API를 통해 하루에 십만 건이 넘는 요청을 하고 (매월 덤프를 통해가 아닌) API를 통해 매시간 업데이트되는 데이터에 액세스하려면 요금을 지불해야 하기 때문입니다[9]. 반면, 사용자는 최신 버전의 OpenCitations Meta에 무료로 무제한 요청을 할 수 있습니다.


또한 OpenAIRE Research Graph에는 현재 더 많은 메타데이터가 포함되어 있지만 이러한 데이터는 CC-BY 저작자 표시 라이센스에 따라 공개되는 반면 OpenCitations Meta에서 공개되는 데이터는 CC0 공개 도메인 면제에 따라 상업적 재사용을 포함하여 완전한 재사용 자유를 허용합니다. 속성에 대한 요구 사항 없이 기계 처리를 위한 것입니다.


이 문서는 CC 4.0 DEED 라이선스에 따라 arxiv에서 볼 수 있습니다.