paint-brush
OpenCitations Meta: 초록 및 소개~에 의해@categorize
106 판독값

OpenCitations Meta: 초록 및 소개

너무 오래; 읽다

featured image - OpenCitations Meta: 초록 및 소개
Categorize.Tech: Organizing the World of Software HackerNoon profile picture
0-item

저자:

(1) Arcangelo Massari, 이탈리아 볼로냐 소재 볼로냐 대학교 고전 문헌학과 이탈리아학과 개방형 학술 메타데이터 연구 센터 {[email protected]};

(2) 파비오 마리아니(Fabio Mariani), 독일 뤼네부르크 소재 류파나 대학교 예술철학연구소 {[email protected]};

(3) Ivan Heibi, 이탈리아 볼로냐 대학 고전 언어학 및 이탈리아 연구과 오픈 학술 메타데이터 연구 센터 및 대학 고전 언어학 및 이탈리아 연구과 디지털 인문학 고급 연구 센터(/DH.arc) 이탈리아 볼로냐주 볼로냐 {[email protected]};

(4) 실비오 페로니(Silvio Peroni), 이탈리아 볼로냐 대학 고전 언어학 및 이탈리아 연구과 오픈 학술 메타데이터 연구 센터 및 대학 고전 언어학 및 이탈리아 연구과 디지털 인문학 고급 연구 센터(/DH.arc) 이탈리아 볼로냐 볼로냐 {[email protected]};

(5) David Shotton, 영국 옥스퍼드 대학교 옥스퍼드 e-Research Centre {[email protected]}.

링크 표

추상적인

OpenCitations Meta는 OpenCitations 인프라에서 색인된 인용과 관련된 학술 출판물의 서지 메타데이터를 포함하는 새로운 데이터베이스입니다. Open Science 원칙을 준수하며 재사용을 극대화하기 위해 CC0 라이선스에 따라 데이터를 제공합니다. 데이터는 SPARQL 엔드포인트, REST API 및 덤프를 통해 액세스할 수 있습니다. OpenCitations Meta는 세 가지 중요한 목적을 제공합니다. 첫째, 다양한 출처의 서로 다른 식별자를 사용하여 설명된 출판물 간의 인용을 명확하게 할 수 있습니다. 예를 들어 Crossref의 DOI와 PubMed의 PMID로 식별된 출판물을 연결할 수 있습니다. 둘째, DOI와 같은 기존 외부 영구 식별자 없이 서지 리소스에 OMID(OpenCitations Meta Identifier)로 알려진 새로운 전역 영구 식별자(PID)를 할당합니다. 마지막으로, OpenCitations Meta는 서지 메타데이터를 내부적으로 호스팅함으로써 인용 및 인용 문서에 대한 메타데이터 검색 속도를 향상시킵니다. 데이터베이스는 중복 제거, 오류 수정, 메타데이터 강화 등 자동화된 데이터 큐레이션을 통해 채워집니다. 데이터는 OpenCitations 데이터 모델에 따라 RDF 형식으로 저장되며 변경 사항 및 출처 정보가 추적됩니다. OpenCitations Meta 및 그 제작. OpenCitations Meta는 현재 Crossref, DataCite 및 NIH Open Citation Collection의 데이터를 통합합니다. 의미론적 출판 데이터 세트 측면에서는 현재 데이터 양이 1위입니다.



키워드 — 학술 인용, 서지 메타데이터, 출처, 변경 추적, 공개 과학, OpenCitations

1. 소개

OpenCitations는 Semantic Web 기술을 사용하여 공개 서지 및 인용 데이터를 출판하는 데 전념하는 공개 장학금을 위한 독립적인 비영리 인프라 조직입니다. OpenCitations는 학술 인용에 대한 정보, 즉 OpenCitations Indexes에서 인용 엔터티와 인용 엔터티를 연결하는 개념적 링크를 저장하고 관리합니다. 지금까지 4개의 OpenCitations 색인이 있었습니다: COCI(https://opencitations.net/index/coci), OpenCitations Index of Crossref 공개 DOI-DOI 인용(Heibi et al., 2019b); POCI(https://opencitations.net/index/poci), PubMed 공개 PMID-PMID 인용의 OpenCitations 색인; DOCI(https://opencitations.net/index/doci), DataCite의 OpenCitations 색인 공개 DOI-DOI 인용; 및 CROCI(https://opencitations.net/index/croci), 크라우드소싱 공개 인용 색인(Heibi et al., 2019a).


OpenCitations Indexes의 적용 범위는 상업용 독점 인용 색인(https://opencitations.hypotheses.org/1420 참조)과 동등한 수준에 접근했지만 이전에는 OpenCitations에서 해결되지 않은 뛰어난 문제가 있었습니다.


첫 번째는 인용 명확성입니다. 때로는 서지 자원에 DOI 및 PMID와 같은 여러 식별자가 할당되는 경우가 있습니다. 이러한 경우, 동일한 인용이라도 데이터 소스에 따라 다른 방식으로 다중적으로 표시될 수 있습니다. 예를 들어 OpenCitations는 Crossref에서 파생된 메타데이터를 DOI 간 인용으로 사용하여 두 출판물 간의 인용을 COCI에서 설명하고, POCI에서는 PMID에서 PMID로의 인용으로 PubMed에서 파생된 메타데이터를 사용하여 동일한 인용을 설명합니다. 이러한 중복은 도서관, 저널 및 사이언토메트릭스 연구에 중요한 통계인 각 문서의 들어오고 나가는 인용 횟수를 계산할 때 문제를 야기합니다. OpenCitations Meta를 사용하면 그러한 인용을 중복 제거하고 그러한 중복으로 인해 발생할 수 있는 문제를 해결할 수 있습니다.


둘째, 문서에 전역적으로 영구적인 식별자를 할당하는 것은 모든 학문 분야에 걸쳐 보편적인 관행이 아닙니다. Gorraizet al. (2016)은 자연과학 및 사회과학 커뮤니티가 예술 및 인문학 커뮤니티보다 DOI를 훨씬 더 많이 채택한다는 것을 보여주었습니다. Scopus와 Web of Science Core Collection에서 수행된 연구에 따르면 과학 및 사회과학 출판물 중 거의 90%가 DOI와 연관되어 있는 반면, 예술 및 인문과학 분야의 출판물은 50%에 불과한 것으로 나타났습니다. 또한 인문학과 관련하여 많은 분야(예: 역사)에서 DOI가 없는 고대 1차 자료(예: 아리스토텔레스)의 인용이 필요합니다. 문서에 식별자가 없는 경우 해당 메타데이터는 학술 디지털 연구 개체가 검색 가능하고, 접근 가능하며, 상호 운용 가능하고 재사용 가능해야 한다는 FAIR 원칙(Wilkinson et al., 2016)을 존중하지 않습니다. 메타데이터를 찾고 액세스할 수 있으려면 전역적으로 고유하고 지속적인 식별자가 중요합니다. 더욱이, 식별자가 없는 서지 자원은 FAIR 원칙에 따라 해당 자원과 관련된 인용이 기술되는 것을 방해합니다. 이것이 OpenCitations Indexes의 모집단을 관리하는 Open Citation Definition(Peroni & Shotton, 2018)에 따라 색인된 인용으로 연결된 두 개체가 모두 동일한 식별자 체계에서 나오는 영구 식별자로 식별되어야 하는 이유입니다. 예를 들어 둘 다 DOI를 사용하거나 둘 다 PubMed ID를 사용합니다. 예를 들어, COCI(Heibi et al., 2019b)는 인용 및 인용된 개체가 Crossref에 설명되어 있고 둘 다 DOI를 갖는 인용 정보만 저장합니다. DOI 또는 기타 인정된 PID가 없는 출판물과 관련된 인용은 지금까지 OpenCitations 인용 색인에서 제외되었습니다.


그러나 이제 OpenCitations Meta는 OMID(OpenCitations Meta Identifier)인 OpenCitations Meta에 설명된 각 문서에 새로운 전역 영구 식별자를 연결하여 여러 식별자로 식별된 서지 리소스와 영구 식별자가 없는 서지 리소스로 인해 발생하는 문제를 해결합니다. 이러한 방식으로 모든 인용은 OMID-OMID 인용으로 표현될 수 있습니다(그림 1). OpenCitations Meta에 저장된 모든 엔터티에 대해 고유 식별자를 제공함으로써 엔터티의 OMID는 각 엔터티에 사용되는 다양한 외부 식별자 간의 프록시 역할을 하여 명확성을 가능하게 합니다. 또한 OpenCitations Meta는 메타데이터 소스에서 제공하는 외부 영구 식별자가 의무적으로 필요하지 않고 각각 OMID로 식별되는 모든 학술 출판물에 대한 메타데이터를 포함할 수 있습니다.


따라서 OpenCitations Meta 덕분에 이제 모든 학술 출판물에 대한 메타데이터를 OpenCitations에 저장할 수 있으며, 이러한 모든 출판물을 연결하는 인용은 새로운 포괄적인 OpenCitations 색인에 포함될 수 있습니다. 이 색인의 다른 색인(COCI, DOCI, POCI 등)은 인용 정보의 다양한 입력 소스에 따라 하위 색인이 됩니다.


세 번째는 OpenCitations 서비스, 특히 인용 및 인용된 리소스의 기본 서지 메타데이터를 반환하는 API 작업의 이전 열악한 일시적 성능입니다. 이는 OpenCitations Indexes 자체에는 지금까지 인용 관련 메타데이터(자체 메타데이터를 사용하여 First Class 데이터 엔터티로 처리되는 인용)만 포함되어 있었지만 인용 및 인용 엔터티(제목, 저자, 페이지 번호)와 관련된 서지 메타데이터는 보유하지 않았기 때문입니다. , 등.). 오히려 이러한 메타데이터는 지금까지 Crossref, ORCID 및 DataCite와 같은 외부 서비스에 대한 명시적인 API 요청을 통해 즉시 검색되었습니다.


위에서 언급한 문제를 해결하기 위해 지난 3년 동안 우리는 현재 새로운 서지 메타데이터 컬렉션, 즉 2022년 12월에 출시한 OpenCitations Meta를 생성하는 데 사용하고 있는 소프트웨어를 개발하고 테스트했습니다. 이 데이터베이스를 지원하는 소프트웨어는 공개되어 있습니다. 소스는 https://github.com/opencitations/oc_meta에서 확인할 수 있습니다. OpenCitations Meta에 의해 노출되는 메타데이터에는 학술 서지 리소스를 설명하는 기본 서지 메타데이터가 포함됩니다. 특히, 이는 서지 자원에 대해 알려진 모든 서지 자원 식별자(예: DOI, PMID, ISSN 및 ISBN), 제목, 유형, 출판 날짜, 페이지, 자원의 장소, 권 및 호 번호를 저장합니다. 장소는 저널입니다. 또한 OpenCitations Meta에는 각 서지 리소스의 출판에 관여한 주요 행위자에 관한 메타데이터, 즉 저자, 편집자, 출판사의 이름이 포함되어 있으며, 각각은 가능한 경우 고유한 영구 식별자(예: ORCID)를 포함합니다. 나중에 추가적인 메타데이터 필드(예: 저자의 기관 및 자금 지원 정보)를 추가할 계획입니다.


그림 1: 문서가 여러 식별자(예: Crossref의 DOI 및 Pubmed의 PMID)로 설명되는 경우 해당 문서와 관련된 인용이 여러 방식으로 설명되어 모호성과 중복 제거 문제가 발생할 수 있습니다. OpenCitations 메타 식별자를 사용하면 다양한 외부 식별자 간의 프록시 역할을 하여 이 문제가 해결됩니다.


OpenCitations Meta를 생성하는 과정은 두 단계로 나눌 수 있습니다. 첫 번째 단계에는 입력 데이터의 큐레이션이 포함됩니다. 큐레이터 절차는 오류 자동 수정, 데이터 형식 표준화, 동일한 항목에 대한 별도의 메타데이터 항목 중복 제거와 관련됩니다. 중복 제거 프로세스는 식별자만을 기반으로 합니다. 이 접근 방식은 재현율보다 정확성을 선호합니다. 예를 들어 사람들은 할당된 ORCID가 있는 경우에만 중복 제거되고 다른 경험적 방법으로는 중복 제거되지 않습니다. 정규화 및 중복 제거 단계 후에는 외부 영구 식별자(예: DOI, PubMed ID, ISBN)가 이미 있는지 여부에 관계없이 각 엔터티에 OMID(OpenCitations Meta Identifier)가 할당됩니다.


OpenCitations Meta를 채우는 두 번째 단계에서는 원시 입력 데이터를 OpenCitations 데이터 모델(OCDM)(Daquino et al., 2020)을 준수하는 RDF(Linked Open Data 형식)로 변환하여 SPARQL을 통해 해당 데이터를 쿼리할 수 있도록 하는 작업이 포함됩니다. 이 프로세스에서는 출처 및 변경 사항 추적에 큰 관심을 기울입니다. 엔터티가 생성, 수정, 삭제 또는 병합될 때마다 이러한 변경 사항은 RDF에 기록되며 생성 날짜, 주요 소스 및 책임 에이전트로 특성화됩니다. .


나머지 논문은 다음과 같이 구성된다. 섹션 2에서는 다른 의미론적 출판 데이터 세트를 검토합니다. 이어서 섹션 3에서는 큐레이터 단계(3.1)부터 시작하여 오류 수정(3.2)을 설명하고 OCDM에 따라 데이터를 RDF로 변환하는 설명으로 이동하여 OpenCitations Meta를 생성하기 위해 채택된 방법론적 접근 방식을 자세히 제시합니다. (3.3), RDF 출처 및 변경 추적 데이터 생성에 대한 설명(3.4)으로 마무리됩니다. 섹션 4에서는 현재 OpenCitations Meta 데이터 세트에 관한 몇 가지 설명 통계를 제공합니다. 마지막으로 섹션 5에서는 OpenCitations Meta의 몇 가지 현재 제한 사항을 논의하고 유사한 학술 데이터 세트 중에서 OpenCitations Meta가 어디에 있는지 고려합니다.


이 문서는 CC 4.0 DEED 라이선스에 따라 arxiv에서 볼 수 있습니다.