paint-brush
OpenCitations Meta: 관련 저작물~에 의해@categorize

OpenCitations Meta: 관련 저작물

너무 오래; 읽다

featured image - OpenCitations Meta: 관련 저작물
Categorize.Tech: Organizing the World of Software HackerNoon profile picture
0-item

저자:

(1) Arcangelo Massari, 이탈리아 볼로냐 소재 볼로냐 대학교 고전 문헌학과 이탈리아학과 개방형 학술 메타데이터 연구 센터 {[email protected]};

(2) 파비오 마리아니(Fabio Mariani), 독일 뤼네부르크 소재 류파나 대학교 예술철학연구소 {[email protected]};

(3) Ivan Heibi, 이탈리아 볼로냐 대학 고전 언어학 및 이탈리아 연구과 오픈 학술 메타데이터 연구 센터 및 대학 고전 언어학 및 이탈리아 연구과 디지털 인문학 고급 연구 센터(/DH.arc) 이탈리아 볼로냐주 볼로냐 {[email protected]};

(4) 실비오 페로니(Silvio Peroni), 이탈리아 볼로냐 대학 고전 언어학 및 이탈리아 연구과 오픈 학술 메타데이터 연구 센터 및 대학 고전 언어학 및 이탈리아 연구과 디지털 인문학 고급 연구 센터(/DH.arc) 이탈리아 볼로냐 볼로냐 {[email protected]};

(5) David Shotton, 영국 옥스퍼드 대학교 옥스퍼드 전자 연구 센터 {[email protected]}.

링크 표

2. 관련 작품

이 섹션에서는 액세스 시 구독이 필요하지 않은 가장 중요한 학술 출판 데이터세트, 즉 학술 서지 메타데이터가 포함된 공개적으로 사용 가능한 데이터세트를 검토합니다. OpenCitations Meta는 Semantic Web 기술을 사용하여 데이터를 표현하므로 RDF 데이터 세트, 즉 Wikidata, Springer Nature SciGraph, BioTea, OpenResearch Knowledge Graph 및 Scholarly Data에 특별한 주의를 기울일 것입니다. 또한, OpenAIRE Research Graph, OpenAlex 및 Scholarly Data는 의미론적으로 데이터를 표현하지는 않지만 작품 수 측면에서 가장 광범위한 데이터 세트이므로 설명합니다.


OpenAlex(Priem et al., 2022)는 2022년 1월 1일 Microsoft Academic Graph의 잿더미에서 일어나 모든 메타데이터를 상속했습니다. 여기에는 Crossref(Hendricks et al., 2020), Pubmed(Maloney et al., 2013), ORCID(Haak et al., 2012), ROR(Lammey, 2020), DOAJ(Morrison, 2017), Unpaywall( Dhakal, 2019), arXiv(Sigurdsson, 2020), Zenodo(Research & OpenAIRE, 2013), ISSN 국제 센터[1] 및 Internet Archive의 일반 색인[2]. 또한 웹 크롤링은 누락된 메타데이터를 추가하는 데 사용됩니다. 2억 4천만 개가 넘는 작품[3]을 보유한 OpenAlex는 현재까지 가장 광범위한 서지 메타데이터 데이터세트입니다. OpenAlex는 각 리소스에 영구 식별자를 할당합니다. 또한 공동 저자, 인용 및 서지 자원의 기타 특징을 기반으로 한 경험적 방법을 통해 저자를 명확하게 구분합니다. 데이터는 CC0 라이선스에 따라 배포되며 API, 웹 인터페이스를 통해 액세스하거나 OpenAlex 데이터베이스의 전체 스냅샷 복사본을 다운로드할 수 있습니다.


OpenAIRE 프로젝트는 유럽위원회 오픈 액세스 의무사항(Manghi et al., 2010)의 채택을 지원하기 위해 2008년에 시작되었으며, 현재는 유럽 오픈 사이언스 클라우드(유럽 오픈 사이언스 클라우드)를 실현하기 위한 Horizon 2020 연구 및 혁신 프로그램 내의 주력 조직입니다. 위원회. 연구혁신총국., 2016). 주요 결과 중 하나는 학술 결과물(예: 문헌, 데이터 세트 및 소프트웨어), 조직, 연구 자금 제공자, 자금 흐름, 프로젝트 및 커뮤니티에 대한 메타데이터와 출처 정보를 포함하는 OpenAIRE 연구 그래프입니다. 데이터는 ArXiv(Sigurdsson, 2020), Europe PMC(유럽 PMC 컨소시엄, 2015), Software Heritage(Abramatic et al., 2018) 및 Zenodo( 연구 및 OpenAIRE, 2013); 수집자 서비스(예: DOAJ(Morrison, 2017) 및 OpenCitations(Peroni & Shotton, 2020)) 및 기타 연구 그래프(예: Crossref(Hendricks et al., 2020) 및 DataCite(Brase, 2009)). 2023년 6월 기준으로 이 OpenAIRE 데이터 세트는 232,174,001개의 연구 제품으로 구성되었습니다[4]. OpenAIRE가 구현하는 중복 제거 프로세스는 PID뿐만 아니라 저자 수 및 제목의 Levenstein 거리와 같은 기타 경험적 방법도 고려합니다. 그러나 OpenAIRE가 엔터티와 연결하는 내부 식별자는 영구적이지 않으며 데이터가 업데이트되면 변경될 수 있습니다. OpenAIRE Research Graph의 데이터는 API 및 Explore 인터페이스를 통해 액세스할 수 있습니다. 덤프는 Creative Commons Attribution 4.0 국제 라이센스에 따라 제공됩니다.


Semantic Scholar는 2015년 Allen Institute for Artificial Intelligence에서 소개되었습니다(Fricke, 2018). 이는 인공 지능을 사용하여 사용자의 검색과 가장 관련성이 높은 논문만 선택하고 자동 요약을 생성하는 등 탐색을 단순화하는 검색 엔진입니다. Semantic Scholar는 웹 색인화와 과학 저널, 색인 및 콘텐츠 제공업체와의 파트너십을 통해 콘텐츠를 제공합니다. 그 중에는 전산 언어학 협회, Cambridge University Press, IEEE, PubMed, Springer Nature, The MIT Press, Wiley, arXiv, HAL 및 PubMed가 있습니다. 2023년 6월 기준으로 212,605,886개의 학술 저작물을 색인화했습니다[5]. 저자는 Semantic Scholar ID와 연결된 인공 지능 모델(Subramanian et al., 2021)을 통해 명확화되며, 실제 사람이 사용할 수 있는 각 저자에 대해 페이지가 자동으로 생성됩니다. Semantic Scholar는 웹 인터페이스, API를 제공하며 ODCBy(Open Data Commons Attribution License) v1.0에 따라 전체 데이터 세트를 다운로드할 수 있습니다.


Wikidata는 2012년 Wikimedia Deutschland에서 Wikipedia, Wikivoyage, Wiktionary 및 Wikisource와 같은 다른 Wikimedia 프로젝트의 RDF 데이터를 저장하기 위한 개방형 지식 기반으로 도입되었습니다(Mora-Cantallops et al., 2019). 이러한 성공에 힘입어 Google은 2014년에 "구조화된 데이터를 위한 Wikipedia"가 될 예정이었던 Freebase를 폐쇄하고 이를 Wikidata로 마이그레이션했습니다(Tanon et al., 2016). 2016년부터 WikiCite 프로젝트는 서지 데이터베이스로서 Wikidata의 발전에 크게 기여해 2023년 6월까지 Wikidata에는 39,864,447개의 학술 기사에 대한 설명이 포함되었습니다[6]. 모든 개체(서지 자원 포함)를 참조하는 내부 위키데이터 식별자는 수많은 외부 식별자(예: DOI, PMID, PMCID, arXiv, ORCID, Google Scholar, VIAF, Crossref Funder ID, ZooBank 및 Twitter)와 연결되어 있습니다. 데이터는 Turtle 및 Ntriples의 RDF 덤프로 CC0 라이센스에 따라 공개됩니다. 사용자는 웹 인터페이스인 SPARQL을 통해 검색할 수 있으며, 2017년 현재 실시간 SPARQL 쿼리를 수행하여 연구원, 조직, 저널, 출판사, 학술 작품 및 연구 주제에 대한 프로필을 생성하는 웹 서비스인 Scholia를 통해 탐색할 수 있습니다. 귀중한 인포그래픽(Nielsen et al., 2017).


OpenAIRE Research Graph와 Wikidata는 다양한 이기종 소스를 집계하는 반면, Springer Nature SciGraph(Hammond et al., 2017)는 Springer Nature와 파트너의 데이터만 집계합니다. 여기에는 출판물, 제휴, 연구 프로젝트, 자금 제공자 및 회의와 관련된 엔터티가 포함되어 있으며 총 1,400만 개가 넘는 연구 제품이 있습니다[7]. 현재 공개 SPARQL 엔드포인트를 제공할 계획은 없지만 브라우저 인터페이스를 통해 데이터를 탐색할 수 있으며 CC-BY 라이선스에 따라 JSON-LD 형식으로 덤프가 매월 릴리스됩니다.



BioTea는 도메인 지향 데이터세트이기도 하며 RDF 기술을 사용하여 PubMed Central(PMC-OA)(Garcia et al., 2018)의 주석이 달린 전체 텍스트 개방형 액세스 하위 집합을 나타냅니다. 2018년 논문 당시 데이터 세트에는 150만 개의 서지 리소스가 포함되어 있었습니다. 다른 데이터 세트와 달리 BioTea는 메타데이터와 인용을 설명하고 주석이 달린 전체 텍스트를 의미론적으로 정의합니다. 명명된 엔터티 인식 분석은 주석(예: 생체분자, 약물 및 질병에 대한)으로 기록되는 생물의학 온톨로지와 관련된 표현 및 용어를 식별하기 위해 채택되었습니다. BioTea 데이터는 Creative Commons Attribution Non-Commercial 4.0 International 라이센스에 따라 RDF/XML 및 JSON-LD 형식의 덤프로 공개되는 반면 SPARQL 엔드포인트는 현재 오프라인 상태입니다.


주목할만한 접근 방식은 ORKG(Open Research Knowledge Graph)에서 채택한 접근 방식입니다(Auer et al., 2020). 메타데이터는 주로 크라우드소싱을 통해 신뢰할 수 있는 에이전트에 의해 수집되거나 Crossref에서 자동으로 수집됩니다. 그러나 ORKG의 주요 목적은 메타데이터를 정리하는 것이 아니라 서비스를 제공하는 것입니다. 이 서비스의 주요 범위는 단어 임베딩을 활용한 문헌 비교 분석을 수행하여 유사성 분석을 가능하게 하고 관련 작품의 탐색 및 연결을 촉진하는 것입니다. 이러한 정교한 분석을 가능하게 하려면 Crossref의 메타데이터만으로는 충분하지 않습니다. 따라서 주제, 결과, 방법, 교육적 맥락 및 평가자에 대한 구조화된 주석을 각 리소스에 대해 수동으로 지정해야 합니다. 데이터 세트에는 (2023년 6월 현재) 25,680개의 논문[8], 5,153개의 데이터 세트, 1,364개의 소프트웨어 및 71개의 리뷰가 포함되어 있습니다. ORKG 데이터 세트 생성에 대한 인간의 기여가 중요하다는 점을 감안할 때 플랫폼은 RDF 형식이 아니더라도 변경 사항과 출처를 추적합니다. 데이터는 웹 인터페이스, SPARQL 및 API를 통해 탐색할 수 있으며 CC BY-SA 라이선스에 따라 다운로드할 수도 있습니다.


ScholarlyData는 Semantic Web 주제에 관한 컨퍼런스 및 워크숍에 대한 정보만 수집합니다(Nuzzolese et al., 2016). 데이터는 승인된 논문, 저자, 소속, 조직위원회 등 학술회의의 일반적인 개체를 설명하지만 참고문헌은 설명하지 않는 컨퍼런스 온톨로지를 따라 모델링됩니다. 2023년 6월까지 데이터 세트에는 5678개의 컨퍼런스 논문에 대한 정보가 저장되었습니다. 이러한 데이터 세트는 CSV 파일에서 시작하여 RDF를 출력하는 Conference Linked Open Data 생성 소프트웨어를 사용하여 업데이트됩니다(Gentile & Nuzzolese, 2015). 에이전트의 중복 제거는 감독된 분류 방법(Zhang et al., 2017)을 사용하여 URI에만 기반을 두고 있으며, ORCID는 추가 단계에서 추가됩니다. 이 방법론은 동음이의어의 존재를 다루지 않습니다. 그러나 이는 ScholarlyData의 경우 사소한 문제입니다. 왜냐하면 색인이 생성되는 컨퍼런스에 참여하는 사람은 수천 명에 불과하기 때문입니다. ScholarlyData는 SPARQL 엔드포인트를 통해 탐색할 수 있으며 덤프는 Creative Commons Attribution 3.0 Unported 라이선스에 따라 RDF/XML 형식으로 제공됩니다.


결론적으로, 위에서 언급한 다른 데이터 세트 중 어느 것도 RDF의 변경 추적 데이터 및 관련 출처 정보를 노출하지 않는다는 점을 지적하고 싶습니다.


표 1에는 각 데이터 세트에 대한 모든 고려 사항이 요약되어 있습니다.


이 문서는 CC 4.0 DEED 라이선스에 따라 arxiv에서 볼 수 있습니다.


[1] https://www.issn.org/


[2] https://archive.org/details/GeneralIndex


[3] https://docs.openalex.org/api-entities/works


[4] https://explore.openaire.eu/search/find/research-outcomes


[5] https://www.semanticscholar.org/


[6] https://schilia.toolforge.org/statistics


[7] https://scigraph.springernature.com/explorer/datasets/data_at_a_glance/


[8] https://orkg.org/papers