저자:
(1) Arcangelo Massari, 이탈리아 볼로냐 소재 볼로냐 대학교 고전 문헌학과 이탈리아학과 개방형 학술 메타데이터 연구 센터 {[email protected]};
(2) 파비오 마리아니(Fabio Mariani), 독일 뤼네부르크 소재 류파나 대학교 예술철학연구소 {[email protected]};
(3) Ivan Heibi, 이탈리아 볼로냐 대학 고전 언어학 및 이탈리아 연구과 오픈 학술 메타데이터 연구 센터 및 대학 고전 언어학 및 이탈리아 연구과 디지털 인문학 고급 연구 센터(/DH.arc) 이탈리아 볼로냐주 볼로냐 {[email protected]};
(4) 실비오 페로니(Silvio Peroni), 이탈리아 볼로냐 대학 고전 언어학 및 이탈리아 연구과 오픈 학술 메타데이터 연구 센터 및 대학 고전 언어학 및 이탈리아 연구과 디지털 인문학 고급 연구 센터(/DH.arc) 이탈리아 볼로냐 볼로냐 {[email protected]};
(5) David Shotton, 영국 옥스퍼드 대학교 옥스퍼드 e-Research Centre {[email protected]}.
OpenCitations Meta는 CSV 형식(예: 표 형식)의 입력 데이터로 채워집니다. 이 선택은 우연이 아닙니다. OpenCitations에서 CSV 형식(예: COCI(OpenCitations, 2022))으로 노출된 데이터는 더 구조화된 형식(예: JSON Scholix 및 RDF N-Quads)의 동일한 데이터에 비해 더 자주 다운로드되는 것으로 나타났습니다. 이는 N-Quads 및 Scholix에 비해 파일 크기가 더 작고 무엇보다도 표 형식이 사람의 가독성이 더 높기 때문입니다. 후자는 인간 큐레이터 활동에서 서지 메타데이터의 향후 크라우드소싱을 촉진하기 위해 OpenCitations Meta에서 채택한 입력 형식이 CSV인 주된 이유입니다(Heibi et al., 2019a).
OpenCitations Meta의 입력 테이블에는 OCDM(Daquino et al., 2020)의 선형화에 해당하는 11개의 열(ID, 제목, 저자, 편집자, 출판 날짜, 장소, 권, 발행물, 페이지, 유형 및 출판사)이 있습니다. 각 분야가 어떻게 구성되어 있는지에 대한 자세한 설명은 (Massari & Heibi, 2022)을 참조하세요.
CSV 표 형식 데이터를 획득하면 먼저 데이터가 자동으로 큐레이팅(큐레이터 단계)된 다음 OCDM(크리에이터 단계)을 기반으로 RDF로 변환됩니다. 마지막으로 선별된 CSV 및 RDF는 파일로 저장되고 해당 삼중 저장소는 점진적으로 채워집니다. 그림 2에는 작업 흐름이 요약되어 있습니다.
큐레이션 프로세스에서는 수신된 데이터의 품질을 향상시키기 위해 중복 제거, 강화, 수정이라는 세 가지 주요 작업을 수행합니다.
데이터 중복 제거를 위해 선택한 접근 방식은 엄격하게 식별자를 기반으로 합니다. 즉, 서로 다른 두 엔터티는 둘 다 동일한 식별자(예: 기사의 경우 DOI, 사람의 경우 ORCID, 도서의 경우 ISBN, 출판 장소(예: 저널)의 경우 ISSN)를 갖는 경우에만 동일한 것으로 간주됩니다.
동일한 식별자를 가진 서로 다른 리소스는 정확한 규칙에 따라 병합됩니다. (1) 리소스가 동일한 CSV 파일의 일부인 경우 처음 발생한 정보가 우선시됩니다. 그러나 (2) 리소스가 이미 트리플스토어에 기술되어 있는 경우에는 트리플스토어에 있는 정보가 우선시됩니다. 즉, Triplestore에 저장된 정보를 신뢰할 수 있는 것으로 간주하며 CSV 소스에서 오는 추가 데이터를 통해서만 정보가 증가할 수 있습니다.
엔터티가 중복 제거되면 OMID(OpenCitations Meta Identifier)라는 새로운 영구 내부 식별자가 할당됩니다. OMID의 구조는 [entity_type_abbreviation]/[supplier_prefix][순차_번호]입니다. 예를 들어, 처리된 첫 번째 저널 기사의 OMID는 br/0601입니다. 여기서 br은 “서지 리소스”의 약어이고 060은 서지 리소스가 속한 데이터베이스를 나타내는 공급업체 접두사에 해당합니다(이 경우 OpenCitations). 메타). 마지막으로 1은 이 OMID가 해당 접두사에 대해 기록된 색인의 첫 번째 서지 자원을 식별함을 나타냅니다.
더 정확하게 말하면 OpenCitations Meta에 사용되는 공급자 접두사는 "06[1-9]*0"입니다. 즉, "06" 뒤에 선택적으로 0을 제외한 모든 숫자가 붙고 끝에 "0"이 붙습니다. 예를 들어 "060", "0610" 및 "06230"은 OpenCitations Meta의 유효한 공급자 접두사입니다.
중복 제거 대상이고 나중에 OMID로 식별되는 엔터티는 외부 식별자(abbr. id), 에이전트 역할(예: 저자, 편집자, 출판사, 약어. ar), 책임 에이전트(예: 사람 및 조직, 약어 ra)입니다. 자원 실시예(즉, 페이지, 약어 re), 장소, 권, 발행물(모두 서지 자원, 약어 br). 볼륨과 이슈에는 기사의 속성이 아닌 일급 시민으로 취급되므로 OMID가 있습니다. 예를 들어 특정 호 내의 논문, 명명된 저널의 권수 또는 특정 기간 내에 출판된 저널 호를 검색할 수 있다는 장점이 있습니다. 대조적으로, 제목과 날짜는 엔터티가 아닌 리터럴 값으로 처리됩니다.
그림 3은 중복 제거 결정 트리를 보여줍니다. 입력 엔터티와 해당 식별자가 주어지면 6가지 가능한 결과가 있습니다.
엔터티에 식별자가 없거나 삼중 저장소에 존재하지 않는 경우 해당 엔터티에 대해 새 OMID가 생성됩니다.
엔터티에 OMID가 없고 해당 외부 식별자 중 하나가 이미 하나의 다른 엔터티에만 연결된 경우 두 엔터티는 병합되어 동일한 것으로 처리됩니다.
CSV에 있는 엔터티의 외부 식별자가 지금까지 구별되었던 삼중 저장소 내의 두 개 이상의 엔터티를 연결하고 CSV에 OMID가 지정되지 않은 경우 자동으로 해결할 수 없는 충돌이 발생하고 수동 개입이 필요합니다. 이 충돌하는 엔터티에 대해 새로운 OMID가 생성됩니다. 예를 들어, CSV에서 동일한 저널 이름은 issn:1588-2861 및 issn:0138-9130이라는 두 개의 식별자와 연결되어 있습니다. 그러나 트리플스토어에는 두 개의 개별 엔터티에 대한 항목이 있습니다. 하나는 식별자 issn:1588-2861이고 다른 하나는 식별자 issn:0138-9130이며 실제로는 동일한 엔터티를 나타냅니다.
CSV의 엔터티에 삼중 저장소에 존재하는 OMID가 있고 다른 ID가 없는 경우 삼중 저장소의 정보가 CSV의 정보를 덮어씁니다. 그런 다음 누락된 세부 정보를 추가해야만 삼중 저장소가 업데이트됩니다. 즉, CSV에서 엔터티에 대한 OMID를 지정하는 것은 OpenCitations Meta 내의 기존 엔터티를 업데이트하는 방법입니다.
엔터티에 기존 OMID가 있고 추가 식별자가 OMID가 없거나(CSV에서) 동일한 OMID(CSV 또는 삼중 저장소에서)가 있는 다른 엔터티와 연결된 경우 해당 엔터티가 병합됩니다. 또한 CSV의 정보는 이미 삼중 저장소에서 사용할 수 있는 정보로 덮어쓰이고 CSV에 있는 누락된 세부 정보는 삼중 저장소에 추가됩니다.
마지막으로, 외부 식별자가 서로 다른 OMID를 사용하여 삼중 저장소의 여러 엔터티를 연결하는 경우 충돌이 발생합니다. 이 경우 CSV에 지정된 OMID가 우선 적용되며 해당 OMID가 있는 엔터티만 병합됩니다.
이러한 일반적인 규칙을 고려할 때 세 가지 특정 사례에 특별한 관심이 필요합니다. 첫 번째 주목할만한 문제는 OCDM에 따라 유지되어야 하는 저자 및 편집자의 순서에 관한 것입니다. 병합이 발생하는 경우 엔터티가 처음 생성될 때 기록된 순서가 이후의 순서를 덮어쓰고 그림 4와 같이 새로운 작성자나 편집자가 기존 목록의 끝에 추가됩니다.
둘째, 두 개의 서지자원이 병합되는 맥락에서 식별자 없이 저자나 편집자로 관련된 사람들은 이름과 성을 기준으로 명확하게 구분됩니다.
마지막 중요한 사례는 기사, 이슈, 볼륨 및 장소 간의 포함 관계와 관련됩니다. 이 구조는 병합의 경우에도 보존됩니다. 여기서 두 권이나 이슈는 동일한 값(예: "Volume 1") 또는 임의의 이름(예: "Clin_Sect")을 가질 경우에만 동일한 것으로 간주됩니다. ).
모든 엔터티가 OMID를 획득하면 데이터가 정규화되고 자동으로 처리할 수 있는 오류가 수정됩니다. 모든 식별자는 식별자 체계에 따라 검사됩니다. 예를 들어 ISBN, ISSN 및 ORCID의 구문 정확성은 식별자 체계 문서에서 제공하는 특정 공식을 사용하여 계산됩니다. 그러나 식별자의 의미론적 정확성은 ORCID 및 DOI에 대해서만 검증되며, 이는 실제 존재 여부를 검증하기 위해 개방형 API를 사용하여 수행됩니다. 예를 들어 구문론적으로는 유효하지만 실제로는 그렇지 않은 ORCID를 생성하는 것이 가능하기 때문입니다. 사람에게 할당됩니다.
공백에 사용되는 모든 모호하고 대체 문자(예: 탭, 구분 없는 공백, 전각 공백)는 공백(유니코드 문자 U+0020)으로 변환됩니다. 마찬가지로, ID, 페이지, 권, 발행물, 작성자 및 편집자 내의 하이픈에 대한 모호한 문자(예: 잘림 방지 하이픈, 엔 대시, 마이너스 기호)는 하이픈-마이너스(유니코드 문자 U+002D)로 변경됩니다.
서지 자원의 제목(“장소” 및 “제목” 열)과 관련하여 제목의 모든 단어는 대문자로 표시된 단어(예: “FaBiO” 및 “CiTO”와 같은 약어일 수 있음)를 제외하고 모두 대문자로 표시됩니다. 그러나 이 예외는 제목 전체가 대문자인 경우에는 적용되지 않습니다. 개인이든 조직이든 저자와 편집자에게도 동일한 규칙이 적용됩니다.
날짜는 ISO 8601(YYYYMM-DD)(Wolf & Wicksteed, 1997)을 기반으로 하는 형식 유효성과 값(예: 2월 30일은 유효한 날짜가 아님)을 모두 고려하여 구문 분석됩니다. 필요한 경우 날짜가 잘립니다. 예를 들어 2020-02-30 날짜는 해당 날짜의 날짜가 유효하지 않기 때문에 2020-02로 변환됩니다. 마찬가지로 2020-27-12는 해당 월(및 날짜)이 유효하지 않으므로 2020으로 잘립니다. 연도가 유효하지 않은 경우(예: 9999보다 큰 연도) 날짜가 삭제됩니다.
권수와 호번호의 수정은 특별히 언급할 가치가 있는 수많은 규칙을 기반으로 합니다. 일반적으로 우리는 발생할 수 있는 6가지 오류 클래스를 식별했으며 각 클래스는 그에 따라 해결됩니다.
접두사 오류(예: “.38”). 접두사가 삭제됩니다.
접미사 오류(예: “19/”). 접미사가 삭제됩니다.
인코딩 오류(예: “5â\x80\x926”, “38â39”, “3???4”). 단일 하이픈으로 구분되어 맨 끝의 숫자만 유지됩니다. 따라서 “â\x80\x92”, “â”, “???”이므로 예제는 각각 “5-6”, “38-39”, “3-4”로 수정됩니다. 잘못 인코딩된 하이픈입니다.
이슈로 분류된 볼륨(예: "이슈" 필드의 "볼륨 1"). "issue" 필드에 볼륨 패턴이 있고 "volume" 필드가 비어 있는 경우 콘텐츠는 "volume" 필드로 이동되고 "issue" 필드는 null로 설정됩니다. 그러나 "문제" 필드에 볼륨 패턴이 포함되고 "볼륨" 필드에 문제 패턴이 포함된 경우 두 값이 교체됩니다.
권으로 분류된 발행물(예: "권" 필드의 "특별호 2") 사례 5와 동일한 방식으로 처리되지만 역할이 반대입니다.
우리는 "original series", "volume", "vol"이라는 단어를 포함하는 패턴과 다양한 다른 언어(예: 프랑스어의 "tome", 터키어의 "cilt")의 볼륨을 볼륨으로 간주했습니다. 예를 들어, "Original Series", "Volume 1", "Vol 71", "Tome 1" 및 "Cilt: 1"은 권으로 분류됩니다. 대신에 우리는 "issue", "special issue"라는 단어가 포함된 패턴과 다양한 언어로 된 이슈(예: "horssérie"(프랑스어 특별 이슈) 및 "özel sayı"(터키어 특별 이슈))를 이슈로 간주했습니다. 예를 들어 '이슈 2', '스페셜 이슈 2', '스페셜 이슈 'Urban Morphology'', 'Özel Sayı 5', 'Hors-série 5'는 이슈로 분류됩니다.
마지막으로 값의 형식이 유효하지 않고 잘못된 필드에 있기 때문에 유효하지 않은 경우 해당 값은 먼저 수정된 다음 적절한 경우 올바른 필드로 이동됩니다.
입력 데이터가 명확해지고 강화되고 수정되면 새 CSV 파일이 생성되어 저장됩니다. 이 파일은 프로세스의 첫 번째 출력을 나타냅니다(그림 2의 3a).
이 단계에서 데이터는 OCDM에 따라 RDF로 모델링됩니다(Daquino et al., 2020). 이 온톨로지는 SPAR 온톨로지에 정의된 엔터티를 재사용하여 서지 엔터티(fabio:Expression), 식별자(datacite:Identifier), 에이전트 역할(pro:RoleInTime), 담당 에이전트(foaf:Agent) 및 출판 형식 세부 정보(fabio:Manifestation)를 나타냅니다. . 대리인 역할(예: 저자, 편집자 또는 출판사)은 서지자원과 책임 대리인(즉, 개인 또는 조직) 사이의 대리인으로 사용됩니다. 이 접근 방식은 저자의 순서와 같이 시간과 상황에 따른 역할과 상태를 정의하는 데 도움이 됩니다(Peroni et al., 2012). 그림 5는 Graffoo 그래픽 프레임워크를 통해 다양한 엔터티 간의 관계를 묘사합니다(Falco et al., 2014).
예를 들어, OpenCitations Meta에서 OMID가 omid:br/062601067530인 엔터티에는 Open Access And Online Publishing: A New Frontier In Nursing?이라는 제목이 있습니다. (dcterms:title)이며 2012-07-25(prism:publicationDate)에 게시되었습니다. FRBR(Tillett, 2005)을 사용하면 기사는 최종 출판된 버전이거나 원본 저작물(fabio:Expression)의 표현이며 샘플로 omid:re/06260837633(frbr:embodiment) 개체가 있습니다. 저널 볼륨의 1905-1908 페이지에 해당하는 인쇄 출판물(prism:startingPage, prism:endingPage). 보다 정확하게는 해당 기사는 Journal Of Advanced Nursing(fabio:Journal)의 68권(fabio:JournalVolume)에 포함된 9호(fabio:JournalIssue) 호(fabio:JournalIssue)(fabio:hasSequenceIdentifier)(frbr:partOf)의 일부입니다. ).
또한, 사람(foaf:Agent) Glenn Hunt(foaf:givenName, foaf:familyName)는 이 기사(pro:isDocumentContextFor)의 맥락에서 첫 번째 저자(pro:RoleInTime)입니다. 마찬가지로 두 번째 저자는 Michelle Cleary(pro:hasNext)입니다.
마지막으로 이 출판물에는 datacite:Identifier 유형의 엔터티인 OpenCitations Meta Identifier(OMID) omid:id/062601093630(datacite:hasIdentifier)이 있습니다. 또한 DOI(Digital Object Identifier)(datacite:usesIdentifierScheme)를 식별자 체계로 사용하고 리터럴 값 "10.1111/j.1365-2648.2012.06023.x"(literal:hasLiteralValue)를 갖는 외부 식별자도 있습니다.
매핑이 완료되면 생성된 RDF 데이터를 저장하고(그림 2의 4a) 트리플스토어(그림 2의 4b)에 업로드할 수 있습니다.
메타데이터를 처리하는 것 외에도 OpenCitations Meta의 엔터티에 대한 출처 및 변경 내용 추적이 매우 중요합니다. 출처는 누가 특정 개체를 생성, 삭제, 수정 또는 병합하여 처리했는지, 언제 이러한 작업이 수행되었는지, 주요 출처가 무엇인지에 대한 기록입니다(Gil et al., 2010). OpenCitations Meta 내에서 메타데이터의 신뢰성을 보장하려면 이 정보를 추적하는 것이 중요합니다. 실제로 웹과 시맨틱 웹에 있는 진술의 진실성은 절대 절대적이지 않으며, 정보를 처리하는 모든 애플리케이션은 해당 컨텍스트를 평가하여 무결성을 평가해야 합니다(Koivunen & Miller, 2001).
그러나 출처 정보를 저장하는 것 외에도 개체의 진화를 이해하는 메커니즘은 수정이나 잘못된 지정으로 인한 수정이 학자, 연구 그룹 또는 연구 그룹의 전체 평가에 영향을 미칠 수 있는 연구 평가 연습과 같은 활동을 처리할 때 중요합니다. 전체 기관. 예를 들어, 기관의 이름은 시간이 지남에 따라 변경될 수 있으며 이러한 변경 사항이 데이터베이스에 반영되면 "기관의 역사에 대한 지식 없이는 모든 기관의 이름과 단위를 식별하기가 어려워집니다"(Prankutte, 2021). 이 시나리오는 데이터베이스에서 데이터가 어떻게 진화했는지 추적하여 사용자가 외부 배경 지식에 액세스하지 않고도 이러한 역학을 이해할 수 있도록 함으로써 방지할 수 있습니다. 우리가 아는 한, 다른 어떤 학술 메타데이터의 의미론적 데이터베이스도 표준 RDF 1.1의 변경 사항과 출처를 추적하지 않습니다.
OpenCitations에서 사용하는 출처 메커니즘은 저장된 각 엔터티에 대한 초기 생성 스냅샷을 설명하며, 그림 6에 요약된 것처럼 각각 스냅샷 번호로 표시된 데이터의 수정, 병합 또는 삭제를 자세히 설명하는 다른 스냅샷이 뒤따를 수 있습니다.
의미론적 표현과 관련하여 RDF의 출처 모델링(Sikos & Philp, 2020) 및 변경 추적 문제(Pelgrin et al., 2021)가 학술 문헌에서 논의되었습니다. 현재까지 두 가지 목적을 모두 달성하는 공유 표준은 없습니다. 이러한 이유로 OpenCitations는 명명된 그래프(Carroll et al., 2005), 출처 존재론(Lebo et al., 2013) 및 Dublin Core(Board, 2020)와 같이 가장 널리 공유되는 접근 방식을 사용합니다.
특히 각 스냅샷은 prov:wasDerivedFrom 조건자를 통해 이전 스냅샷에 연결되고 prov:specializationOf를 통해 설명하는 엔터티에 연결됩니다. 또한 각 스냅샷은 출처 메타데이터, 즉 책임 에이전트(prov:wasAttributedTo), 기본 소스(prov:hadPrimarySource), 생성 시간(prov:generatedAtTime) 및 이후의 이름이 지정된 그래프에 해당합니다. 추가 스냅샷 생성, 무효화 시간(prov:invalidatedAtTime). 각 스냅샷은 발생한 일에 대한 자연어 설명(dcterms:description)으로 선택적으로 표시될 수도 있습니다.
또한 OCDM 출처 모델은 SPARQL UPDATE 쿼리를 통해 두 엔터티 버전 간의 델타를 표현하는 OpenCitations Ontology(Daquino & Peroni, 2019)에 설명된 새로운 조건자 oco:hasUpdateQuery를 추가합니다. 그림 7은 Graffoo 다이어그램을 통해 모델을 표시합니다.
섹션 3.1에 설명된 중복 제거 프로세스는 변경 추적 메커니즘을 적용하여 데이터 세트의 현재 상태뿐만 아니라 전체 기록에 대해 수행됩니다. 즉, 식별자가 삼중 저장소에서 삭제된 엔터티로 역추적될 수 있는 경우 해당 식별자는 삭제된 엔터티의 OMID와 연결됩니다. 병합 체인으로 인해 삭제가 발생한 경우 결과 엔터티의 OMID가 우선적으로 적용됩니다. 시간 순회 쿼리 방법론에 대한 자세한 내용은 (Massari & Peroni, 2022)를 참조하세요. SPAR 온톨로지에 따라 데이터를 생성하고 변경 사항을 추적하기 위한 프로그래밍 인터페이스에 대한 자세한 내용은 Persiani et al., 2022를 참조하세요.
이 문서는 CC 4.0 DEED 라이선스에 따라 arxiv에서 볼 수 있습니다.