paint-brush
OpenCitations Meta:方法论经过@categorize

OpenCitations Meta:方法论

太長; 讀書

featured image - OpenCitations Meta:方法论
Categorize.Tech: Organizing the World of Software HackerNoon profile picture
0-item

作者:

(1)Arcangelo Massari,意大利博洛尼亚大学古典语言文学和意大利研究系开放学术元数据研究中心{[email protected]};

(2) Fabio Mariani,德国吕讷堡吕讷大学艺术哲学与科学研究所 {[email protected]};

(3)Ivan Heibi,意大利博洛尼亚大学古典语言文学和意大利研究系开放学术元数据研究中心,以及意大利博洛尼亚大学古典语言文学和意大利研究系数字人文高级研究中心(/DH.arc),{[email protected]};

(4)Silvio Peroni,意大利博洛尼亚大学古典语言文学和意大利研究系开放学术元数据研究中心,以及意大利博洛尼亚大学古典语言文学和意大利研究系数字人文高级研究中心(/DH.arc),{[email protected]};

(5)David Shotton,牛津大学牛津电子研究中心,英国牛津{[email protected]}。

链接表

3. 方法论

OpenCitations Meta 由 CSV 格式(即表格形式)的输入数据填充。这种选择并非偶然。我们发现,与更结构化的格式(即 JSON Scholix 和 RDF N-Quads)相比,OpenCitations 以 CSV 格式公开的数据(例如来自 COCI(OpenCitations,2022))下载的频率更高。这是因为文件大小较小(与 N-Quads 和 Scholix 相比),最重要的是表格格式对人类的可读性更高。后者是 OpenCitations Meta 采用 CSV 输入格式的主要原因,以方便未来从人类策展活动中众包书目元数据(Heibi 等人,2019a)。


OpenCitations Meta 的输入表有 11 列,对应于 OCDM 的线性化(Daquino 等人,2020 年):id、标题、作者、编辑、出版日期、地点、卷、期、页、类型和出版商。有关每个字段如何构建的深入描述,请参阅(Massari & Heibi,2022 年)。


表 1:按所含研究实体数量排序的开放学术数据集,并比较了变更跟踪、出处、消歧方法、内部 ID 的存在、可访问性和数据使用许可


一旦获取了 CSV 表格数据,首先会自动整理数据(Curator 步骤),然后根据 OCDM 转换为 RDF(Creator 步骤)。最后,整理后的 CSV 和 RDF 存储为文件,同时逐步填充相应的三元组存储。图 2 总结了工作流程。


图 2:OpenCitations Meta 工作流。首先,CSV 格式的输入数据会被自动更正 (1)、去重,并使用三元组存储中的现有信息进行丰富 (2)。更正后的 CSV 将作为输出返回 (3a)。其次,数据被转换为 RDF (3b),保存到文件 (4a),最后输入到三元组存储 (4b)

3.1 Curator:去重、丰富和纠正

管理过程执行三个主要操作来提高接收数据的质量:重复数据删除,丰富和校正。


数据去重方法完全基于标识符。换言之,当且仅当两个不同的实体具有相同的标识符时,才认为它们是相同的,例如文章的 DOI、人物的 ORCID、书籍的 ISBN 以及出版场所(例如期刊)的 ISSN。


具有相同标识符的不同资源按照精确的规则进行合并:(1)如果资源是同一个 CSV 文件的一部分,则优先考虑第一次出现的信息。但是,(2)如果资源已经在三元组存储库中描述,则优先考虑三元组存储库中的信息。换句话说,我们认为存储在三元组存储库中的信息是可信的,并且只能使用来自 CSV 源的附加数据来增加它。


删除重复实体后,会为其分配一个新的永久内部标识符,称为 OpenCitations Meta Identifier (OMID)。OMID 的结构为 [entity_type_abbreviation]/[supplier_prefix][sequence_number]。例如,有史以来处理的第一篇期刊文章的 OMID 为 br/0601,其中 br 是“书目资源”的缩写,060 对应于供应商前缀,表示书目资源所属的数据库(在本例中为 OpenCitations Meta)。最后,1 表示此 OMID 标识索引中有史以来为该前缀记录的第一个书目资源。


更准确地说,OpenCitations Meta 使用的供应商前缀是“06[1-9]*0”,即“06”后面可以跟任意数字(不包括零),末尾可以跟“0”。例如,“060”、“0610”和“06230”都是 OpenCitations Meta 中有效的供应商前缀。


需要进行重复数据删除并随后使用 OMID 进行标识的实体包括外部标识符(缩写为 id)、代理角色(即作者、编辑、出版商,缩写为 ar)、负责代理(即人员和组织,缩写为 ra)、资源体现(即页面,缩写为 re)以及场地、卷和期(均为书目资源,缩写为 br)。卷和期有 OMID,因为它们被视为一等公民,而不是文章的属性。这样做的好处是,例如,允许人们搜索特定期中的论文、指定期刊的卷或在特定时间段内出版的期刊期。相比之下,标题和日期被视为文字值,而不是实体。


图 3 说明了重复数据删除决策树。给定一个输入实体及其标识符,有六种可能的结果:


  1. 如果实体没有标识符,或者它们不存在于三元组存储库中,则为该实体创建一个新的 OMID;


  2. 如果实体没有 OMID,并且其一个外部标识符已经与一个且仅一个其他实体相关联,则两个实体将合并并视为相同;


  3. 如果 CSV 中实体的外部标识符连接了三元组存储库中两个或多个此前不同的实体,并且 CSV 中未指定 OMID,则会发生冲突,该冲突无法自动解决,需要手动干预。将为这个冲突实体创建新的 OMID。例如,在 CSV 中,同一个期刊名称与两个标识符 issn:1588-2861 和 issn:0138-9130 相关联;然而,在三元组存储库中,有两个独立实体的条目,一个标识符为 issn:1588-2861,另一个标识符为 issn:0138-9130,它们实际上指的是同一个实体;


  4. 如果 CSV 中的实体具有三元组存储库中存在的 OMID,并且不存在其他 ID,则三元组存储库中的信息将覆盖 CSV 中的信息。然后,三元组存储库仅通过添加缺失的详细信息进行更新。换句话说,在 CSV 中为实体指定其 OMID 是一种在 OpenCitations Meta 中更新现有实体的方法;


  5. 如果实体具有现有的 OMID,并且附加标识符与没有 OMID 的其他实体(在 CSV 中)或具有相同 OMID 的其他实体(在 CSV 或三元组存储中)相关联,则将合并这些实体。此外,CSV 中的信息将被三元组存储中已有的信息覆盖,然后将 CSV 中缺失的详细信息添加到三元组存储中;


  6. 最后,如果外部标识符将具有不同 OMID 的三元组存储中的多个实体连接起来,则会发生冲突。在这种情况下,CSV 中指定的 OMID 优先,并且只合并具有该 OMID 的实体。


鉴于这些一般规则,三种特殊情况值得特别关注。第一个值得注意的问题涉及作者和编辑者的顺序,必须根据 OCDM 进行维护。在合并的情况下,实体首次创建时记录的顺序将覆盖后续顺序,任何新作者或编辑者都将添加到现有列表的末尾,如图 4 所示。


图 3:重复数据删除决策树


图 4:合并时,找到的第一条信息优先。在此示例中,David Shotton 插入到作者列表中 Silvio Peroni 之后,因为 Peroni 已被记录为第一作者,即使 Shotton 在第二次出现时出现在 Peroni 之前


其次,在两个书目资源合并的情况下,对于没有标识符的作者或编辑者,将根据他们的名字和姓氏进行消歧义。


最后一个重要情况涉及文章、期刊、卷和地点之间的包含关系。在合并的情况下,此结构得以保留,其中两个卷或期刊只有具有相同的值才被视为相同,该值可以是连续数字(例如“卷 1”)或任意名称(例如“Clin_Sect”)。

3.2 Curator:防错

一旦所有实体都获得了 OMID,数据就会被规范化,并且可以自动处理的错误也会得到纠正。所有标识符都会根据其标识符方案进行检查 - 例如,ISBN、ISSN 和 ORCID 的语法正确性是使用标识符方案文档提供的特定公式计算的。但是,标识符的语义正确性仅针对 ORCID 和 DOI 进行验证,这是使用开放 API 来验证它们的实际存在 - 例如,有可能生成一个语法有效但实际上并未分配给某个人的 ORCID。


所有用于空格的歧义字符和替代字符(例如制表符、不间断空格、全角空格)均转换为空格(Unicode 字符 U+0020)。同样,id、页面、卷、期号、作者和编辑者中用于连字符的歧义字符(例如不间断连字符、短划线、减号)均更改为连字符减号(Unicode 字符 U+002D)。


关于书目资源的标题(“venue”和“title”列),标题中的每个单词都大写,除了那些包含大写字母的单词(可能是首字母缩略词,例如“FaBiO”和“CiTO”)。但是,此例外不包括完全大写的标题的情况。对于作者和编辑,无论是个人还是组织,也遵循同样的规则。


日期解析时会同时考虑格式有效性(基于 ISO 8601 (YYYYMM-DD) (Wolf & Wicksteed, 1997))和值(例如 2 月 30 日不是有效日期)。必要时,日期会被截断。例如,日期 2020-02-30 会转换为 2020-02,因为给定日期的日期无效。同样,2020-27-12 也会被截断为 2020,因为月份(以及日期)无效。如果年份无效(例如大于 9999 的年份),则会丢弃日期。


卷号和期号的修正基于许多值得特别注意的规则。一般来说,我们已经确定了可能发生的六类错误,并且对每类错误进行了相应的处理:


  1. 卷号和期号位于同一字段中(例如“Vol. 35 N° spécial 1”)。两个值分开并分配给相应的字段。


  1. 前缀错误(例如“.38”)。前缀被删除。


  2. 后缀错误(例如“19/”)。后缀被删除。


  3. 编码错误(例如“5â\x80\x926”、“38â39”、“3???4”)。只保留两端的数字,用一个连字符分隔。因此,示例分别更正为“5-6”、“38-39”和“3-4”,因为“â\x80\x92”、“â”和“???”是错误编码的连字符。


  4. 分类为问题的卷(例如,“问题”字段中的“卷 1”)。如果在“问题”字段中找到卷模式并且“卷”字段为空,则将内容移动到“卷”字段,并将“问题”字段设置为空。但是,如果“问题”字段包含卷模式并且“卷”字段包含问题模式,则这两个值会交换。


  5. 分类为卷的期刊(例如,“卷”字段中的“特刊 2”)。其处理方式与案例 5 相同,但角色相反。


我们将包含单词“original series”、“volume”、“vol”和各种其他语言的volume(例如法语中的“tome”和土耳其语中的“cilt”)的模式视为卷。例如,“Original Series”、“Volume 1”、“Vol 71”、“Tome 1”和“Cilt: 1”被归类为卷。相反,我们将包含单词“issue”、“special issue”和issue(例如“horssérie”(法语中的special issue)和“özel sayı”(土耳其语中的special issue))的模式视为期刊。例如,“issue 2”、“special issue 2”、“Special issue 'Urban Morphology''”、“Özel Sayı 5”和“Hors-série 5”被归类为期刊。


最后,如果某个值的格式无效并且由于其在错误的字段中而无效,则首先更正该值,然后将其移动到正确的字段(如果合适)。


一旦输入数据被消除歧义、丰富和纠正,就会生成并存储一个新的 CSV 文件。该文件代表该过程的第一个输出(图 2 中的 3a)。

3.3 Creator:语义映射

在此阶段,数据按照 OCDM(Daquino 等人,2020 年)以 RDF 建模。此本体重用了 SPAR 本体中定义的实体来表示书目实体(fabio:Expression)、标识符(datacite:Identifier)、代理角色(pro:RoleInTime)、负责代理(foaf:Agent)和出版格式详细信息(fabio:Manifestation)。代理角色(即作者、编辑或出版商)用作书目资源和负责代理(即个人或组织)之间的代理。这种方法有助于我们定义与时间相关和与上下文相关的角色和状态,例如作者的顺序(Peroni 等人,2012 年)。图 5 通过 Graffoo 图形框架描绘了各种实体之间的关系(Falco 等人,2014 年)。


图 5:OpenCitations Meta 中使用的 OCDM 的一部分。黄色矩形表示类,绿色多边形表示数据类型,蓝色和绿色箭头分别表示对象属性和数据属性


例如,在 OpenCitations Meta 中,OMID 为 omid:br/062601067530 的实体标题为《开放获取和在线出版:护理的新前沿?》(dcterms:title),出版日期为 2012-07-25(prism:publicationDate)。使用 FRBR(Tillett,2005),该文章是最终出版版本,或原始作品的表达(fabio:Expression),其样本为实体 omid:re/06260837633(frbr:embodiment),即对应于期刊卷 1905-1908 页的印刷出版物(prism:startingPage,prism:endingPage)。更准确地说,该文章是期刊 (fabio:JournalIssue) 第 9 期 (fabio:hasSequenceIdentifier) 的一部分 (frbr:partOf),包含在期刊 Journal Of Advanced Nursing (fabio:Journal) 第 68 卷 (fabio:JournalVolume) 中。


此外,人物 (foaf:Agent) Glenn Hunt (foaf:givenName, foaf:familyName) 是本文上下文 (pro:isDocumentContextFor) 中的第一作者 (pro:RoleInTime)。同样,第二作者是 Michelle Cleary (pro:hasNext)。


最后,该出版物具有 OpenCitations Meta Identifier (OMID) omid:id/062601093630 (datacite:hasIdentifier),这是 datacite:Identifier 类型的实体。它还有一个外部标识符,使用数字对象标识符 (DOI) (datacite:usesIdentifierScheme) 作为其标识符方案,并且具有文字值“10.1111/j.1365- 2648.2012.06023.x”(literal:hasLiteralValue)。


一旦映射完成,生成的 RDF 数据就可以存储(图 2 中的 4a)并上传到三元组存储库(图 2 中的 4b)。

3.4 创建者:出处和变更追踪

除了处理元数据之外,OpenCitations Meta 中实体的出处和变更跟踪也非常重要。出处记录了谁通过创建、删除、修改或合并来处理特定实体,以及执行此操作的时间以及主要来源是什么(Gil 等人,2010 年)。跟踪这些信息对于确保 OpenCitations Meta 中元数据的可靠性至关重要。事实上,Web 和语义 Web 上陈述的真实性从来都不是绝对的,每个处理信息的应用程序都必须通过评估其上下文来评估其完整性(Koivunen 和 Miller,2001 年)。


然而,除了存储出处信息之外,在处理研究评估活动等活动时,了解实体演变的机制也至关重要,因为由于更正或错误指定而导致的修改可能会影响对学者、研究小组或整个机构的整体评估。例如,机构的名称可能会随着时间的推移而发生变化,这些变化在数据库中的反映“使得在不了解机构历史的情况下很难识别所有机构的名称和单位”(Pranckut˙e,2021 年)。可以通过跟踪数据库中数据的演变方式来防止这种情况,从而使用户无需访问外部背景知识即可了解这种动态。据我们所知,没有其他学术元数据语义数据库会跟踪标准 RDF 1.1 中的变化和出处。


OpenCitations 所采用的出处机制描述了每个存储实体的初始创建快照,随后可能会有其他快照详细描述数据的修改、合并或删除,每个快照都标有其快照编号,如图 6 所示。


图 6:OCDM 起源层的高级描述,用于跟踪实体的更改。为了跟踪实体的完整历史记录,我们需要存储其最新快照的所有三元组以及通过修改以前的快照构建的所有增量


关于语义表示,学术文献中讨论了起源建模 (Sikos & Philp, 2020) 和 RDF 中的变更跟踪 (Pelgrin et al., 2021) 问题。迄今为止,没有一个共享标准可以同时实现这两个目的。因此,OpenCitations 采用了最广泛共享的方法,即命名图 (Carroll et al., 2005)、起源本体 (Lebo et al., 2013) 和都柏林核心 (Board, 2020)。


具体来说,每个快照都通过 prov:wasDerivedFrom 谓词连接到前一个快照,并通过 prov:specializationOf 链接到它描述的实体。此外,每个快照都对应一个命名图,其中描述了出处元数据,即负责代理 (prov:wasAttributedTo)、主要来源 (prov:hadPrimarySource)、生成时间 (prov:generatedAtTime),以及在生成附加快照后,失效时间 (prov:invalidatedAtTime)。每个快照也可以选择用自然语言描述发生的事情 (dcterms:description) 来表示。


此外,OCDM 出处模型添加了一个新的谓词 oco:hasUpdateQuery,该谓词在 OpenCitations Ontology(Daquino & Peroni,2019)中进行了描述,它通过 SPARQL UPDATE 查询表达实体两个版本之间的差异。图 7 通过 Graffoo 图显示该模型。


图 7:Graffoo 图描述了实体的快照(prov:Entity)(通过 prov:specializationOf 链接)和相关的出处信息


第 3.1 节中描述的重复数据删除过程不仅针对数据集的当前状态,还通过强制实施更改跟踪机制针对其整个历史记录进行。换句话说,如果标识符可以追溯到从三元组中删除的实体,则该标识符将与已删除实体的 OMID 相关联。如果删除是由于合并链造成的,则结果实体的 OMID 优先。有关时间遍历查询方法的更多信息,请参阅 (Massari & Peroni, 2022)。有关根据 SPAR 本体创建数据和跟踪更改的编程接口的更多详细信息,请参阅 (Persiani et al., 2022)。