作者:
(1)Arcangelo Massari,意大利博洛尼亚大学古典语言文学和意大利研究系开放学术元数据研究中心{[email protected]};
(2) Fabio Mariani,德国吕讷堡吕讷大学艺术哲学与科学研究所 {[email protected]};
(3)Ivan Heibi,意大利博洛尼亚大学古典语言文学和意大利研究系开放学术元数据研究中心,以及意大利博洛尼亚大学古典语言文学和意大利研究系数字人文高级研究中心(/DH.arc),{[email protected]};
(4)Silvio Peroni,意大利博洛尼亚大学古典语言文学和意大利研究系开放学术元数据研究中心,以及意大利博洛尼亚大学古典语言文学和意大利研究系数字人文高级研究中心(/DH.arc),{[email protected]};
(5)David Shotton,牛津大学牛津电子研究中心,英国牛津{[email protected]}。
OpenCitations Meta 是一个新的数据库,其中包含 OpenCitations 基础设施索引的引文中涉及的学术出版物的书目元数据。它遵循开放科学原则,并根据 CC0 许可证提供数据以实现最大程度的重复使用。可以通过 SPARQL 端点、REST API 和转储访问数据。OpenCitations Meta 有三个重要用途。首先,它可以消除使用来自不同来源的不同标识符描述的出版物之间的引文歧义。例如,它可以链接 Crossref 中由 DOI 标识的出版物和 PubMed 中的 PMID。其次,它为没有现有外部持久标识符(如 DOI)的书目资源分配新的全局持久标识符 (PID),称为 OpenCitations Meta 标识符 (OMID)。最后,通过在内部托管书目元数据,OpenCitations Meta 提高了引用和被引文献的元数据检索速度。该数据库通过自动数据管理填充,包括重复数据删除、错误更正和元数据丰富。数据以 RDF 格式存储,遵循 OpenCitations 数据模型,并跟踪更改和出处信息。OpenCitations Meta 及其制作。OpenCitations Meta 目前整合了 Crossref、DataCite 和 NIH Open Citation Collection 的数据。在语义出版数据集方面,它目前在数据量方面排名第一。
关键词— 学术引用、书目元数据、出处、变更跟踪、开放科学、OpenCitations
OpenCitations 是一个独立的非营利性开放学术基础设施组织,致力于使用语义网技术发布开放书目和引文数据。OpenCitations 在 OpenCitations 索引中存储和管理有关学术引文的信息,即将引用实体与被引用实体连接起来的概念链接。迄今为止,已有四个 OpenCitations 索引:COCI(https://opencitations.net/index/coci),Crossref 的 OpenCitations 索引开放 DOI 到 DOI 引文(Heibi 等,2019b);POCI(https://opencitations.net/index/poci),PubMed 的 OpenCitations 索引开放 PMID 到 PMID 引文;DOCI(https://opencitations.net/index/doci),DataCite 的 OpenCitations 索引开放 DOI 到 DOI 引文;以及 CROCI(https://opencitations.net/index/croci),众包开放引文索引(Heibi 等人,2019a)。
虽然 OpenCitations 索引的覆盖范围已接近商业专有引文索引(参见 https://opencitations.hypotheses.org/ 1420),但仍存在一些 OpenCitations 以前未解决的突出问题。
首先是引文歧义消除。有时,书目资源会被分配多个标识符,例如 DOI 和 PMID。在这种情况下,根据数据源的不同,相同的引文可能会以不同的方式多次表示。例如,OpenCitations 将在 COCI 中使用来自 Crossref 的元数据作为 DOI 到 DOI 的引文来描述两个出版物之间的引文,而在 POCI 中使用来自 PubMed 的元数据作为 PMID 到 PMID 的引文来描述相同的引文。这种重复在计算每个文档的传入和传出引文数量时会带来问题,而这对于图书馆、期刊和科学计量学研究来说是一项至关重要的统计数据。使用 OpenCitations Meta 使我们能够对此类引文进行重复数据删除,并解决此类重复可能导致的问题。
其次,为文档分配全局持久标识符并非所有学术领域的普遍做法。Gorraiz 等人 (2016) 表明,自然科学和社会科学界采用 DOI 的程度远远高于艺术和人文科学界。根据在 Scopus 和 Web of Science 核心合集上进行的这项研究,发现科学和社会科学领域近 90% 的出版物与 DOI 相关联,而艺术和人文科学领域这一数字仅为 50%。此外,关于人文科学,许多领域(例如历史)都需要引用缺乏 DOI 的古代主要来源(例如亚里士多德)。如果文档没有标识符,其元数据就不符合 FAIR 原则(Wilkinson 等人,2016),即学术数字研究对象必须可查找、可访问、可互操作和可重用。全局唯一且持久的标识符对于使元数据可查找和可访问至关重要。此外,没有标识符的书目资源会阻止按照 FAIR 原则描述涉及它的引文。这就是为什么根据管理 OpenCitations 索引的开放引文定义 (Peroni & Shotton, 2018),任何两个由索引引文链接的实体都必须由来自相同标识符方案的持久标识符标识,例如都使用 DOI,或都使用 PubMed ID。例如,COCI (Heibi et al., 2019b) 仅存储引用和被引用实体在 Crossref 中描述且都具有 DOI 的引文信息。迄今为止,涉及缺少 DOI 或其他公认 PID 的出版物的引文已被排除在 OpenCitations 引文索引之外。
但现在,OpenCitations Meta 通过将一个新的全局持久标识符(即 OpenCitations Meta 标识符 (OMID))与 OpenCitations Meta 中描述的每个文档关联,解决了由多个标识符标识的书目资源以及缺乏持久标识符的书目资源所带来的问题。这样,所有引文都可以表示为 OMID 到 OMID 的引文(图 1)。通过为存储在 OpenCitations Meta 中的每个实体提供唯一标识符,实体的 OMID 充当每个实体使用的不同外部标识符之间的代理,从而实现消歧义。此外,OpenCitations Meta 可以包含所有学术出版物的元数据,每个元数据都由 OMID 标识,而无需元数据源强制提供外部持久标识符。
因此,借助 OpenCitations Meta,所有学术出版物的元数据现在都可以通过 OpenCitations 存储,并且链接所有此类出版物的引文可以包含在新的包容性 OpenCitations 索引中,其中其他索引(COCI、DOCI、POCI 等)将根据引文信息的各种输入源作为子索引。
第三是 OpenCitations 服务之前的时间性能较差,特别是返回引用和被引资源的基本书目元数据的 API 操作。这是因为 OpenCitations 索引本身迄今为止仅包含与引用相关的元数据(引用被视为具有自己的元数据的一级数据实体),但没有包含与引用和被引实体(标题、作者、页码等)相关的书目元数据。相反,这些元数据迄今为止都是通过向 Crossref、ORCID 和 DataCite 等外部服务发出显式 API 请求来即时检索的
在过去三年中,为了解决上述问题,我们开发并测试了现在用于创建新书目元数据集合的软件,即 OpenCitations Meta,我们于 2022 年 12 月推出了该软件。支持该数据库的软件是开源的,可在 https://github.com/opencitations/oc_meta 上找到。OpenCitations Meta 公开的元数据包括描述学术书目资源的基本书目元数据。具体来说,它存储了书目资源的所有已知书目资源标识符(例如 DOI、PMID、ISSN 和 ISBN)、标题、类型、出版日期、页码、资源的来源地以及来源地为期刊时的卷号和期号。此外,OpenCitations Meta 还包含有关每个书目资源出版的主要参与者的元数据,即作者、编辑和出版商的姓名,每个都包括他们自己的持久标识符(例如 ORCID)(如果有)。我们打算稍后添加额外的元数据字段(例如作者的机构和资金信息)。
生成 OpenCitations Meta 的过程可分为两个步骤。第一步涉及输入数据的管理。管理程序涉及自动更正错误、标准化数据格式以及对同一项目的不同元数据条目进行重复数据删除。重复数据删除过程仅基于标识符。这种方法更注重精确度而不是召回率:例如,只有当人们被分配了 ORCID 时才会被重复数据删除,而不会通过其他启发式方法进行重复数据删除。在规范化和重复数据删除阶段之后,每个实体都会被分配一个 OpenCitations Meta Identifier (OMID),无论它是否已经具有外部持久标识符(例如 DOI、PubMed ID、ISBN)。
填充 OpenCitations Meta 的第二步是将原始输入数据转换为符合 OpenCitations 数据模型 (OCDM) (Daquino 等人,2020) 的 RDF(链接开放数据格式),以便通过 SPARQL 查询此类数据。在此过程中,我们非常重视来源和变更跟踪:每次创建、修改、删除或合并实体时,此类变更都会记录在 RDF 中,并以创建日期、主要来源和负责代理为特征。
本文的其余部分安排如下。第 2 节回顾了其他语义出版数据集。随后,在第 3 节中,详细介绍了用于生成 OpenCitations Meta 的方法,从策展阶段(3.1)开始,然后描述错误更正(3.2),然后解释根据 OCDM 将数据转换为 RDF(3.3),最后描述 RDF 出处和变更跟踪数据的生成(3.4)。第 4 节提供了一些有关当前 OpenCitations Meta 数据集的描述性统计数据。最后,第 5 节讨论了 OpenCitations Meta 的一些当前局限性,并考虑了 OpenCitations Meta 在类似学术数据集中的地位。