作者:
(1)Arcangelo Massari,意大利博洛尼亚大学古典语言文学和意大利研究系开放学术元数据研究中心{[email protected]};
(2) Fabio Mariani,德国吕讷堡吕讷大学艺术哲学与科学研究所 {[email protected]};
(3)Ivan Heibi,意大利博洛尼亚大学古典语言文学和意大利研究系开放学术元数据研究中心,以及意大利博洛尼亚大学古典语言文学和意大利研究系数字人文高级研究中心(/DH.arc),{[email protected]};
(4)Silvio Peroni,意大利博洛尼亚大学古典语言文学和意大利研究系开放学术元数据研究中心,以及意大利博洛尼亚大学古典语言文学和意大利研究系数字人文高级研究中心(/DH.arc),{[email protected]};
(5)David Shotton,牛津大学牛津电子研究中心,英国牛津{[email protected]}。
如第 2 节所示,仅考虑语义出版数据集时,OpenCitations Meta 的数据量排名第一,目前包括来自 Crossref、DataCite 和 NIH Open Citation Collection(ICite 等,2022 年)的数据。此外,已经开始从新来源提取数据,例如日本链接中心(Hara,2020 年)、OpenAIRE Research Graph(Atzori 等,2017 年)和 Dryad Digital Repository(Vision,2010 年)。
与 OpenAIRE 研究图相比,OpenCitations Meta 在功能方面具有优势:即使用 OMID,即内部用于识别 OpenCitations Meta 中每个实体的全局唯一持久标识符。这种用法可以表示和索引缺乏外部持久标识符(如数字对象标识符 (DOI))的书目资源之间的引文。此功能为 OpenCitations 索引增加了重要价值,因为它首次允许提取许多迄今为止无法表征的引文,特别是人文和社会科学出版物之间的引文(Gorraiz 等人,2016 年),以及涉及主要来源的引文,例如雕像、绘画或手抄本,这些通常缺乏持久标识符。重要的是,拥有 OMID 还允许为已识别的资源分配唯一的 URL,例如 https://w3id.org/oc/meta/br/061401975837 中的 omid:br/061401975837。
据我们所知,OpenCitations Meta 中还存在另一个功能,即在 RDF 中存储的出处信息中进行变更跟踪管理的机制。可以使用 Python timeagnostic-library 软件 (Massari & Peroni, 2022) 查询此信息。它可以执行时间遍历 SPARQL 查询,即跨不同快照以及出处信息的查询。
就其他不使用语义网技术的书目数据集而言,OpenAlex(Priem 等人,2022 年)是与 OpenCitations Meta 进行比较的重要案例。与 OpenCitations Meta 相比,OpenAlex 使用网络爬虫来添加缺失的元数据,该功能使其能够自动纠正源数据中出现的大量错误。
事实上,目前 OpenCitations Meta 的主要限制在于数据质量,而数据质量完全取决于来源的质量。Crossref 不会仔细检查出版商提供的元数据,因此许多错误都会保留下来。例如,可能会遇到未来出版的文章(https://api.crossref.org/v1/works/10.12960/tsh.2020.0006 提供的元数据表明该文章将于 2029 年以印刷形式出版)。其中一些错误可以在无需任何背景知识的情况下自动更正,而其他错误则需要使用网络爬虫或人工干预。OpenAlex 正在走网络爬虫的道路,而 OpenCitations 正在开发一个框架,允许受信任的人类领域专家(如学术图书管理员)编辑和管理数据。
OpenCitations Meta 的主要目的是保存描述 OpenCitations Index 中引用的引用和被引用出版物所需的书目元数据。然而,除了这些书目元数据元素之外,我们还清楚地知道,还有其他元数据元素对学术界也非常重要:摘要,用于文本挖掘、领域和主题字段确定和索引(即使出版物的全文在其他地方可以开放获取),以及资助者 ID、资助信息和机构标识符,这些对于确定绩效指标和进行研究评估至关重要。一旦我们完成了文本搜索操作的提供,以所示方式扩大了覆盖范围,并增强了 OpenCitations Meta 和 OpenCitations Index 运行的计算基础设施,我们将继续集成和填充这些额外的元数据字段。
提供高质量的书目元数据是一个复杂而难以通过自动化操作实现的目标,而操作规模使得除了少数记录外,无法进行手动管理。目前没有任何书目数据集能够独自实现这一目标。因此,所有可用的书目数据库都应被视为互补的。例如,虽然目前 OpenAlex 提供的元数据质量更好,但 OpenCitations Meta 拥有完整的公开来源数据,并且由于语义网技术提供的潜力,可以进行更复杂的搜索。例如,“搜索与 Silvio Peroni 或 Fabio Vitali 合作撰写 2009 年后 Springer 出版的会议论文集的所有作者”。此外,OpenAlex 只是部分免费的,因为每天通过 API 发出十万次以上请求以及通过 API 访问每小时更新的数据(而不是通过转储每月更新)必须付费[9]。相比之下,用户可以免费向最新版本的 OpenCitations Meta 发出无限制请求。
此外,尽管 OpenAIRE Research Graph 目前包含更多元数据,但此类数据是在 CC-BY 署名许可下发布的,而 OpenCitations Meta 发布的数据则受到 CC0 公共领域豁免的保护,允许完全自由地重复使用,包括商业重复使用,以及进行机器处理而不需要任何署名。