paint-brush
OpenCitations Meta:相关著作经过@categorize

OpenCitations Meta:相关著作

太長; 讀書

featured image - OpenCitations Meta:相关著作
Categorize.Tech: Organizing the World of Software HackerNoon profile picture
0-item

作者:

(1)Arcangelo Massari,意大利博洛尼亚大学古典语言文学和意大利研究系开放学术元数据研究中心{[email protected]};

(2) Fabio Mariani,德国吕讷堡吕讷大学艺术哲学与科学研究所 {[email protected]};

(3)Ivan Heibi,意大利博洛尼亚大学古典语言文学和意大利研究系开放学术元数据研究中心,以及意大利博洛尼亚大学古典语言文学和意大利研究系数字人文高级研究中心(/DH.arc),{[email protected]};

(4)Silvio Peroni,意大利博洛尼亚大学古典语言文学和意大利研究系开放学术元数据研究中心,以及意大利博洛尼亚大学古典语言文学和意大利研究系数字人文高级研究中心(/DH.arc),{[email protected]};

(5)David Shotton,牛津大学牛津电子研究中心,英国牛津{[email protected]}。

链接表

2.相关工作

在本节中,我们将回顾最重要的学术出版数据集,这些数据集无需订阅即可访问,即包含学术书目元数据的公开数据集。由于 OpenCitations Meta 使用语义网技术来表示数据,因此将特别关注 RDF 数据集,即 Wikidata、Springer Nature SciGraph、BioTea、OpenResearch Knowledge Graph 和 Scholarly Data。此外,还将描述 OpenAIRE Research Graph、OpenAlex 和 Scholarly Data,因为它们是作品数量最多的数据集,尽管它们不以语义方式表示数据。


OpenAlex(Priem 等人,2022 年)于 2022 年 1 月 1 日从 Microsoft Academic Graph 的灰烬中重生,并继承了其所有元数据。它包括来自 Crossref(Hendricks 等人,2020 年)、Pubmed(Maloney 等人,2013 年)、ORCID(Haak 等人,2012 年)、ROR(Lammey,2020 年)、DOAJ(Morrison,2017 年)、Unpaywall(Dhakal,2019 年)、arXiv(Sigurdsson,2020 年)、Zenodo(Research & OpenAIRE,2013 年)、ISSN 国际中心[1] 和互联网档案馆的通用索引[2] 的数据。此外,还使用网络爬虫来添加缺失的元数据。OpenAlex 拥有超过 2.4 亿部作品[3],是迄今为止最广泛的书目元数据数据集。OpenAlex 为每个资源分配永久标识符。此外,作者可以通过基于合著者、引文和书目资源的其他特征的启发式方法消除歧义。数据根据 CC0 许可证分发,可以通过 API、Web 界面或下载 OpenAlex 数据库的完整快照副本进行访问。


OpenAIRE 项目于 2008 年启动,旨在支持欧盟委员会开放获取授权的通过(Manghi 等人,2010 年),目前它是“地平线 2020”研究与创新计划中的旗舰组织,旨在实现欧洲开放科学云(欧洲委员会研究与创新总司,2016 年)。其主要成果之一是 OpenAIRE 研究图谱,其中包括有关学术成果(如文献、数据集和软件)、组织、研究资助者、资金流、项目和社区的元数据,以及出处信息。数据来自各种来源(Atzori 等人,2017 年):档案馆,例如 ArXiv(Sigurdsson,2020 年)欧洲 PMC(欧洲 PMC 联盟,2015 年)、软件遗产(Abramatic 等人,2018 年)和 Zenodo(Research & OpenAIRE,2013 年);聚合服务,例如 DOAJ(Morrison,2017)和 OpenCitations(Peroni & Shotton,2020);以及其他研究图表,例如 Crossref(Hendricks 等人,2020)和 DataCite(Brase,2009)。截至 2023 年 6 月,该 OpenAIRE 数据集包含 232,174,001 个研究产品[4]。OpenAIRE 实施的重复数据删除过程不仅考虑了 PID,还考虑了其他启发式方法,例如作者数量和标题的 Levenstein 距离。但是,OpenAIRE 与实体关联的内部标识符不是持久的,可能会在数据更新时发生变化。可以通过 API 和 Explore 界面访问 OpenAIRE 研究图表的数据。转储也可在知识共享署名 4.0 国际许可下使用。


Semantic Scholar 由艾伦人工智能研究所于 2015 年推出(Fricke,2018 年)。它是一个搜索引擎,使用人工智能仅选择与用户搜索最相关的论文并简化探索,例如通过生成自动摘要。Semantic Scholar 通过网络索引和与科学期刊、索引和内容提供商的合作来获取内容。其中包括计算语言学协会、剑桥大学出版社、IEEE、PubMed、Springer Nature、麻省理工学院出版社、Wiley、arXiv、HAL 和 PubMed。截至 2023 年 6 月,它已索引了 212,605,886 篇学术作品[5]。作者通过人工智能模型(Subramanian 等人,2021 年)消除歧义,并与 Semantic Scholar ID 相关联,并为每个作者自动生成一个页面,真实人员可以兑换。 Semantic Scholar 提供了 Web 界面和 API,完整的数据集可根据开放数据共享署名许可证 (ODCBy) v1.0 下载。


Wikidata 由 Wikimedia Deutschland 于 2012 年推出,是一个开放知识库,用于以 RDF 形式存储来自其他 Wikimedia 项目(如 Wikipedia、Wikivoyage、Wiktionary 和 Wikisource)的数据(Mora-Cantallops 等人,2019 年)。由于其成功,谷歌于 2014 年关闭了 Freebase,并将其迁移到 Wikidata(Tanon 等人,2016 年),后者旨在成为“结构化数据的维基百科”。自 2016 年以来,WikiCite 项目为 Wikidata 作为书目数据库的发展做出了重大贡献,以至于到 2023 年 6 月,Wikidata 包含 39,864,447 篇学术文章的描述[6]。引用任何实体(包括书目资源)的内部 Wikidata 标识符都与许多外部标识符相关联,例如 DOI、PMID、PMCID、arXiv、ORCID、Google Scholar、VIAF、Crossref 资助者 ID、ZooBank 和 Twitter。这些数据以 CC0 许可证的形式在 Turtle 和 NTriples 中发布,为 RDF 转储。用户可以通过 SPARQL(一种 Web 界面)浏览这些数据,并且自 2017 年起,可以通过 Scholia(一种 Web 服务)浏览这些数据,该服务执行实时 SPARQL 查询,以生成研究人员、组织、期刊、出版商、学术著作和研究主题的个人资料,同时生成有价值的信息图表(Nielsen 等人,2017 年)。


OpenAIRE Research Graph 和 Wikidata 聚合了许多异构来源,而 Springer Nature SciGraph(Hammond 等人,2017)则只聚合了来自 Springer Nature 及其合作伙伴的数据。它包含有关出版物、附属机构、研究项目、资助者和会议的实体,总计超过 1400 万项研究产品[7]。目前没有计划提供公共 SPARQL 端点,但可以通过浏览器界面探索数据,并且每月以 JSON-LD 格式根据 CC-BY 许可发布转储。



BioTea 也是一个面向领域的数据集,它使用 RDF 技术表示 PubMed Central (PMC-OA) 的带注释的全文开放访问子集 (Garcia 等人,2018)。在 2018 年发表该论文时,该数据集包含 150 万个书目资源。与其他数据集不同,BioTea 描述元数据和引文,并从语义上定义带注释的全文。采用命名实体识别分析来识别与生物医学本体相关的表达和术语,然后将其记录为注释(例如关于生物分子、药物和疾病)。BioTea 数据以 RDF/XML 和 JSON-LD 格式的转储形式发布,遵循 Creative Commons Attribution Non-Commercial 4.0 International 许可,而 SPARQL 端点目前处于离线状态。


值得注意的方法是开放研究知识图谱 (ORKG) (Auer 等人,2020) 采用的方法。元数据主要由可信代理通过众包收集或从 Crossref 自动收集。然而,ORKG 的主要目的不是组织元数据,而是提供服务。这些服务的主要范围是使用词嵌入进行文献比较分析,以进行相似性分析并促进相关作品的探索和链接。为了实现这种复杂的分析,来自 Crossref 的元数据是不够的;因此,必须为每个资源手动指定关于主题、结果、方法、教育背景和评估者的结构化注释。该数据集包含(截至 2023 年 6 月)25,680 篇论文[8]、5153 个数据集、1364 个软件和 71 篇评论。鉴于人类对 ORKG 数据集创建的重要性,该平台会跟踪变化和出处,尽管不是 RDF 格式。可以通过网络界面、SPARQL 和 API 探索数据,也可以根据 CC BY-SA 许可下载数据。


ScholarlyData 仅收集有关语义网主题的会议和研讨会的信息(Nuzzolese 等人,2016 年)。数据按照会议本体建模,该本体描述了学术会议中的典型实体,例如已接受的论文、作者、其所属机构和组织委员会,但不包含参考文献。截至 2023 年 6 月,该数据集存储了有关 5678 篇会议论文的信息。此类数据集通过使用会议链接开放数据生成器软件进行更新,该软件从 CSV 文件开始输出 RDF(Gentile & Nuzzolese,2015 年)。代理的重复数据删除仅基于其 URI,使用监督分类方法(Zhang 等人,2017 年),而 ORCID 是在下一步中添加的。这种方法没有解决同音异义词的存在问题。然而,这对 ScholarlyData 来说只是一个小问题,因为只有几千人参与了被索引的会议。可以通过 SPARQL 端点探索 ScholarlyData,并且根据 Creative Commons Attribution 3.0 Unported 许可,转储以 RDF/XML 格式提供。


最后,我们想指出的是,上述其他数据集均未公开 RDF 中的变化跟踪数据和相关的来源信息。


表 1 总结了对每个数据集的所有考虑。



[1] https://www.issn.org/


[2] https://archive.org/details/GeneralIndex


[3] https://docs.openalex.org/api-entities/works


[4] https://explore.openaire.eu/search/find/research-outcomes


[5] https://www.semanticscholar.org/


[6] https://scholia.toolforge.org/statistics


[7] https://scigraph.springernature.com/explorer/datasets/data_at_a_glance/


[8] https://orkg.org/papers