作者:
(1)Arcangelo Massari,意大利博洛尼亚大学古典语言文学和意大利研究系开放学术元数据研究中心{[email protected]};
(2) Fabio Mariani,德国吕讷堡吕讷大学艺术哲学与科学研究所 {[email protected]};
(3)Ivan Heibi,意大利博洛尼亚大学古典语言文学和意大利研究系开放学术元数据研究中心,以及意大利博洛尼亚大学古典语言文学和意大利研究系数字人文高级研究中心(/DH.arc),{[email protected]};
(4)Silvio Peroni,意大利博洛尼亚大学古典语言文学和意大利研究系开放学术元数据研究中心,以及意大利博洛尼亚大学古典语言文学和意大利研究系数字人文高级研究中心(/DH.arc),{[email protected]};
(5)David Shotton,牛津大学牛津电子研究中心,英国牛津{[email protected]}。
本文详细介绍了开发 OpenCitations Meta 的方法,OpenCitations Meta 是一个数据库,用于存储和提供 OpenCitations 索引中涉及的所有出版物的书目元数据。此过程涉及两个主要阶段:(1) 自动整理分析,旨在删除重复实体、纠正错误和丰富信息;(2) 将数据转换为 RDF,同时跟踪 RDF 中的更改和出处。
有关新出版物的信息不断添加到 Crossref、DataCite 和 PubMed 中,我们将制定程序,定期及时地将这些新元数据导入 OpenCitations Meta。此外,我们已开始从 Japan Link Center 和 OpenAIRE Research Graph 导入书目元数据,并且只要我们的人力和计算资源允许,我们还会将其他来源纳入其中。OpenCitations Meta 将继续发展。
OpenCitations Meta 有三大优点。首先,所有存储实体均使用 OMID(OpenCitation 元标识符),这使得 OpenCitations Meta 可以充当可能具有多个外部 PID 的出版物的映射中心(例如,在 Crossref 中描述的期刊文章具有 DOI(数字对象标识符),而在 PubMed 中描述的同一出版物具有 PMID(PubMed 标识符),同时还可以表征涉及缺乏任何外部 PID 的资源的引文。因此,第二个好处是,OpenCitations Meta 允许将 OpenCitations 索引中的引文描述为 OMID 到 OMID,从而消除具有不同标识符方案的文档之间的引文歧义,例如在 Crossref 上表示为 DOI 到 DOI,在 PubMed 上表示为 PMID 到 PMID。第三,OpenCitations Meta 加快了搜索操作的速度,以检索存储在 OpenCitations 引文索引中的引文所涉及的出版物的元数据,因为这些元数据现在保存在内部,而不是通过动态 API 检索调用外部资源。
未来的挑战将是为缺少 ORCID 标识符的人们精心设计一个消歧义系统,提高现有元数据的质量,增强搜索操作和存储效率,为摘要、资助者 ID、资金信息和机构标识符添加额外的元数据字段,并在我们可以从来源获得这些元数据的地方填充这些字段。
最后,我们将实现一个界面,并向可信领域专家开放,以便直接实时手动管理 OpenCitations Meta 所持有的元数据。这样的系统将跟踪变更和出处,保留每个实体不同版本之间的差异,并保留变更责任人、主要来源和日期等信息。通过这种方式,我们将努力使 OpenCitations Meta 不仅全面,而且是一个准确、完全开放且可重复使用的书目元数据来源,学术界成员可以直接为其做出贡献。
这项工作部分由欧盟“地平线 2020”研究与创新计划资助,资助协议编号为 101017452(OpenAIRE-Nexus 项目)。
Abramatic, J.-F.、Di Cosmo, R. 和 Zacchiroli, S. (2018)。构建源代码通用档案。Communications of the ACM,61 (10),29–31。https://doi.org/10.1145/3183558
Atzori, C.、Bardi, A.、Manghi, P. 和 Mannocci, A. (2017)。OpenAIRE 数据管理工作流 [系列标题:计算机和信息科学通信]。收录于 C. Grana 和 L. Baraldi (Eds.) 编著的《数字图书馆和档案馆》(第 95-107 页)。Springer International Publishing。https://doi.org/10.1007/978-3-319-68130-6_8
Auer, S.、Oelen, A.、Haris, M.、Stocker, M.、D'Souza, J.、Farfar, KE、Vogt, L.、Prinz, M.、Wiens, V. 和 Jaradeh, MY (2020)。利用知识图谱改善科学文献的访问。Bibliothek Forschung und Praxis,44 (3),516–529。https://doi.org/10.1515/bfp-2020-2042
Board, DU (2020)。DCMI 元数据术语。检索日期:2021 年 7 月 16 日,来自 http://dublincore.org/specifications/dublin-core/dcmi-terms/2020-01- 20/
Brase, J. (2009)。DataCite - 研究数据的全球注册机构。2009 年第四届国际科技信息资源合作与促进会议,257–261。https://doi.org/10.1109/COINFO.2009.66
Brase, J. (2010)。Datacite - 研究数据全球注册机构。SSRN 电子期刊。https://doi.org/10.2139/ssrn.1639998
Carroll, JJ、Bizer, C.、Hayes, P. 和 Stickler, P. (2005)。命名图、出处和信任。第 14 届万维网国际会议论文集 - WWW '05,613。https://doi.org/10.1145/1060745。1060835
Daquino, M. 和 Peroni, S. (2019)。OCO,OpenCitations 本体。检索日期:2021 年 9 月 4 日,来自 https://w3id.org/oc/ontology/2019-09-19
Daquino, M.、Peroni, S. 和 Shotton, D. (2020)。OpenCitations 数据模型 [艺术品大小:836876 字节出版商:figshare],836876 字节。https://doi.org/10.6084/M9.FIGSHARE.3443876.V7
达卡尔,K.(2019 年)。取消付费墙。医学图书馆协会杂志,107(2)。 https://doi.org/10.5195/jmla.2019.650
欧盟委员会。研究与创新总司。(2016 年)。实现欧洲开放科学云:欧洲开放科学云委员会高级专家组第一份报告和建议。出版办公室。2022 年 10 月 17 日检索自 https://data.europa.eu/doi/10.2777/940154
Falco, R.、Gangemi, A.、Peroni, S.、Shotton, D. 和 Vitali, F. (2014)。使用 Graffoo 建模 OWL 本体 [系列标题:计算机科学讲义]。在 V. Presutti、E. Blomqvist、R. Troncy、H. Sack、I. Papadakis 和 A. Tordai (Eds.) 的《语义网:ESWC 2014 卫星事件》(第 320-325 页)中。Springer International Publishing。https://doi.org/10. 1007/978-3-319-11955-7_42
Fricke, S. (2018)。《语义学者》。《医学图书馆协会杂志》,106 (1)。https://doi.org/10.5195/jmla.2018.280
Garcia, A.、Lopez, F.、Garcia, L.、Giraldo, O.、Bucheli, V. 和 Dumontier, M. (2018)。Biotea:Pubmed Central 的语义。PeerJ,6,e4201。https://doi.org/10.7717/peerj.4201
Gentile, AL 和 Nuzzolese, AG (2015)。cLODg-Conference 链接开放数据生成器。ISWC(海报和演示)。
Gil, Y.、Cheney, J.、Groth, P.、Hartig, O.、Miles, S.、Moreau, L. 和 Silva, P. (2010)。Provenance XG 最终报告 [类型:W3C.]。http://www.w3. org/2005/Incubator/prov/XGR-prov-20101214/
Gorraiz, J.、Melero-Fuentes, D.、Gumpenberger, C. 和 Valderrama-Zurián, J.-C. (2016)。Web of Science 和 Scopus 中数字对象标识符 (DOI) 的可用性。信息计量学杂志,10 (1),98–109。https://doi.org/10.1016/j.joi.2015.11.008
Haak, LL, Fenner, M., Paglione, L., Pentz, E., & Ratner, H. (2012)。ORCID:一种唯一识别研究人员的系统。Learned Publishing,25 (4), 259–264。https://doi.org/10.1087/20120404
Hammond, T.、Pasin, M. 和 Theodoridis, E. (2017)。数据整合与分解:使用 SHACL 和 OWL 管理 Springer Nature SciGraph。ISWC(海报、演示和行业轨道)。http://ceur-ws.org/Vol1963/paper493.pdf
Hara, M. (2020). 日本链接中心 (JaLC) 简介 [作品大小:2213661 字节 出版商:ORCID],2213661 字节。https://doi.org/10. 23640/07243.12469094.V1
Heibi, I.、Peroni, S. 和 Shotton, D. (2019a)。使用 CROCI 众包开放引文——对开放引文现状的分析和建议 [arXiv: 1902.02534]。arXiv:1902.02534 [cs]。2021 年 9 月 15 日检索自 http://arxiv.org/abs/1902.02534
Heibi, I.、Peroni, S. 和 Shotton, D. (2019b)。软件评论:COCI,Crossref 开放 DOI-to-DOI 引文的 OpenCitations 索引。科学计量学,121 (2),1213–1228。https://doi.org/10.1007/s11192-019-03217-6
Hendricks, G.、Tkaczyk, D.、Lin, J. 和 Feeney, P. (2020)。Crossref:社区拥有的学术元数据的可持续来源。定量科学研究,1 (1),414–427。https://doi.org/10.1162/qss_a_00022
ICite,Hutchins,BI 和 Santangelo,G. (2022)。iCite 数据库快照 (NIH 开放引文集) [出版商:NIH Figshare 档案]。https://doi.org/10.35092/YHJC.C.4586573
Koivunen, M.-R. 和 Miller, E. (2001)。语义网活动 [版本:W3C 卷:11 02]。https://www.w3.org/2001/12/semweb-fin/w3csw
Lammey, R. (2020)。识别问题的解决方案:研究组织注册中心概览。《科学编辑》,7 (1),65–69。https://doi.org/10.6087/kcse.192
Lebo, T.、Sahoo, S. 和 McGuinness, D. (2013)。PROV-O:PROV 本体 [地点:PROV-O 卷:04 30]。检索日期:2021 年 7 月 16 日,来自 http://www.w3.org/TR/2013/REC-prov-o-20130430/
Maloney, C.、Sequeira, E.、Kelly, C.、Orris, R. 和 Beck, J. (2013)。PubMed Central。在 NCBI 手册中。
Manghi, P., Manola, N., Horstmann, W., & Peters, D. (2010). 管理欧盟资助研究成果的基础设施:OpenAIRE 项目。Grey Journal (TGJ),6 (1)。
Massari, A. 和 Heibi, I. (2022)。如何以 OpenCitations 接受的格式构建引文数据和书目元数据。理解学术全文文本中文献引用的研讨会论文集,3220。http://ceur-ws.org/Vol-3220/invited-talk2.pdf
Massari, A.,& Peroni, S. (2022)。通过 SPARQL 对 RDF 数据集执行实时时间遍历查询 [发布者:arXiv 版本号:2]。https://doi.org/10.48550/ARXIV.2210.02534
Mora-Cantallops, M.、Sánchez-Alonso, S. 和 García-Barriocanal, E. (2019)。对 Wikidata 进行系统的文献综述。数据技术与应用,53(3),250-268。 https://doi.org/10.1108/DTA-12-2018-0110
Morrison, H. (2017)。开放获取期刊目录 (DOAJ)。查尔斯顿顾问,18 (3),25–28。https://doi.org/10.5260/chara.18.3.25
Nielsen, F. Å.、Mietchen, D. 和 Willighagen, EL (2017)。Scholia、Scientometrics 和 Wikidata。在 E. Blomqvist、K. Hose、H. Paulheim、A. Lawrynowicz、F. Ciravegna 和 O. Hartig (Eds.) 的《语义网:ESWC 2017 卫星活动 - ESWC 2017 卫星活动,斯洛文尼亚波尔托罗日,2017 年 5 月 28 日至 6 月 1 日,修订精选论文》(第 237-259 页)中。Springer。https://doi.org/10.1007/978-3-319-70407-4_36
Nuzzolese, AG、Gentile, AL、Presutti, V. 和 Gangemi, A. (2016)。语义网会议本体 - 重构解决方案。欧洲语义网会议,84-87。
OpenCitations。(2022 年)。所有引文数据的 COCI CSV 数据集。https://doi. org/10.6084/M9.FIGSHARE.6741422.V18
OpenCitations。(2023a)。OpenCitations Meta CSV 所有书目元数据的数据集。https://doi.org/10.6084/M9.FIGSHARE.21747461.V3
OpenCitations。(2023b)。OpenCitations Meta RDF 数据集,包含所有书目元数据及其出处信息。https://doi.org/10.6084/M9。FIGSHARE.21747536.V3
Pelgrin, O.、Galárraga, L. 和 Hose, K. (2021)。面向 RDF 数据集的全面归档 (A.-C. Ngonga Ngomo、M. Saleem、R. Verborgh、M. Saleem、R. Verborgh、MI Ali 和 O. Hartig 编辑)。语义网杂志,12 (6),903–925。https://doi.org/10.3233/SW-210434
Peroni, S., & Shotton, D. (2018)。开放引用:定义 [作品大小:95436 字节 出版商:figshare],95436 字节。https://doi.org/10.6084/M9。FIGSHARE.6683855.V1
Peroni, S. 和 Shotton, D. (2020)。OpenCitations,一个开放学术的基础设施组织 [_eprint:https://direct.mit.edu/qss/articlepdf/1/1/428/1760920/qss_a_00023.pdf]。定量科学研究,1 (1),428–444。https://doi.org/10.1162/qss_a_00023
Peroni, S.、Shotton, D. 和 Vitali, F. (2012)。学术出版和链接数据:描述角色、状态、时间和上下文范围。第 8 届国际语义系统会议论文集 - I-SEMANTICS '12,第 9 期。https://doi.org/10.1145/2362499.2362502
Persiani, S.、Daquino, M. 和 Peroni, S. (2022)。根据 SPAR 本体和 OpenCitations 数据模型创建数据的编程接口 [系列标题:计算机科学讲义]。在 P. Groth、M.-E. Vidal、F. Suchanek、P. Szekley、P. Kapanipathi、C. Pesquita、H. Skaf-Molli 和 M. Tamper (Eds.) 的《语义网》(第 305-322 页)中。Springer International Publishing。https://doi.org/10. 1007/978-3-031-06981-9_18
Pranckut˙e, R. (2021)。Web of Science (WoS) 和 Scopus:当今学术界书目信息的巨头。出版物,9 (1),12。https://doi.org/10.3390/publications9010012
Priem, J.、Piwowar, HA 和 Orr, R. (2022)。OpenAlex:完全开放的学术作品、作者、场所、机构和概念索引 [arXiv: 2205.01833]。CoRR,abs/2205.01833。https://doi.org/10.48550/arXiv。2205.01833
研究、EOFN 和 OpenAIRE。(2013 年)。Zenodo:研究。共享。[出版商:CERN]。https://doi.org/10.25495/7GXK-RD71。
Sigurdsson, S. (2020)。arXiv 的未来和开放科学中的知识发现。第一届学术文献处理研讨会论文集,7-9。https://doi.org/10.18653/v1/2020.sdp-1.2
Sikos, LF 和 Philp, D. (2020)。起源感知知识表示:数据模型和情境化知识图谱调查。数据科学与工程,5 (3),293–316。https: / / doi. org / 10. 1007 / s41019-020-00118-0
Subramanian, S.、King, D.、Downey, D. 和 Feldman, S. (2021)。S2AND:作者姓名消歧的基准和评估系统。2021 年 ACM/IEEE 数字图书馆联合会议 (JCDL),170–179。https://doi.org/10.1109/JCDL52503.2021.00029
Tanon, TP、Vrandecic, D.、Schaffert, S.、Steiner, T. 和 Pintscher, L. (2016)。从 Freebase 到 Wikidata:大迁移。J. Bourdeau、J. Hendler、R. Nkambou、I. Horrocks 和 BY Zhao (Eds.),第 25 届万维网国际会议论文集,WWW 2016,加拿大蒙特利尔,2016 年 4 月 11 日至 15 日(第 1419-1428 页)。ACM。https://doi.org/10.1145/2872427.2874809
欧洲 PMC 联盟。(2015 年)。欧洲 PMC:生命科学全文文献数据库和创新平台。核酸研究,43 (D1),D1042–D1048。https://doi.org/10.1093/nar/gku1061
Tillett, B. (2005)。什么是 FRBR?书目世界的概念模型。《澳大利亚图书馆杂志》,54 (1),24–30。https://doi. org/10.1080/00049670.2005.10721710
Vision, T. (2010)。Dryad 数字存储库:已发布的进化数据是更大数据生态系统的一部分。《自然》论文集。https://doi. org/10.1038/npre.2010.4595.1
Wilkinson, MD, Dumontier, M., Aalbersberg, IJ, Appleton, G., Axton, M., Baak, A., Blomberg, N., Boiten, J.-W., da Silva Santos, LB, Bourne, PE, Bouwman, J., Brookes, AJ, Clark, T., Crosas, M., Dillo, I., Dumon, O., Edmunds, S., Evelo, CT, Finkers, R., . . . Mons, B. (2016)。《FAIR 科学数据管理和管理指导原则》。《科学数据》,3 (1),160018。https://doi.org/10. 1038/sdata.2016.18
Wolf, M. 和 Wicksteed, C. (1997)。日期和时间格式。2022 年 5 月 9 日检索自 https://www.w3.org/TR/NOTE-datetime
Zhang, Z.、Nuzzolese, AG 和 Gentile, AL (2017)。ScholarlyData 上的实体重复数据删除 [系列标题:计算机科学讲义]。在 E. Blomqvist、D. Maynard、A. Gangemi、R. Hoekstra、P. Hitzler 和 O. Hartig (Eds.) 的《语义网》(第 85-100 页)中。Springer International Publishing。https://doi.org/10.1007/978-3-319-58068-5_6