paint-brush
OpenCitations Meta:数据和服务经过@categorize

OpenCitations Meta:数据和服务

太長; 讀書

featured image - OpenCitations Meta:数据和服务
Categorize.Tech: Organizing the World of Software HackerNoon profile picture
0-item

作者:

(1)Arcangelo Massari,意大利博洛尼亚大学古典语言文学和意大利研究系开放学术元数据研究中心{[email protected]};

(2) Fabio Mariani,德国吕讷堡吕讷大学艺术哲学与科学研究所 {[email protected]};

(3)Ivan Heibi,意大利博洛尼亚大学古典语言文学和意大利研究系开放学术元数据研究中心,以及意大利博洛尼亚大学古典语言文学和意大利研究系数字人文高级研究中心(/DH.arc),{[email protected]};

(4)Silvio Peroni,意大利博洛尼亚大学古典语言文学和意大利研究系开放学术元数据研究中心,以及意大利博洛尼亚大学古典语言文学和意大利研究系数字人文高级研究中心(/DH.arc),{[email protected]};

(5)David Shotton,牛津大学牛津电子研究中心,英国牛津{[email protected]}。

链接表

4. 数据和服务

OpenCitations Meta 在 2022 年 12 月首次发布时,将 Crossref(Hendricks 等人,2020 年)、DataCite(Brase,2010 年)和 NIH 开放引文集合(ICite 等人,2022 年)作为描述以下 OpenCitations 索引中引用所涉及的出版物的书目元数据的主要来源:COCI(https://opencitations.net/index/coci)(OpenCitations,2022 年)、DOCI(https://opencitations.net/index/doci)和 POCI(https://opencitations.net/index/poci)。从数量上看,OpenCitations Meta 的初始版本中有 98,243,101 个书目实体(fabio:Expression)、309,881,223 位作者(pro:author)、2,406,510 位编辑(pro:editor)、19,076 位出版商(pro:publisher)和 659,214 个场所(例如 fabio:AcademicProceedings、fabio:ExpressionCollection、fabio:Book、fabio:BookSeries、fabio:Journal、fabio:ReferenceBook 或 fabio:Series 类型的资源)。因此,平均而言,每个书目资源都有三位作者。通常不记录编辑者,因为后者的元数据在我们的来源中很少使用。总的来说,三元组存储由 3,749,729,755 个三元组组成(不包括出处)。


编辑和作者被算作角色,但没有消除担任这些角色的个人的歧义。相反,书目实体、出版商和场所则按 OMID 计算。但是,对于场所(例如期刊),我们采取了额外的预防措施:许多场所在 OpenCitations Meta 中是重复的,因为它们除了 OMID 之外没有其他标识符。因此,在上面显示的图中,我们发现在没有其他标识符的情况下按标题消除场所歧义是合理的。


如表 2 所示,Springer Science 是拥有最多出版物的出版机构(2097 份),其次是 Elsevier BV(1961 份)和 IEEE(1775 份)。在统计出版物数量时,表 3 中的 Elsevier 处于领先地位(16,933,610 份),其次是 Springer Science(11,507,498 份)和 Wiley(7,262,893 份)。


考虑表 4 中的场所,Wiley 的 ChemInform 拥有最多的出版物(421,735 篇),其次是 Elsevier 的 SSRN 电子期刊(337,223 篇)和 Springer 的 Journal On Data Semantics(330,093 篇)。


表 5 列出了 OpenCitations Meta 中所有类型的书目资源。当前数据集主要包含期刊文章(67,904,323 篇),比排名第二的书籍章节(6,476,623 篇)多出约 10 倍,比排名第三的会议论文集(5,046,165 篇)多出约 13 倍。


表 6 列出了每年的出版物数量,显示出增加的趋势,并且每年的出版物数量都在增加。


表 2:按场馆数量排名前十的出版商


表 3:出版数量排名前十的出版商


表 4:按发布数量排名前十的场馆


表 5:OpenCitations Meta 中涉及的所有书目资源类型,按该类型的出版物数量排序。参考本体包括 FaBiO (http://purl.org/spar/fabio)、DOCO (http://purl.org/spar/doco) 和 FAIR 评论 (http://purl.org/spar/fr)


表 6:按当年出版物数量排名的前十年出版物


OpenCitations Meta 允许用户通过 SPARQL (https://opencitations.net/meta/sparql) 或 API (https://opencitations.net/meta/api/v1) 探索此类数据。具体来说,OpenCitations Meta API 从一个或多个出版物标识符、作者的 ORCID 或编辑的 ORCID 开始检索书目资源和相关元数据列表。文本搜索目前正在测试中,未来将作为 OpenCitations Meta API 的进一步操作发布。具体来说,可以对标题、作者、编辑、出版商、ID 和地点进行文本搜索。只要首先指定地点,也可以对卷号和期号进行搜索。实际上,可以使用布尔连接和分离运算符组合对多个字段的搜索。例如,发布该操作后,用户将可以检索到所有由《Philosophical Studies》或《Journal of Nonlinear Science》出版的标题包含“micro-chaos”一词的书目资源:title=micro-chaos&&venue=philosophical%20studies||title=microchaos&&venue=journal%20of%20nonlinear%20science,其中“&&”为连接运算符,||为分离运算符。


最后,所有数据和出处均可根据 CC0 许可以 RDF(JSON-LD)(OpenCitations,2023b)或 CSV 格式(OpenCitations,2023a)的转储形式获得。