著者:
(1)アルカンジェロ・マッサリ、オープン学術メタデータ研究センター、ボローニャ大学古典文献学・イタリア研究科、ボローニャ、イタリア {[email protected]}
(2)ファビオ・マリアーニ、ロイプハナ大学哲学・芸術科学研究所、ドイツ、リューネブルク {[email protected]}
(3)イヴァン・ヘイビ、ボローニャ大学古典文献学・イタリア研究科オープン学術メタデータ研究センター、ボローニャ、イタリアおよびボローニャ大学古典文献学・イタリア研究科デジタル人文学先端研究センター(/DH.arc){[email protected]}
(4)シルヴィオ・ペローニ、ボローニャ大学古典文献学・イタリア研究科オープン学術メタデータ研究センター、ボローニャ、イタリアおよびボローニャ大学古典文献学・イタリア研究科デジタル人文学先端研究センター(/DH.arc){[email protected]}
(5)デイビッド・ショットン、オックスフォード大学オックスフォードe-リサーチセンター、オックスフォード、イギリス {[email protected]}。
この記事では、OpenCitations インデックスに含まれるすべての出版物の書誌メタデータを保存および配信するデータベースである OpenCitations Meta の開発に使用された方法について詳しく説明しました。このプロセスには、(1) エンティティの重複排除、エラーの修正、情報の充実を目的とした自動キュレーション分析、および (2) RDF へのデータ変換 (RDF での変更と出所の追跡を保持) という 2 つの主要なフェーズが含まれます。
新しい出版物に関する情報は、Crossref、DataCite、PubMed に継続的に追加されており、これらの新しいメタデータを OpenCitations Meta に定期的かつタイムリーに取り込む手順を開発する予定です。さらに、Japan Link Center と OpenAIRE Research Graph から書誌メタデータを取り込む作業がすでに進行中であり、人的および計算リソースが許す限り、他のソースも取り込まれる予定です。このように、OpenCitations Meta は成長し続けます。
OpenCitations Meta には 3 つの大きな利点があります。まず、保存されているすべてのエンティティに OMID (OpenCitation Meta 識別子) を使用することで、OpenCitations Meta は、複数の外部 PID を持つ可能性のある出版物 (たとえば、Crossref で DOI (デジタル オブジェクト識別子) で記述されているジャーナル記事と、PubMed で PMID (PubMed 識別子) で記述されている同じ出版物) のマッピング ハブとして機能することができ、外部 PID のないリソースを含む引用を特徴付けることも可能になります。その結果、2 つ目の利点は、OpenCitations Meta によって OpenCitations Indexes 内の引用が OMID 対 OMID として記述され、異なる識別子スキームを持つドキュメント間の引用 (たとえば、Crossref では DOI 対 DOI、PubMed では PMID 対 PMID として表される) の曖昧さが解消されることです。3 つ目は、OpenCitations Meta によって、OpenCitations Citation Indexes に保存されている引用に関連する出版物のメタデータを取得する検索操作が高速化されることです。これは、これらのメタデータが外部から取得されるのではなく、社内で保持されるようになったためです。外部リソースへのオンザフライ API 呼び出しによって。
今後の課題としては、ORCID 識別子を持たない人のための曖昧さ回避システムを詳細に作成し、既存のメタデータの品質を向上させ、検索操作とストレージ効率を高め、抄録、資金提供者 ID、資金提供情報、機関識別子のメタデータ フィールドを追加し、これらのメタデータがソースから入手可能な場合はそれらを入力することが挙げられます。
最後に、OpenCitations Meta が保持するメタデータをリアルタイムで直接手動で管理できるように、インターフェイスが実装され、信頼できるドメイン エキスパートが利用できるようになります。このようなシステムは、変更と出所を追跡し、各エンティティの異なるバージョン間の差分を保存し、変更の責任者、主要なソース、日付などの情報を保持します。このようにして、OpenCitations Meta を包括的なものにするだけでなく、学術コミュニティのメンバーが直接貢献できる、正確で完全にオープンで再利用可能な書誌メタデータ ソースにすることを目指します。
この研究は、欧州連合のホライズン 2020 研究イノベーション プログラムの助成契約番号 101017452 (OpenAIRE-Nexus プロジェクト) により部分的に資金提供を受けています。
Abramatic, J.-F., Di Cosmo, R., & Zacchiroli, S. (2018). ソースコードのユニバーサルアーカイブの構築。Communications of the ACM、61 (10)、29–31。https://doi.org/10.1145/3183558
Atzori, C., Bardi, A., Manghi, P., & Mannocci, A. (2017). OpenAIRE データ管理ワークフロー [シリーズタイトル: コンピューターと情報科学における通信]. C. Grana & L. Baraldi (編)、Digital Libraries and Archives (pp. 95–107)。Springer International Publishing. https://doi.org/10.1007/978-3-319-68130-6_8
Auer, S., Oelen, A., Haris, M., Stocker, M., D'Souza, J., Farfar, KE, Vogt, L., Prinz, M., Wiens, V., & Jaradeh, MY (2020). ナレッジグラフによる科学文献へのアクセスの改善。Bibliothek Forschung und Praxis、44 (3)、516–529。https://doi.org/10.1515/bfp-2020-2042
Board, DU (2020). DCMI メタデータ規約。2021 年 7 月 16 日に http://dublincore.org/specifications/dublin-core/dcmi-terms/2020-01- 20/ から取得。
Brase, J. (2009). DataCite - 研究データのグローバル登録機関。2009年第4回科学技術情報資源の協力と促進に関する国際会議、257–261。https: //doi.org/10.1109/COINFO.2009.66
Brase, J. (2010). Datacite - 研究データのグローバル登録機関。SSRN 電子ジャーナル。https://doi.org/10.2139/ssrn.1639998
Carroll, JJ、Bizer, C.、Hayes, P.、Stickler, P. (2005)。名前付きグラフ、出所、信頼性。第 14 回 World Wide Web 国際会議議事録 - WWW '05、613。https://doi.org/10.1145/1060745。1060835
Daquino, M., & Peroni, S. (2019). OCO、OpenCitations オントロジー。2021 年 9 月 4 日に https://w3id.org/oc/ontology/2019-09-19 から取得
Daquino, M., Peroni, S., & Shotton, D. (2020). OpenCitations データ モデル [アートワーク サイズ: 836876 バイト 発行元: figshare], 836876 バイト。https: //doi.org/10.6084/M9.FIGSHARE.3443876.V7
ダカル、K.(2019)。ペイウォールなし。医学図書館協会誌、107(2)。 https://doi.org/10.5195/jmla.2019.650
欧州委員会。研究・イノベーション総局。(2016)。欧州オープンサイエンスクラウドの実現: 欧州オープンサイエンスクラウドに関する委員会ハイレベル専門家グループによる最初の報告書と勧告。出版局。2022年10月17日取得、https://data.europa.eu/doi/10.2777/940154
Falco, R., Gangemi, A., Peroni, S., Shotton, D., & Vitali, F. (2014). Graffoo による OWL オントロジーのモデリング [シリーズタイトル: コンピュータサイエンスの講義ノート]. V. Presutti、E. Blomqvist、R. Troncy、H. Sack、I. Papadakis、A. Tordai (編)、『セマンティック ウェブ: ESWC 2014 サテライト イベント』(pp. 320–325)。Springer International Publishing. https://doi.org/10. 1007/978-3-319-11955-7_42
フリッケ、S.(2018)。セマンティックスカラー。医学図書館協会誌、106(1)。https://doi.org/10.5195/jmla.2018.280
Garcia, A., Lopez, F., Garcia, L., Giraldo, O., Bucheli, V., & Dumontier, M. (2018). Biotea: Pubmed Central 向けセマンティクス。PeerJ、6、e4201。https: //doi.org/10.7717/peerj.4201
Gentile, AL、Nuzzolese, AG (2015)。cLODg-Conference リンク オープン データ ジェネレーター。ISWC (ポスターとデモ)。
Gil, Y., Cheney, J., Groth, P., Hartig, O., Miles, S., Moreau, L., & Silva, P. (2010). Provenance XG 最終レポート [タイプ: W3C.]. http://www.w3. org/2005/Incubator/prov/XGR-prov-20101214/
Gorraiz, J., Melero-Fuentes, D., Gumpenberger, C., & Valderrama-Zurián, J.-C. (2016). Web of Science と Scopus におけるデジタルオブジェクト識別子 (DOI) の利用可能性。Journal of Informetrics, 10 (1), 98–109. https://doi.org/ 10.1016/j.joi.2015.11.008
Haak, LL, Fenner, M., Paglione, L., Pentz, E., & Ratner, H. (2012). ORCID: 研究者を一意に識別するシステム。Learned Publishing, 25 (4), 259–264. https://doi.org/10.1087/20120404
Hammond, T.、Pasin, M.、Theodoridis, E. (2017)。データの統合と分解: SHACL と OWL を使用した Springer Nature SciGraph の管理。ISWC (ポスター、デモ、業界トラック)。http://ceur-ws.org/Vol1963/paper493.pdf
原 正之 (2020). Japan Link Center (JaLC) の紹介 [アートワークサイズ: 2213661 バイト 発行元: ORCID], 2213661 バイト. https://doi.org/10. 23640/07243.12469094.V1
Heibi, I., Peroni, S., Shotton, D. (2019a). CROCI によるオープン引用のクラウドソーシング – オープン引用の現状分析と提案 [arXiv: 1902.02534]. arXiv:1902.02534 [cs]. 2021 年 9 月 15 日に http://arxiv.org/abs/1902.02534 から取得
Heibi, I., Peroni, S., Shotton, D. (2019b). ソフトウェアレビュー: COCI、Crossref オープン DOI-to-DOI 引用の OpenCitations インデックス。Scientometrics、121 (2)、1213–1228。https://doi.org/10.1007/s11192-019-03217-6
Hendricks, G., Tkaczyk, D., Lin, J., & Feeney, P. (2020). Crossref: コミュニティ所有の学術メタデータの持続可能なソース。定量科学研究、1 (1), 414–427。https://doi.org/10.1162/qss_a_00022
ICite、Hutchins、BI、Santangelo、G. (2022)。iCite データベース スナップショット (NIH オープン引用コレクション) [発行元: NIH Figshare アーカイブ]。https: //doi.org/10.35092/YHJC.C.4586573
Koivunen, M.-R.、Miller, E. (2001)。セマンティック ウェブ アクティビティ [エディション: W3C 巻: 11 02]。https://www.w3.org/2001/12/semweb-fin/w3csw
Lammey, R. (2020). 識別問題の解決策: 研究組織レジストリの概要。サイエンス編集、7 (1)、65–69。https://doi.org/ 10.6087/kcse.192
Lebo, T., Sahoo, S., & McGuinness, D. (2013). PROV-O: PROV オントロジー [場所: PROV-O 巻: 04 30]。2021 年 7 月 16 日に http://www.w3.org/TR/2013/REC-prov-o-20130430/ から取得。
Maloney, C., Sequeira, E., Kelly, C., Orris, R., & Beck, J. (2013). PubMed Central. NCBI ハンドブックに掲載。
Manghi, P., Manola, N., Horstmann, W., & Peters, D. (2010). EC 資金提供による研究成果を管理するためのインフラストラクチャ: OpenAIRE プロジェクト。Grey Journal (TGJ), 6 (1).
Massari, A., & Heibi, I. (2022). OpenCitations で承認された形式で引用データと書誌メタデータを構造化する方法。学術フルテキストの文献参照の理解に関するワークショップの議事録、3220。http://ceur-ws.org/Vol-3220/invited-talk2.pdf
Massari, A., & Peroni, S. (2022). RDF データセットに対する SPARQL によるライブタイムトラバーサルクエリの実行 [発行元: arXiv バージョン番号: 2]。https: //doi.org/10.48550/ARXIV.2210.02534
Mora-Cantallops, M.、Sánchez-Alonso, S.、García-Barriocanal, E. (2019)。 Wikidata に関する体系的な文献レビュー。データ技術とアプリケーション、53(3)、250-268。 https://doi.org/10.1108/DTA-12-2018-0110
モリソン、H. (2017). オープンアクセスジャーナルディレクトリ (DOAJ). チャールストンアドバイザー、18 (3), 25–28. https://doi.org/10.5260/chara.18.3.25
Nielsen, F. Å.、Mietchen, D.、および Willighagen, EL (2017)。Scholia、Scientometrics、および Wikidata。E. Blomqvist、K. Hose、H. Paulheim、A. Lawrynowicz、F. Ciravegna、および O. Hartig (編)、The Semantic Web: ESWC 2017 Satellite Events - ESWC 2017 Satellite Events、スロベニア、ポルトロス、2017 年 5 月 28 日 - 6 月 1 日、改訂版選択論文 (pp. 237– 259)。Springer。https://doi.org/10.1007/978-3-319-70407-4_36
Nuzzolese, AG, Gentile, AL, Presutti, V., & Gangemi, A. (2016). セマンティック ウェブ カンファレンス オントロジー - リファクタリング ソリューション。ヨーロッパ セマンティック ウェブ カンファレンス、84–87。
OpenCitations (2022)。すべての引用データの COCI CSV データセット。https://doi. org/10.6084/M9.FIGSHARE.6741422.V18
OpenCitations (2023a)。すべての書誌メタデータの OpenCitations Meta CSV データセット。https://doi.org/10.6084/M9.FIGSHARE.21747461.V3
OpenCitations. (2023b). すべての書誌メタデータとその由来情報の OpenCitations Meta RDF データセット。https://doi.org/10.6084/M9. FIGHARE.21747536.V3
Pelgrin, O., Galárraga, L., & Hose, K. (2021). RDFデータセットの完全なアーカイブ化に向けて (A.-C. Ngonga Ngomo, M. Saleem, R. Verborgh, M. Saleem, R. Verborgh, MI Ali, & O. Hartig, Eds.). セマンティックウェブジャーナル、12 (6), 903–925. https://doi.org/10.3233/SW-210434
Peroni, S., & Shotton, D. (2018). オープン引用: 定義 [アートワークサイズ: 95436 バイト 発行元: figshare], 95436 バイト。https://doi.org/10.6084/M9. FIGHARE.6683855.V1
Peroni, S., Shotton, D. (2020). OpenCitations、オープン学術のためのインフラストラクチャ組織 [_eprint: https://direct.mit.edu/qss/articlepdf/1/1/428/1760920/qss_a_00023.pdf]. 定量科学研究、1 (1)、428–444。https://doi.org/10.1162/qss_a_00023
Peroni, S.、Shotton, D.、Vitali, F. (2012)。学術出版とリンクデータ: 役割、ステータス、時間的および文脈的範囲の記述。第 8 回国際セマンティックシステム会議議事録 - I-SEMANTICS '12、9。https://doi.org/10.1145/2362499.2362502
Persiani, S.、Daquino, M.、および Peroni, S. (2022)。SPAR オントロジーと OpenCitations データ モデルに従ってデータを作成するためのプログラミング インターフェイス [シリーズ タイトル: コンピューター サイエンスの講義ノート]。P. Groth、M.-E. Vidal、F. Suchanek、P. Szekley、P. Kapanipathi、C. Pesquita、H. Skaf-Molli、および M. Tamper (編)、The Semantic Web (pp. 305–322)。Springer International Publishing。https://doi.org/10. 1007/978-3-031-06981-9_18
Pranckut˙e, R. (2021). Web of Science (WoS) と Scopus: 今日の学術界における書誌情報の巨人。出版物、9 (1), 12. https://doi.org/10.3390/publications9010012
Priem, J., Piwowar, HA, & Orr, R. (2022). OpenAlex: 学術作品、著者、会場、機関、概念の完全オープンインデックス [arXiv: 2205.01833]. CoRR, abs/2205.01833. https://doi.org/10.48550/arXiv. 2205.01833
研究、EOFN、OpenAIRE。(2013) Zenodo: 研究。共有。[発行元: CERN]。https://doi.org/10.25495/7GXK-RD71
Sigurdsson, S. (2020). arXiv の将来とオープンサイエンスにおける知識発見。学術文書処理に関する第 1 回ワークショップの議事録、7–9。https://doi.org/10.18653/v1/2020.sdp-1.2
Sikos, LF, & Philp, D. (2020). 出所を考慮した知識表現: データモデルとコンテキスト化された知識グラフの調査。データサイエンスとエンジニアリング、5 (3), 293–316。https://doi.org/10.1007/s41019-020-00118-0
Subramanian, S.、King, D.、Downey, D.、Feldman, S. (2021)。S2AND: 著者名の曖昧さ回避のためのベンチマークおよび評価システム。2021 ACM/IEEE デジタルライブラリ合同会議 (JCDL)、170–179。https://doi.org/10.1109/JCDL52503.2021.00029
Tanon, TP, Vrandecic, D., Schaffert, S., Steiner, T., & Pintscher, L. (2016). Freebase から Wikidata へ: 大移動。J. Bourdeau、J. Hendler、R. Nkambou、I. Horrocks、BY Zhao (編)、Proceedings of the 25th International Conference on World Wide Web、WWW 2016、モントリオール、カナダ、2016 年 4 月 11 日 - 15 日 (pp. 1419–1428)。ACM。https: //doi.org/10.1145/2872427.2874809
ヨーロッパ PMC コンソーシアム (2015)。ヨーロッパ PMC: ライフサイエンスの全文文献データベースとイノベーションのプラットフォーム。核酸研究、43 (D1)、D1042–D1048。https://doi.org/10.1093/nar/gku1061
Tillett, B. (2005). FRBRとは何か? 書誌世界の概念モデル。オーストラリア図書館ジャーナル、54 (1), 24–30。https://doi. org/10.1080/00049670.2005.10721710
Vision, T. (2010)。Dryad デジタルリポジトリ: より大規模なデータエコシステムの一部として公開された進化データ。Nature Precedings。https://doi. org/10.1038/npre.2010.4595.1
Wilkinson, MD、Dumontier, M.、Aalbersberg, IJ、Appleton, G.、Axton, M.、Baak, A.、Blomberg, N.、Boiten, J.-W.、da Silva Santos, LB、Bourne, PE、Bouwman, J.、Brookes, AJ、Clark, T.、Crosas, M.、Dillo, I.、Dumon, O.、Edmunds, S.、Evelo, CT、Finkers, R.、. . . Mons, B. (2016)。科学データの管理と管理に関する FAIR の指導原則。Scientific Data、3 (1)、160018。https://doi.org/10. 1038/sdata.2016.18
Wolf, M., & Wicksteed, C. (1997). 日付と時刻の形式。2022 年 5 月 9 日に https://www.w3.org/TR/NOTE-datetime から取得
Zhang, Z.、Nuzzolese, AG、Gentile, AL (2017)。ScholarlyData のエンティティ重複排除 [シリーズタイトル: コンピュータサイエンスの講義ノート]。E. Blomqvist、D. Maynard、A. Gangemi、R. Hoekstra、P. Hitzler、O. Hartig (編)、『セマンティック ウェブ』(pp. 85–100)。Springer International Publishing。https://doi.org/10.1007/978-3-319-58068-5_6
この論文は、CC 4.0 DEED ライセンスの下でarxiv で公開されています。