著者:
(1)アルカンジェロ・マッサリ、オープン学術メタデータ研究センター、ボローニャ大学古典文献学・イタリア研究科、ボローニャ、イタリア {[email protected]}
(2)ファビオ・マリアーニ、ロイプハナ大学哲学・芸術科学研究所、ドイツ、リューネブルク {[email protected]}
(3)イヴァン・ヘイビ、ボローニャ大学古典文献学・イタリア研究科オープン学術メタデータ研究センター、ボローニャ、イタリアおよびボローニャ大学古典文献学・イタリア研究科デジタル人文学先端研究センター(/DH.arc){[email protected]}
(4)シルヴィオ・ペローニ、ボローニャ大学古典文献学・イタリア研究科オープン学術メタデータ研究センター、ボローニャ、イタリアおよびボローニャ大学古典文献学・イタリア研究科デジタル人文学先端研究センター(/DH.arc){[email protected]}
(5)デイビッド・ショットン、オックスフォード大学オックスフォードe-リサーチセンター、オックスフォード、イギリス {[email protected]}。
セクション 2 で示したように、セマンティック パブリッシング データセットのみを考慮すると、現在 Crossref、DataCite、NIH Open Citation Collection (ICite 他、2022) のデータを含む OpenCitations Meta がデータ量でトップです。さらに、Japan Link Center (Hara、2020)、OpenAIRE Research Graph (Atzori 他、2017)、Dryad Digital Repository (Vision、2010) などの新しいソースからデータを取り込む作業がすでに進行中です。
OpenAIRE Research Graph と比較すると、OpenCitations Meta には機能面での利点があります。具体的には、OpenCitations Meta 内のすべてのエンティティを識別するために内部的に使用される、グローバルに一意の永続的な識別子である OMID の使用です。この使用により、デジタル オブジェクト識別子 (DOI) などの外部の永続的な識別子がない書誌リソース間の引用を表し、インデックス付けすることが可能になります。この機能は、OpenCitations Indexes に大きな価値を追加します。特に、人文科学と社会科学の出版物間の引用 (Gorraiz 他、2016) や、通常は永続的な識別子がない、彫像、絵画、写本などの一次資料に関する引用など、これまで特徴付けることができなかった多くの引用を初めて取り込むことができるためです。重要なのは、OMID があると、識別されたリソースに一意の URL を割り当てることができることです。たとえば、omid:br/061401975837 の場合は https://w3id.org/oc/meta/br/061401975837 になります。
私たちの知る限り、OpenCitations Meta にのみ存在するもう 1 つの機能は、RDF に保存された出所情報内の変更追跡管理のメカニズムです。この情報は、Python の timeagnostic-library ソフトウェア (Massari & Peroni、2022) を使用してクエリできます。タイム トラバーサル SPARQL クエリ、つまり出所情報とともに異なるスナップショット間のクエリを実行できます。
セマンティック ウェブ テクノロジーを使用しない他の書誌データセットに関しては、OpenAlex (Priem 他、2022) は OpenCitations Meta との比較で考慮すべき重要なケースです。OpenAlex は Web クロールを使用して欠落しているメタデータを追加します。この機能により、OpenCitations Meta と比較すると、ソースのデータに表示されるエラーをより多く自動的に修正できます。
実際、現在、OpenCitations Meta の主な制限はデータの品質に関するもので、これは厳密にソースの品質に依存しています。Crossref は出版社が提供するメタデータを二重チェックしないため、多くのエラーが保持されます。たとえば、将来公開される記事に遭遇する可能性があります (https://api.crossref.org/v1/works/10.12960/tsh.2020.0006 で利用可能なメタデータによると、記事は 2029 年に印刷版で公開される予定です)。これらのエラーの一部は、背景知識がなくても自動的に修正できますが、その他のエラーには Web クローラーの使用または手動介入が必要です。OpenAlex が Web クロールの道を追求している一方で、OpenCitations は信頼できる人間のドメイン専門家 (学術図書館員など) によるデータの編集とキュレーションを可能にするフレームワークに取り組んでいます。
OpenCitations Meta は、OpenCitations Indexes 内の引用に含まれる引用元および引用先の出版物を記述するために必要な書誌メタデータを保持することで、その主な目的を果たします。ただし、これらの書誌メタデータ要素に加えて、学術コミュニティにとって非常に重要な追加のメタデータ要素があることは十分に認識しています。要約は、テキスト マイニング、ドメインおよび主題分野の決定、および索引付けに使用されます (出版物の全文が他の場所でオープン アクセスで利用できる場合でも)。また、資金提供者 ID、資金提供情報、および機関識別子は、パフォーマンス メトリックの決定と研究評価の実行に不可欠です。テキスト検索操作の提供を完了し、示された方法で対象範囲を拡大し、OpenCitations Meta と OpenCitations Indexes が実行される計算インフラストラクチャを強化したら、これらの追加のメタデータ フィールドの統合と入力に進みます。
高品質の書誌メタデータの提供は、自動化された操作では達成するのが複雑で困難な目標であり、操作の規模から、少数のレコードを除いて手動によるキュレーションは不可能です。現在、書誌データセットは単独ではこの目標を達成できません。このため、利用可能なすべての書誌データベースは補完的なものとして見なされるべきです。たとえば、現時点では OpenAlex の方が高品質のメタデータを提供していますが、OpenCitations Meta は完全な来歴データを公開しており、セマンティック ウェブ テクノロジによってもたらされる可能性のおかげで、より複雑な検索が可能です。たとえば、「2009 年以降に Springer によって出版された会議議事録で Silvio Peroni または Fabio Vitali と共著したすべての著者を検索する」などです。さらに、OpenAlex は部分的にしか無料ではありません。API 経由で 1 日あたり 10 万件を超えるリクエストを送信し、API 経由で 1 時間ごとに更新されるデータにアクセスするには料金を支払う必要があるためです (ダンプ経由で毎月更新されるデータではなく) [9]。対照的に、ユーザーは最新バージョンの OpenCitations Meta に無料で無制限にリクエストを行うことができます。
また、OpenAIRE Research Graph には現在より多くのメタデータが含まれていますが、そのようなデータは CC-BY 帰属ライセンスの下で公開されています。一方、OpenCitations Meta によって公開されたデータは CC0 パブリック ドメイン免除の下で公開されており、商用再利用を含む再利用の完全な自由と、帰属表示を必要とせずに機械処理が許可されています。
この論文は、CC 4.0 DEED ライセンスの下でarxiv で公開されています。