paint-brush
OpenCitations Meta: 概要と序文@categorize
106 測定値

OpenCitations Meta: 概要と序文

長すぎる; 読むには

featured image - OpenCitations Meta: 概要と序文
Categorize.Tech: Organizing the World of Software HackerNoon profile picture
0-item

著者:

(1)アルカンジェロ・マッサリ、オープン学術メタデータ研究センター、ボローニャ大学古典文献学・イタリア研究科、ボローニャ、イタリア {[email protected]}

(2)ファビオ・マリアーニ、ロイプハナ大学哲学・芸術科学研究所、ドイツ、リューネブルク {[email protected]}

(3)イヴァン・ヘイビ、ボローニャ大学古典文献学・イタリア研究科オープン学術メタデータ研究センター、ボローニャ、イタリアおよびボローニャ大学古典文献学・イタリア研究科デジタル人文学先端研究センター(/DH.arc){[email protected]}

(4)シルヴィオ・ペローニ、ボローニャ大学古典文献学・イタリア研究科オープン学術メタデータ研究センター、ボローニャ、イタリアおよびボローニャ大学古典文献学・イタリア研究科デジタル人文学先端研究センター(/DH.arc){[email protected]}

(5)デイビッド・ショットン、オックスフォード大学オックスフォードe-リサーチセンター、オックスフォード、イギリス {[email protected]}。

リンク一覧

抽象的な

OpenCitations Meta は、OpenCitations インフラストラクチャによってインデックス付けされた引用に関係する学術出版物の書誌メタデータを含む新しいデータベースです。Open Science の原則に準拠し、最大限の再利用のために CC0 ライセンスの下でデータを提供します。データには、SPARQL エンドポイント、REST API、およびダンプを介してアクセスできます。OpenCitations Meta には 3 つの重要な目的があります。まず、さまざまなソースからの異なる識別子を使用して記述された出版物間の引用の曖昧さを解消できます。たとえば、Crossref の DOI と PubMed の PMID で識別される出版物をリンクできます。次に、DOI などの既存の外部永続識別子なしで、OpenCitations Meta 識別子 (OMID) と呼ばれる新しいグローバル永続識別子 (PID) を書誌リソースに割り当てます。最後に、書誌メタデータを内部でホストすることにより、OpenCitations Meta は引用ドキュメントと被引用ドキュメントのメタデータ取得速度を向上させます。データベースは、重複排除、エラー修正、メタデータ強化などの自動データキュレーションによって作成されます。データは OpenCitations データ モデルに従って RDF 形式で保存され、変更と出所情報が追跡されます。OpenCitations Meta とその生成。OpenCitations Meta は現在、Crossref、DataCite、および NIH Open Citation Collection からのデータを組み込んでいます。セマンティック パブリッシング データセットに関しては、現在、データ量で第 1 位です。



キーワード- 学術引用、書誌メタデータ、来歴、変更追跡、オープンサイエンス、OpenCitations

1. はじめに

OpenCitations は、セマンティック ウェブ テクノロジーを使用してオープンな書誌データと引用データを公開することを目的とした、オープン スカラーシップのための独立した非営利インフラストラクチャ組織です。OpenCitations は、引用エンティティと被引用エンティティを結び付ける概念的なリンクである学術引用に関する情報を OpenCitations インデックスに保存および管理します。これまでに、4 つの OpenCitations インデックスがありました。COCI (https://opencitations.net/index/coci)、Crossref オープン DOI 間引用の OpenCitations インデックス (Heibi ら、2019b)、POCI (https://opencitations.net/index/poci)、PubMed オープン PMID 間引用の OpenCitations インデックス、DOCI (https://opencitations.net/index/doci)、DataCite オープン DOI 間引用の OpenCitations インデックスです。および CROCI (https://opencitations.net/index/croci)、クラウドソーシングオープン引用インデックス (Heibi et al.、2019a)。


OpenCitations Indexes の対象範囲は、商用の独自引用索引の対象範囲とほぼ同等になっていますが (https://opencitations.hypotheses.org/1420 を参照)、OpenCitations ではこれまで対処されていなかった未解決の問題が残っています。


まず、引用の曖昧さの解消です。書誌リソースには、DOI や PMID などの複数の識別子が割り当てられている場合があります。このような場合、データ ソースによっては、同じ引用が複数の方法で表現されることがあります。たとえば、OpenCitations は、COCI では、Crossref から取得したメタデータを使用して DOI から DOI への引用として 2 つの出版物間の引用を記述し、POCI では、PubMed から取得したメタデータを使用して PMID から PMID への引用として同じ引用を記述します。この重複は、各ドキュメントの入ってくる引用と出ていく引用の数を数えるときに問題を引き起こします。これは、図書館、ジャーナル、およびサイエントメトリクス研究にとって重要な統計です。OpenCitations Meta を使用すると、このような引用の重複を排除し、このような重複によって発生する問題を解決できます。


第二に、文書にグローバルに永続的な識別子を割り当てることは、すべての学術分野で普遍的な慣行ではありません。Gorraiz ら (2016) は、自然科学と社会科学のコミュニティが芸術と人文科学のコミュニティよりもはるかに広範囲に DOI を採用していることを示しました。Scopus と Web of Science Core Collection で実施されたこの調査から、自然科学と社会科学の出版物のほぼ 90% が DOI に関連付けられているのに対し、芸術と人文科学ではその数字は 50% に過ぎないことが明らかになりました。さらに、人文科学に関しては、多くの分野 (歴史など) で DOI のない古代の一次資料 (アリストテレスなど) の引用が求められています。文書に識別子がない場合、そのメタデータは、学術デジタル研究オブジェクトは検索可能、アクセス可能、相互運用可能、再利用可能である必要があるという FAIR 原則 (Wilkinson ら、2016) を尊重しません。メタデータを検索可能かつアクセス可能にするには、グローバルに一意で永続的な識別子が不可欠です。さらに、識別子のない書誌リソースは、それを含む引用を FAIR 原則に従って記述することを妨げます。これが、OpenCitations インデックスの母集団を規定する Open Citation Definition (Peroni & Shotton、2018) によれば、インデックスされた引用によってリンクされた 2 つのエンティティは、両方とも同じ識別子スキームに由来する永続的な識別子によって識別される必要がある理由です (たとえば、両方とも DOI を持つか、両方とも PubMed ID を持つ)。たとえば、COCI (Heibi et al.、2019b) は、引用エンティティと引用エンティティが Crossref で記述され、両方とも DOI を持つ場合にのみ引用情報を保存します。DOI またはその他の認識された PID がない出版物を含む引用は、これまで OpenCitations 引用インデックスから除外されていました。


しかし現在、OpenCitations Meta は、複数の識別子で識別される書誌リソースや永続的な識別子を持たない書誌リソースによって生じる問題を解決し、OpenCitations Meta で記述される各ドキュメントに新しいグローバル永続識別子、つまり OpenCitations Meta 識別子 (OMID) を関連付けています。このようにして、すべての引用を OMID 対 OMID の引用として表すことができます (図 1)。OpenCitations Meta に格納されるすべてのエンティティに一意の識別子を提供することで、エンティティの OMID は各エンティティに使用されるさまざまな外部識別子間のプロキシとして機能し、曖昧さの解消を可能にします。さらに、OpenCitations Meta には、メタデータのソースによって外部永続識別子が提供される必要がなく、それぞれが OMID で識別されるすべての学術出版物のメタデータを含めることができます。


このように、OpenCitations Meta のおかげで、すべての学術出版物のメタデータを OpenCitations で保存できるようになり、そのようなすべての出版物をリンクする引用を新しい包括的な OpenCitations Index に含めることができるようになりました。他のインデックス (COCI、DOCI、POCI など) は、引用情報のさまざまな入力ソースに応じてサブインデックスになります。


3 つ目は、OpenCitations のサービス、特に引用元および被引用元リソースの基本的な書誌メタデータを返す API 操作の、これまでのパフォーマンスが低かったことです。これは、OpenCitations インデックス自体がこれまで引用関連のメタデータ (引用は独自のメタデータを持つファースト クラス データ エンティティとして扱われる) のみを含んでおり、引用元および被引用元エンティティに関連する書誌メタデータ (タイトル、著者、ページ番号など) を保持していなかったためです。むしろ、これらのメタデータはこれまで、Crossref、ORCID、DataCite などの外部サービスへの明示的な API リクエストによってオンザフライで取得されていました。


過去 3 年間、上記の問題に対処するため、現在使用しているソフトウェアを開発およびテストし、新しい書誌メタデータ コレクションである OpenCitations Meta を作成し、2022 年 12 月にリリースしました。このデータベースをサポートするソフトウェアはオープン ソースであり、https://github.com/opencitations/oc_meta で入手できます。OpenCitations Meta によって公開されるメタデータには、学術書誌リソースを記述する基本的な書誌メタデータが含まれます。具体的には、書誌リソースのすべての既知の書誌リソース識別子 (DOI、PMID、ISSN、ISBN など)、タイトル、タイプ、発行日、ページ、リソースの掲載場所、掲載場所がジャーナルである場合の巻数と号数が格納されます。さらに、OpenCitations Meta には、各書誌リソースの発行に関与する主な関係者に関するメタデータ、つまり著者、編集者、発行者の名前が含まれており、それぞれに独自の永続的な識別子 (ORCID など) が利用可能な場合は含まれています。後日、追加のメタデータ フィールド (著者の所属機関や資金提供情報など) を追加する予定です。


図1: 文書が複数の識別子で記述されている場合、たとえば、CrossrefのDOIとPubmedのPMIDの場合、その文書に関連する引用は複数の方法で記述される可能性があり、曖昧さと重複排除の問題が生じます。OpenCitationsメタ識別子を使用すると、異なる外部識別子間のプロキシとして機能することでこの問題が解決されます。


OpenCitations Meta を生成するプロセスは、2 つのステップに分けられます。最初のステップでは、入力データのキュレーションを行います。キュレーションの手順では、エラーの自動修正、データ形式の標準化、同じ項目の個別のメタデータ エントリの重複排除を行います。重複排除プロセスは識別子のみに基づいています。このアプローチでは、再現率よりも精度を重視します。たとえば、重複排除は ORCID が割り当てられている場合にのみ行われ、他のヒューリスティックによって重複排除されることはありません。正規化と重複排除の段階の後、各エンティティには、外部の永続的な識別子 (DOI、PubMed ID、ISBN など) がすでにあるかどうかに関係なく、OpenCitations Meta 識別子 (OMID) が割り当てられます。


OpenCitations Meta にデータを入力する 2 番目のステップでは、生の入力データを OpenCitations Data Model (OCDM) (Daquino 他、2020) に準拠した RDF (Linked Open Data 形式) に変換し、SPARQL 経由でそのようなデータをクエリできるようにします。このプロセスでは、出所と変更の追跡に細心の注意が払われます。エンティティが作成、変更、削除、またはマージされるたびに、そのような変更は RDF に記録され、作成日、主要なソース、および責任のあるエージェントによって特徴付けられます。


論文の残りの部分は、次のように構成されています。セクション 2 では、他のセマンティック パブリッシング データセットについて検討します。続いて、セクション 3 では、OpenCitations Meta を作成するために採用された方法論的アプローチについて詳しく説明します。キュレーション フェーズ (3.1) から始まり、エラー修正 (3.2) について説明し、OCDM に従った RDF へのデータ変換 (3.3) の説明に移り、RDF の起源と変更追跡データの作成 (3.4) について説明します。セクション 4 では、現在の OpenCitations Meta データセットに関する記述統計を示します。最後に、セクション 5 では、OpenCitations Meta の現在の制限について説明し、同様の学術データセットの中で OpenCitations Meta がどのような位置を占めているかを検討します。


この論文は、CC 4.0 DEED ライセンスの下でarxiv で公開されています