著者:
(1)アルカンジェロ・マッサリ、オープン学術メタデータ研究センター、ボローニャ大学古典文献学・イタリア研究科、ボローニャ、イタリア {arcangelo.massari@unibo.it}
(2)ファビオ・マリアーニ、ロイプハナ大学哲学・芸術科学研究所、ドイツ、リューネブルク {fabio.mariani@leuphana.de}
(3)イヴァン・ヘイビ、ボローニャ大学古典文献学・イタリア研究科オープン学術メタデータ研究センター、ボローニャ、イタリアおよびボローニャ大学古典文献学・イタリア研究科デジタル人文学先端研究センター(/DH.arc){ivan.heibi2@unibo.it}
(4)シルヴィオ・ペローニ、ボローニャ大学古典文献学・イタリア研究科オープン学術メタデータ研究センター、ボローニャ、イタリアおよびボローニャ大学古典文献学・イタリア研究科デジタル人文学先端研究センター(/DH.arc){silvio.peroni@unibo.it}
(5)デイビッド・ショットン、オックスフォード大学オックスフォードe-リサーチセンター、オックスフォード、イギリス {david.shotton@opencitations.net}。
このセクションでは、サブスクリプションなしでアクセスできる最も重要な学術出版データセット、つまり学術書誌メタデータを保持する公開データセットについて説明します。OpenCitations Meta はセマンティック ウェブ技術を使用してデータを表すため、Wikidata、Springer Nature SciGraph、BioTea、OpenResearch Knowledge Graph、Scholarly Data などの RDF データセットに特に注目します。さらに、OpenAIRE Research Graph、OpenAlex、Scholarly Data についても説明します。これらは、データをセマンティックに表すものではありませんが、作品の数の点で最も広範なデータセットです。
OpenAlex (Priem et al., 2022) は、2022年1月1日にMicrosoft Academic Graphの灰の中から蘇り、そのメタデータをすべて継承しました。これには、Crossref (Hendricks et al., 2020)、Pubmed (Maloney et al., 2013)、ORCID (Haak et al., 2012)、ROR (Lammey, 2020)、DOAJ (Morrison, 2017)、Unpaywall (Dhakal, 2019)、arXiv (Sigurdsson, 2020)、Zenodo (Research & OpenAIRE, 2013)、ISSN International Centre[1]、およびInternet ArchiveのGeneral Index[2]のデータが含まれています。さらに、Webクロールを使用して、不足しているメタデータを追加します。2億4千万以上の作品[3]を擁するOpenAlexは、これまでで最も広範な書誌メタデータデータセットです。 OpenAlex は各リソースに永続的な識別子を割り当てます。さらに、共著者、引用、書誌リソースのその他の特徴に基づくヒューリスティックによって著者が明確にされます。データは CC0 ライセンスの下で配布され、API、Web インターフェイス、または OpenAlex データベースの完全なスナップショット コピーをダウンロードすることでアクセスできます。
OpenAIRE プロジェクトは、欧州委員会のオープン アクセス義務の採用をサポートするために 2008 年に開始されました (Manghi 他、2010)。現在では、欧州オープン サイエンス クラウドを実現するための Horizon 2020 研究イノベーション プログラム内の旗艦組織となっています (欧州委員会、研究イノベーション総局、2016)。その主要な成果の 1 つが OpenAIRE Research Graph で、これには学術成果 (文献、データセット、ソフトウェアなど)、組織、研究資金提供者、資金源、プロジェクト、コミュニティに関するメタデータと、来歴情報が含まれています。データはさまざまなソースから収集されています (Atzori 他、2017)。アーカイブ (例: ArXiv (Sigurdsson、2020)、Europe PMC (The Europe PMC Consortium、2015)、Software Heritage (Abramatic 他、2018)、Zenodo (Research & OpenAIRE、2013))。アグリゲーターサービス、例えばDOAJ (Morrison、2017) や OpenCitations (Peroni & Shotton、2020)、その他の研究グラフ、例えばCrossref (Hendricks et al.、2020) や DataCite (Brase、2009)。2023年6月現在、このOpenAIREデータセットは232,174,001の研究成果[4]で構成されていました。OpenAIREによって実装された重複排除プロセスは、PIDだけでなく、著者数やタイトルのレーベンシュタイン距離などの他のヒューリスティックも考慮に入れています。ただし、OpenAIREがエンティティに関連付ける内部識別子は永続的ではなく、データが更新されると変更される可能性があります。OpenAIRE Research Graphのデータには、APIとExploreインターフェースを介してアクセスできます。ダンプは、Creative Commons Attribution 4.0 International Licenceの下でも利用できます。
Semantic Scholarは、2015年にアレン人工知能研究所によって導入されました(Fricke、2018)。これは、人工知能を使用してユーザーの検索に最も関連性の高い論文のみを選択し、自動要約を作成するなどして探索を簡素化する検索エンジンです。Semantic Scholarは、Webインデックスと科学雑誌、インデックス、コンテンツプロバイダーとのパートナーシップを通じてコンテンツを入手しています。その中には、計算言語学協会、ケンブリッジ大学出版局、IEEE、PubMed、Springer Nature、MIT Press、Wiley、arXiv、HAL、PubMedなどがあります。2023年6月現在、212,605,886件の学術作品がインデックスされています[5]。著者は人工知能モデル(Subramanian et al.、2021)によって曖昧性が解消され、Semantic Scholar IDに関連付けられ、著者ごとにページが自動的に生成され、本人が引き換えることができます。 Semantic Scholar は Web インターフェイスと API を提供し、完全なデータセットは Open Data Commons Attribution Licence (ODCBy) v1.0 に基づいてダウンロードできます。
Wikidataは、Wikipedia、Wikivoyage、Wiktionary、Wikisourceなどの他のWikimediaプロジェクトのRDFデータを格納するためのオープンナレッジベースとして、2012年にWikimedia Deutschlandによって導入されました(Mora-Cantallops et al., 2019)。その成功により、Googleは2014年に「構造化データ用のWikipedia」となることを意図していたFreebaseを閉鎖し、Wikidataに移行しました(Tanon et al., 2016)。2016年以来、WikiCiteプロジェクトは書誌データベースとしてのWikidataの進化に大きく貢献しており、2023年6月までにWikidataには39,864,447件の学術論文の説明が含まれています[6]。あらゆるエンティティ(書誌リソースを含む)を参照する内部 Wikidata 識別子は、DOI、PMID、PMCID、arXiv、ORCID、Google Scholar、VIAF、Crossref funder ID、ZooBank、Twitter など、多数の外部識別子に関連付けられています。データは、Turtle および NTriples の RDF ダンプとして CC0 ライセンスで公開されています。ユーザーは、Web インターフェイスの SPARQL 経由で、また 2017 年以降は Scholia 経由で閲覧できます。Scholia は、リアルタイムの SPARQL クエリを実行して研究者、組織、ジャーナル、出版社、学術作品、研究トピックのプロファイルを生成する Web サービスであり、貴重なインフォグラフィックも生成します (Nielsen 他、2017)。
OpenAIRE Research GraphとWikidataは多くの異種ソースを集約していますが、Springer Nature SciGraph(Hammond et al., 2017)は、Springer Natureとそのパートナーからのデータのみを集約しています。出版物、所属、研究プロジェクト、資金提供者、会議に関するエンティティが含まれており、合計1,400万以上の研究成果が含まれています[7]。現在、パブリックSPARQLエンドポイントを提供する予定はありませんが、ブラウザインターフェースを介してデータを探索する可能性はあり、ダンプはCC-BYライセンスの下でJSON-LD形式で毎月リリースされます。
BioTea もドメイン指向のデータセットであり、RDF テクノロジを使用して、PubMed Central (PMC-OA) (Garcia 他、2018) の注釈付き全文オープンアクセス サブセットを表します。2018 年の論文の時点で、データセットには 150 万の書誌リソースが含まれていました。他のデータセットとは異なり、BioTea はメタデータと引用を記述し、注釈付き全文を意味的に定義します。名前付きエンティティ認識分析を採用して、バイオメディカル オントロジーに関連する表現と用語を識別し、注釈として記録します (例: 生体分子、薬物、疾患について)。BioTea データは、Creative Commons Attribution Non-Commercial 4.0 International ライセンスの下で、RDF/XML および JSON-LD 形式のダンプとしてリリースされていますが、SPARQL エンドポイントは現在オフラインです。
注目すべきアプローチは、Open Research Knowledge Graph (ORKG) (Auer et al., 2020) が採用しているアプローチです。メタデータは主に、クラウドソーシングを介して信頼できるエージェントによって収集されるか、Crossref から自動的に収集されます。ただし、ORKG の主な目的はメタデータを整理することではなく、サービスを提供することです。これらのサービスの主な範囲は、単語埋め込みを使用して文献比較分析を実行し、類似性分析を可能にし、関連する作品の探索とリンクを促進することです。このような高度な分析を可能にするには、Crossref からのメタデータだけでは不十分です。したがって、トピック、結果、方法、教育的背景、評価者に関する構造化された注釈を各リソースに対して手動で指定する必要があります。データセットには (2023 年 6 月現在) 25,680 件の論文[8]、5153 件のデータセット、1364 件のソフトウェア、71 件のレビューが含まれています。ORKG データセットの作成に対する人間の貢献の重要性を考慮して、プラットフォームは RDF 形式ではありませんが、変更と来歴を追跡します。データは、Web インターフェース、SPARQL、API を通じて探索でき、CC BY-SA ライセンスに基づいてダウンロードすることもできます。
ScholarlyData は、セマンティック ウェブに関する会議やワークショップに関する情報のみを収集しています (Nuzzolese 他、2016)。データは、会議オントロジーに従ってモデル化されています。会議オントロジーは、採択された論文、著者、所属、組織委員会など、学術会議の一般的なエンティティを記述しますが、書誌情報は記述しません。2023 年 6 月までに、データセットには 5678 件の会議論文に関する情報が格納されました。このようなデータセットは、CSV ファイルから RDF を出力する Conference Linked Open Data ジェネレーター ソフトウェアを使用して更新されます (Gentile & Nuzzolese、2015)。エージェントの重複排除は、教師あり分類法 (Zhang 他、2017) を使用して URI のみに基づいて行われ、ORCID は別のステップで追加されます。この方法論では、同音異義語の存在には対処していません。ただし、インデックス付けされる会議には数千人しか関与していないため、これは ScholarlyData にとって小さな問題です。 ScholarlyData は SPARQL エンドポイント経由で探索でき、ダンプは Creative Commons Attribution 3.0 Unported ライセンスの下で RDF/XML 形式で利用できます。
最後に、上記の他のデータセットのいずれも、変更追跡データと関連する来歴情報を RDF で公開していないことを指摘しておきます。
表 1 は、各データセットで行われたすべての考慮事項をまとめたものです。
この論文は、CC 4.0 DEED ライセンスの下でarxiv で公開されています。
[1] https://www.issn.org/
[2] https://archive.org/details/GeneralIndex
[3] https://docs.openalex.org/api-entities/works
[4] https://explore.openaire.eu/search/find/research-outcomes
[5] https://www.semanticscholar.org/
[6] https://scholia.toolforge.org/statistics
[7] https://scigraph.springernature.com/explorer/datasets/data_at_a_glance/
[8] https://orkg.org/papers