paint-brush
OpenCites Meta: Tác phẩm liên quantừ tác giả@categorize

OpenCites Meta: Tác phẩm liên quan

dài quá đọc không nổi

featured image - OpenCites Meta: Tác phẩm liên quan
Categorize.Tech: Organizing the World of Software HackerNoon profile picture
0-item

tác giả:

(1) Arcangelo Massari, Trung tâm Nghiên cứu Siêu dữ liệu Học thuật Mở, Khoa Ngữ văn Cổ điển và Nghiên cứu Ý, Đại học Bologna, Bologna, Ý {[email protected]};

(2) Fabio Mariani, Viện Triết học và Khoa học Nghệ thuật, Đại học Leuphana, Lüneburg, Đức {[email protected]};

(3) Ivan Heibi, Trung tâm Nghiên cứu Siêu dữ liệu Học thuật Mở, Khoa Ngữ văn Cổ điển và Nghiên cứu Ý, Đại học Bologna, Bologna, Ý và Trung tâm Nghiên cứu Tiên tiến về Nhân văn Kỹ thuật số (/DH.arc), Khoa Ngữ văn Cổ điển và Nghiên cứu Ý, Đại học của Bologna, Bologna, Ý {[email protected]};

(4) Silvio Peroni, Trung tâm Nghiên cứu Siêu dữ liệu Học thuật Mở, Khoa Ngữ văn Cổ điển và Nghiên cứu Ý, Đại học Bologna, Bologna, Ý và Trung tâm Nghiên cứu Tiên tiến về Nhân văn Kỹ thuật số (/DH.arc), Khoa Ngữ văn Cổ điển và Nghiên cứu Ý, Đại học của Bologna, Bologna, Ý {[email protected]};

(5) David Shotton, Trung tâm nghiên cứu điện tử Oxford, Đại học Oxford, Oxford, Vương quốc Anh {[email protected]}.

Bảng liên kết

2. Công trình liên quan

Trong phần này, chúng tôi sẽ xem xét các bộ dữ liệu xuất bản mang tính học thuật quan trọng nhất mà việc truy cập không cần phải đăng ký, tức là các bộ dữ liệu có sẵn công khai chứa siêu dữ liệu thư mục học thuật. Do OpenCites Meta sử dụng các công nghệ Web ngữ nghĩa để biểu diễn dữ liệu nên sẽ đặc biệt chú ý đến các bộ dữ liệu RDF, cụ thể là Wikidata, Springer Nature SciGraph, BioTea, OpenResearch Knowledge Graph và Scholarly Data. Ngoài ra, Đồ thị nghiên cứu OpenAIRE, OpenAlex và Dữ liệu học thuật sẽ được mô tả, vì chúng là các bộ dữ liệu phong phú nhất xét về số lượng tác phẩm, mặc dù chúng không biểu thị dữ liệu về mặt ngữ nghĩa.


OpenAlex (Priem và cộng sự, 2022) đã trỗi dậy từ đống tro tàn của Microsoft Academic Graph vào ngày 1 tháng 1 năm 2022 và kế thừa tất cả siêu dữ liệu của nó. Nó bao gồm dữ liệu từ Crossref (Hendricks và cộng sự, 2020), Pubmed (Maloney và cộng sự, 2013), ORCID (Haak và cộng sự, 2012), ROR (Lammey, 2020), DOAJ (Morrison, 2017), Unpaywall ( Dhakal, 2019), arXiv (Sigurdsson, 2020), Zenodo (Research & OpenAIRE, 2013), Trung tâm quốc tế ISSN[1] và Danh mục chung của Internet Archive[2]. Ngoài ra, việc thu thập thông tin trên web được sử dụng để thêm siêu dữ liệu bị thiếu. Với hơn 240 triệu tác phẩm[3], OpenAlex là bộ dữ liệu siêu dữ liệu thư mục phong phú nhất cho đến nay. OpenAlex chỉ định số nhận dạng liên tục cho từng tài nguyên. Ngoài ra, các tác giả được phân định thông qua các phương pháp phỏng đoán dựa trên các đồng tác giả, các trích dẫn và các đặc điểm khác của nguồn tài nguyên thư mục. Dữ liệu được phân phối theo giấy phép CC0 và có thể được truy cập thông qua API, giao diện web hoặc tải xuống bản sao chụp nhanh đầy đủ của cơ sở dữ liệu OpenAlex.


Dự án OpenAIRE bắt đầu vào năm 2008 để hỗ trợ việc áp dụng các chỉ thị Truy cập Mở của Ủy ban Châu Âu (Manghi và cộng sự, 2010), và bây giờ nó là tổ chức hàng đầu trong chương trình nghiên cứu và đổi mới Horizon 2020 để hiện thực hóa Đám mây Khoa học Mở Châu Âu (Châu Âu). Ủy ban. Tổng cục Nghiên cứu và Đổi mới., 2016). Một trong những kết quả chính của nó là Đồ thị nghiên cứu OpenAIRE, bao gồm siêu dữ liệu về các kết quả đầu ra học thuật (ví dụ như tài liệu, bộ dữ liệu và phần mềm), các tổ chức, nhà cấp vốn nghiên cứu, dòng cấp vốn, dự án và cộng đồng, cùng với thông tin xuất xứ. Dữ liệu được thu thập từ nhiều nguồn khác nhau (Atzori và cộng sự, 2017): kho lưu trữ, ví dụ ArXiv (Sigurdsson, 2020) Europe PMC (The Europe PMC Consortium, 2015), Software Heritage (Abramatic et al., 2018) và Zenodo ( Nghiên cứu & OpenAIRE, 2013); dịch vụ tổng hợp, ví dụ DOAJ (Morrison, 2017) và OpenCites (Peroni & Shotton, 2020); và các biểu đồ nghiên cứu khác, ví dụ Crossref (Hendricks và cộng sự, 2020) và DataCite (Brase, 2009). Tính đến tháng 6 năm 2023, bộ dữ liệu OpenAIRE này bao gồm 232.174.001 sản phẩm nghiên cứu[4]. Quá trình loại bỏ trùng lặp do OpenAIRE triển khai không chỉ tính đến PID mà còn tính đến các phương pháp phỏng đoán khác, chẳng hạn như số lượng tác giả và khoảng cách Levenstein của các tiêu đề. Tuy nhiên, các mã định danh nội bộ mà OpenAIRE liên kết với các thực thể không cố định và có thể thay đổi khi dữ liệu được cập nhật. Dữ liệu của Sơ đồ nghiên cứu OpenAIRE có thể được truy cập thông qua API và giao diện Khám phá. Các bãi chứa cũng có sẵn theo Giấy phép Quốc tế Creative Commons Ghi công 4.0.


Semantic Scholar được Viện Trí tuệ nhân tạo Allen giới thiệu vào năm 2015 (Fricke, 2018). Nó là một công cụ tìm kiếm sử dụng trí tuệ nhân tạo để chỉ chọn những bài viết phù hợp nhất với tìm kiếm của người dùng và để đơn giản hóa việc tìm kiếm, ví dụ bằng cách tạo ra các bản tóm tắt tự động. Semantic Scholar tìm nguồn nội dung thông qua việc lập chỉ mục web và hợp tác với các tạp chí, chỉ mục và nhà cung cấp nội dung khoa học. Trong số đó có Hiệp hội Ngôn ngữ học tính toán, Nhà xuất bản Đại học Cambridge, IEEE, PubMed, Springer Nature, The MIT Press, Wiley, arXiv, HAL và PubMed. Tính đến tháng 6 năm 2023, nó lập chỉ mục 212.605.886 công trình học thuật[5]. Các tác giả được phân tách thông qua mô hình trí tuệ nhân tạo (Subramanian và cộng sự, 2021), được liên kết với ID học giả ngữ nghĩa và một trang được tạo tự động cho mỗi tác giả mà người thật có thể sử dụng. Semantic Scholar cung cấp giao diện web, API và tập dữ liệu hoàn chỉnh có thể tải xuống theo Giấy phép ghi nhận tác giả dữ liệu mở (ODCBy) v1.0.


Wikidata được Wikimedia Deutschland giới thiệu vào năm 2012 như một cơ sở kiến thức mở để lưu trữ dữ liệu RDF từ các dự án Wikimedia khác, chẳng hạn như Wikipedia, Wikivoyage, Wiktionary và Wikisource (Mora-Cantallops và cộng sự, 2019). Do thành công của nó, Google đã đóng cửa Freebase vào năm 2014, dự định trở thành “Wikipedia cho dữ liệu có cấu trúc” và chuyển nó sang Wikidata (Tanon và cộng sự, 2016). Kể từ năm 2016, dự án WikiCite đã đóng góp đáng kể vào sự phát triển của Wikidata như một cơ sở dữ liệu thư mục, đến tháng 6 năm 2023, Wikidata đã chứa các mô tả của 39.864.447 bài báo học thuật[6]. Mã định danh Wikidata nội bộ đề cập đến bất kỳ thực thể nào (bao gồm cả tài nguyên thư mục) được liên kết với nhiều mã định danh bên ngoài, ví dụ DOI, PMID, PMCID, arXiv, ORCID, Google Scholar, VIAF, ID nhà tài trợ Crossref, ZooBank và Twitter. Dữ liệu được phát hành theo giấy phép CC0 dưới dạng RDF được lưu trữ trong Turtle và NTriples. Người dùng có thể duyệt chúng qua SPARQL, giao diện web và kể từ năm 2017, qua Scholia – một dịch vụ web thực hiện các truy vấn SPARQL theo thời gian thực để tạo hồ sơ về các nhà nghiên cứu, tổ chức, tạp chí, nhà xuất bản, công trình học thuật và chủ đề nghiên cứu, đồng thời tạo ra đồ họa thông tin có giá trị (Nielsen và cộng sự, 2017).


Trong khi OpenAIRE Research Graph và Wikidata tổng hợp nhiều nguồn không đồng nhất, thì Springer Nature SciGraph (Hammond và cộng sự, 2017) lại chỉ tổng hợp dữ liệu từ Springer Nature và các đối tác của nó. Nó bao gồm các thực thể liên quan đến các ấn phẩm, liên kết, dự án nghiên cứu, nhà tài trợ và hội nghị, tổng cộng hơn 14 triệu sản phẩm nghiên cứu[7]. Hiện tại không có kế hoạch cung cấp điểm cuối SPARQL công khai, nhưng có khả năng khám phá dữ liệu thông qua giao diện trình duyệt và kết xuất được phát hành hàng tháng ở định dạng JSON-LD theo giấy phép CC-BY.



BioTea cũng là một tập dữ liệu hướng miền và đại diện cho tập hợp con truy cập mở toàn văn bản có chú thích của PubMed Central (PMC-OA) (Garcia và cộng sự, 2018) bằng công nghệ RDF. Vào thời điểm viết bài báo năm 2018 đó, tập dữ liệu chứa 1,5 triệu tài nguyên thư mục. Không giống như các bộ dữ liệu khác, BioTea mô tả siêu dữ liệu và trích dẫn, đồng thời xác định ngữ nghĩa toàn văn được chú thích. Phân tích nhận dạng thực thể được đặt tên được áp dụng để xác định các biểu thức và thuật ngữ liên quan đến bản thể học y sinh, sau đó được ghi lại dưới dạng chú thích (ví dụ: về phân tử sinh học, thuốc và bệnh tật). Dữ liệu BioTea được phát hành dưới dạng kết xuất ở định dạng RDF/XML và JSON-LD theo giấy phép Quốc tế Creative Commons Ghi công phi thương mại 4.0, trong khi điểm cuối SPARQL hiện đang ngoại tuyến.


Một cách tiếp cận đáng chú ý là Sơ đồ tri thức nghiên cứu mở (ORKG) (Auer và cộng sự, 2020). Siêu dữ liệu chủ yếu được thu thập bởi các đại lý đáng tin cậy thông qua dịch vụ cộng đồng hoặc tự động từ Crossref. Tuy nhiên, mục đích chính của ORKG không phải là tổ chức siêu dữ liệu mà là cung cấp dịch vụ. Phạm vi chính của các dịch vụ này là thực hiện phân tích so sánh tài liệu bằng cách sử dụng các từ nhúng để cho phép phân tích sự tương đồng và thúc đẩy việc khám phá và liên kết các tác phẩm liên quan. Để thực hiện những phân tích phức tạp như vậy, siêu dữ liệu từ Crossref là không đủ; do đó, các chú thích có cấu trúc về chủ đề, kết quả, phương pháp, bối cảnh giáo dục và người đánh giá phải được chỉ định thủ công cho từng tài nguyên. Bộ dữ liệu chứa (tính đến tháng 6 năm 2023) 25.680 bài báo[8], 5153 bộ dữ liệu, 1364 phần mềm và 71 bài đánh giá. Do tầm quan trọng của sự đóng góp của con người trong việc tạo ra tập dữ liệu ORKG, nền tảng này sẽ theo dõi các thay đổi và nguồn gốc, mặc dù không ở định dạng RDF. Dữ liệu có thể được khám phá thông qua giao diện web, SPARQL và API và cũng có thể được tải xuống theo giấy phép CC BY-SA.


ScholarlyData chỉ thu thập thông tin về các hội nghị và hội thảo về chủ đề Web ngữ nghĩa (Nuzzolese et al., 2016). Dữ liệu được mô hình hóa theo Bản thể luận hội nghị, mô tả các thực thể điển hình trong một hội nghị học thuật, chẳng hạn như các bài báo được chấp nhận, tác giả, đơn vị liên kết của họ và ban tổ chức, chứ không phải tài liệu tham khảo thư mục. Tính đến tháng 6 năm 2023, bộ dữ liệu đã lưu trữ thông tin về 5678 tài liệu hội nghị. Tập dữ liệu như vậy được cập nhật bằng cách sử dụng phần mềm tạo Dữ liệu Mở Liên kết Hội nghị, phần mềm này xuất ra RDF bắt đầu từ các tệp CSV (Gentile & Nuzzolese, 2015). Việc loại bỏ sự trùng lặp của các tác nhân chỉ dựa trên URI của chúng bằng phương pháp phân loại được giám sát (Zhang và cộng sự, 2017), trong khi ORCID được thêm vào ở một bước tiếp theo. Phương pháp này không giải quyết sự tồn tại của từ đồng âm. Tuy nhiên, đây chỉ là một vấn đề nhỏ đối với ScholarlyData vì chỉ có vài nghìn người tham gia vào các hội nghị được lập chỉ mục. ScholarlyData có thể được khám phá thông qua điểm cuối SPARQL và các kết xuất có sẵn ở định dạng RDF/XML theo giấy phép Creative Commons Ghi công 3.0 Chưa chuyển đổi.


Để kết luận, chúng tôi muốn chỉ ra rằng không có bộ dữ liệu nào khác được đề cập ở trên tiết lộ dữ liệu theo dõi thay đổi và thông tin xuất xứ liên quan trong RDF.


Bảng 1 tóm tắt tất cả những cân nhắc được thực hiện trên mỗi tập dữ liệu.


Bài viết này có sẵn trên arxiv theo giấy phép CC 4.0 DEED.


[1] https://www.issn.org/


[2] https://archive.org/details/GeneralIndex


[3] https://docs.openalex.org/api-entities/works


[4] https://explore.openaire.eu/search/find/research-outcomes


[5] https://www.semanticscholar.org/


[6] https://scholia.toolforge.org/statistics


[7] https://scigraph.springernature.com/explorer/datasets/data_at_a_glance/


[8] https://orkg.org/papers