paint-brush
OpenCites Meta: Dữ liệu và dịch vụtừ tác giả@categorize

OpenCites Meta: Dữ liệu và dịch vụ

dài quá đọc không nổi

featured image - OpenCites Meta: Dữ liệu và dịch vụ
Categorize.Tech: Organizing the World of Software HackerNoon profile picture
0-item

tác giả:

(1) Arcangelo Massari, Trung tâm Nghiên cứu Siêu dữ liệu Học thuật Mở, Khoa Ngữ văn Cổ điển và Nghiên cứu Ý, Đại học Bologna, Bologna, Ý {[email protected]};

(2) Fabio Mariani, Viện Triết học và Khoa học Nghệ thuật, Đại học Leuphana, Lüneburg, Đức {[email protected]};

(3) Ivan Heibi, Trung tâm Nghiên cứu Siêu dữ liệu Học thuật Mở, Khoa Ngữ văn Cổ điển và Nghiên cứu Ý, Đại học Bologna, Bologna, Ý và Trung tâm Nghiên cứu Tiên tiến về Nhân văn Kỹ thuật số (/DH.arc), Khoa Ngữ văn Cổ điển và Nghiên cứu Ý, Đại học của Bologna, Bologna, Ý {[email protected]};

(4) Silvio Peroni, Trung tâm Nghiên cứu Siêu dữ liệu Học thuật Mở, Khoa Ngữ văn Cổ điển và Nghiên cứu Ý, Đại học Bologna, Bologna, Ý và Trung tâm Nghiên cứu Tiên tiến về Nhân văn Kỹ thuật số (/DH.arc), Khoa Ngữ văn Cổ điển và Nghiên cứu Ý, Đại học của Bologna, Bologna, Ý {[email protected]};

(5) David Shotton, Trung tâm nghiên cứu điện tử Oxford, Đại học Oxford, Oxford, Vương quốc Anh {[email protected]}.

Bảng liên kết

4. Dữ liệu và dịch vụ

Vào thời điểm phát hành lần đầu vào tháng 12 năm 2022, OpenCites Meta đã bao gồm Crossref (Hendricks và cộng sự, 2020), DataCite (Brase, 2010) và Bộ sưu tập trích dẫn mở NIH (ICite và cộng sự, 2022) làm nguồn chính cho siêu dữ liệu thư mục mô tả các ấn phẩm liên quan đến các trích dẫn trong Chỉ mục OpenCitations sau: COCI (https://opencites.net/index/coci) (OpenCitations, 2022), DOCI (https: //opencites.net/index/doci), và POCI (https://opencites.net/index/poci). Từ quan điểm định lượng, trong bản phát hành đầu tiên này của OpenCites Meta có 98.243.101 thực thể thư mục (fabio:Expression), 309.881.223 tác giả (pro:author), 2.406.510 biên tập viên (pro:editor), 19.076 nhà xuất bản (pro:publisher) và 659.214 địa điểm (ví dụ: tài nguyên thuộc loại fabio:AcademicProceedings, fabio:ExpressionCollection, fabio:Book, fabio:BookSeries, fabio:Journal, fabio:ReferenceBook hoặc fabio:Series). Như vậy, trung bình mỗi nguồn thư mục có ba tác giả. Thông thường, không có trình soạn thảo nào được ghi lại vì siêu dữ liệu sau này ít được sử dụng trong các nguồn của chúng tôi. Tổng cộng, triplestore bao gồm 3.749.729.755 triplestore (không bao gồm xuất xứ).


Các biên tập viên và tác giả được tính là các vai trò mà không phân biệt rõ ràng các cá nhân nắm giữ các vai trò này. Ngược lại, các thực thể thư mục, nhà xuất bản và địa điểm được OMID tính. Tuy nhiên, đối với các địa điểm (ví dụ: tạp chí), chúng tôi đã thực hiện thêm một biện pháp phòng ngừa: nhiều địa điểm bị trùng lặp trong OpenCites Meta vì chúng không có mã định danh nào khác ngoài OMID. Do đó, trong các số liệu trình bày ở trên, chúng tôi thấy việc phân biệt các địa điểm theo tiêu đề trong trường hợp không có các ký hiệu nhận dạng khác là hợp lý.


Như được trình bày trong Bảng 2, Springer Science là đơn vị xuất bản có số lượng địa điểm cao nhất (2097), tiếp theo là Elsevier BV (1961) và IEEE (1775). Khi đếm số lượng công bố, Elsevier dẫn đầu (16.933.610), tiếp theo là Springer Science (11.507.498) và Wiley (7.262.893) ở Bảng 3.


Xem xét các địa điểm trong Bảng 4, ChemInform của Wiley có nhiều ấn phẩm nhất (421.735), tiếp theo là Tạp chí Điện tử SSRN của Elsevier (337.223) và Tạp chí Ngữ nghĩa Dữ liệu của Springer (330.093).


Bảng 5 liệt kê tất cả các loại tài nguyên thư mục trong OpenCites Meta. Tập dữ liệu hiện tại chứa hầu hết các bài báo trên tạp chí (67.904.323), vượt quá số chương sách ở vị trí thứ hai (6.476.623) khoảng mười lần và các bài báo kỷ yếu ở vị trí thứ ba (5.046.165) khoảng mười ba lần.


Bảng 6, liệt kê số lượng ấn phẩm mỗi năm, cho thấy xu hướng ngày càng tăng, với số lượng ấn phẩm lớn hơn từ năm này sang năm khác.


Bảng 2: Mười nhà xuất bản hàng đầu theo số địa điểm


Bảng 3: Mười nhà xuất bản hàng đầu theo số lượng ấn phẩm


Bảng 4: Mười địa điểm hàng đầu theo số lượng ấn phẩm


Bảng 5: Tất cả các loại tài nguyên thư mục có liên quan đến OpenCites Meta, được sắp xếp theo số lượng ấn phẩm thuộc loại đó. Các ontology tham chiếu là FaBiO (http://purl.org/spar/fabio), DOCO (http://purl.org/spar/doco) và các đánh giá FAIR (http://purl.org/spar/fr)


Bảng 6: Mười năm xuất bản hàng đầu theo số lượng xuất bản trong năm đó


OpenCites Meta cho phép người dùng khám phá những dữ liệu đó thông qua SPARQL (https://opencites.net/meta/sparql) hoặc qua API (https://opencites.net/meta/ api/v1). Cụ thể, API OpenCites Meta truy xuất danh sách tài nguyên thư mục và siêu dữ liệu liên quan bắt đầu từ một hoặc nhiều mã nhận dạng xuất bản, ORCID của tác giả hoặc ORCID của người biên tập. Các tìm kiếm văn bản hiện đang được thử nghiệm và sẽ được phát hành trong tương lai dưới dạng một hoạt động tiếp theo của API OpenCites Meta. Đặc biệt, có thể thực hiện tìm kiếm văn bản về tiêu đề, tác giả, biên tập viên, nhà xuất bản, ID và địa điểm. Chúng cũng có thể đạt được về số lượng và số lượng phát hành, miễn là địa điểm được chỉ định trước. Thật vậy, các tìm kiếm trên nhiều trường có thể được kết hợp bằng cách sử dụng các toán tử kết hợp và phân tách Boolean. Ví dụ: sau khi hoạt động được thực hiện, người dùng sẽ có thể tìm kiếm tất cả các tài nguyên thư mục có tiêu đề chứa từ “vi hỗn loạn” được xuất bản bởi Nghiên cứu Triết học hoặc Tạp chí Khoa học Phi tuyến: title=micro-chaos&&venue=philosophical% 20studies||title=microchaos&&venue=journal%20of%20phi tuyến%20science, trong đó “&&” là toán tử kết hợp, trong khi || là toán tử phân biệt.


Cuối cùng, tất cả dữ liệu và nguồn gốc đều có sẵn dưới dạng kết xuất ở định dạng RDF (JSON-LD) (OpenCites, 2023b) hoặc CSV (OpenCites, 2023a) theo giấy phép CC0.


Bài viết này có sẵn trên arxiv theo giấy phép CC 4.0 DEED.