tác giả:
(1) Arcangelo Massari, Trung tâm Nghiên cứu Siêu dữ liệu Học thuật Mở, Khoa Ngữ văn Cổ điển và Nghiên cứu Ý, Đại học Bologna, Bologna, Ý {[email protected]};
(2) Fabio Mariani, Viện Triết học và Khoa học Nghệ thuật, Đại học Leuphana, Lüneburg, Đức {[email protected]};
(3) Ivan Heibi, Trung tâm Nghiên cứu Siêu dữ liệu Học thuật Mở, Khoa Ngữ văn Cổ điển và Nghiên cứu Ý, Đại học Bologna, Bologna, Ý và Trung tâm Nghiên cứu Tiên tiến về Nhân văn Kỹ thuật số (/DH.arc), Khoa Ngữ văn Cổ điển và Nghiên cứu Ý, Đại học của Bologna, Bologna, Ý {[email protected]};
(4) Silvio Peroni, Trung tâm Nghiên cứu Siêu dữ liệu Học thuật Mở, Khoa Ngữ văn Cổ điển và Nghiên cứu Ý, Đại học Bologna, Bologna, Ý và Trung tâm Nghiên cứu Tiên tiến về Nhân văn Kỹ thuật số (/DH.arc), Khoa Ngữ văn Cổ điển và Nghiên cứu Ý, Đại học của Bologna, Bologna, Ý {[email protected]};
(5) David Shotton, Trung tâm nghiên cứu điện tử Oxford, Đại học Oxford, Oxford, Vương quốc Anh {[email protected]}.
OpenCites Meta là một cơ sở dữ liệu mới chứa siêu dữ liệu thư mục của các ấn phẩm học thuật liên quan đến các trích dẫn được cơ sở hạ tầng OpenCites lập chỉ mục. Nó tuân thủ các nguyên tắc Khoa học Mở và cung cấp dữ liệu theo giấy phép CC0 để tái sử dụng tối đa. Dữ liệu có thể được truy cập thông qua điểm cuối SPARQL, API REST và kết xuất. OpenCites Meta phục vụ ba mục đích quan trọng. Thứ nhất, nó cho phép phân biệt các trích dẫn giữa các ấn phẩm được mô tả bằng cách sử dụng các mã định danh khác nhau từ nhiều nguồn khác nhau. Ví dụ: nó có thể liên kết các ấn phẩm được xác định bởi DOI trong Crossref và PMID trong PubMed. Thứ hai, nó gán các mã định danh liên tục toàn cầu (PID) mới, được gọi là Mã định danh siêu dữ liệu OpenCites (OMID), cho các tài nguyên thư mục mà không có các mã định danh liên tục bên ngoài hiện có như DOI. Cuối cùng, bằng cách lưu trữ nội bộ siêu dữ liệu thư mục, OpenCites Meta cải thiện tốc độ truy xuất siêu dữ liệu để trích dẫn và tài liệu được trích dẫn. Cơ sở dữ liệu được phổ biến thông qua việc quản lý dữ liệu tự động, bao gồm chống trùng lặp, sửa lỗi và làm giàu siêu dữ liệu. Dữ liệu được lưu trữ ở định dạng RDF theo Mô hình dữ liệu OpenCites và các thay đổi cũng như thông tin xuất xứ được theo dõi. OpenCites Meta và quá trình sản xuất nó. OpenCites Meta hiện kết hợp dữ liệu từ Crossref, DataCite và Bộ sưu tập trích dẫn mở NIH. Về mặt xuất bản bộ dữ liệu ngữ nghĩa, nó hiện là bộ dữ liệu đầu tiên về khối lượng dữ liệu.
Từ khóa - trích dẫn học thuật, siêu dữ liệu thư mục, xuất xứ, theo dõi thay đổi, khoa học mở, OpenCites
OpenCites là một tổ chức cơ sở hạ tầng phi lợi nhuận độc lập dành cho học bổng mở chuyên xuất bản dữ liệu thư mục và trích dẫn mở bằng cách sử dụng các công nghệ Web ngữ nghĩa. OpenCites lưu trữ và quản lý thông tin về các trích dẫn học thuật, tức là các liên kết khái niệm kết nối một thực thể trích dẫn với một thực thể được trích dẫn, trong Chỉ mục OpenCites. Cho đến nay, đã có bốn Chỉ mục OpenCitations: COCI (https://opencites.net/index/coci), Chỉ số OpenCitations của Crossref các trích dẫn DOI-to-DOI mở (Heibi et al., 2019b); POCI (https://opencites.net/index/poci), Chỉ mục OpenCites của các trích dẫn PMID-to-PMID mở PubMed; DOCI (https://opencites.net/index/doci), Chỉ mục OpenCites của DataCite các trích dẫn DOI-to-DOI mở; và CROCI (https://opencites.net/index/croci), Chỉ số trích dẫn mở cộng đồng (Heibi et al., 2019a).
Trong khi phạm vi bao phủ của Chỉ mục OpenCites đã tiến gần ngang bằng với phạm vi của các chỉ mục trích dẫn độc quyền thương mại (xem https://opencites.hypotheses.org/ 1420), vẫn có những vấn đề tồn đọng trước đây chưa được OpenCites giải quyết.
Đầu tiên là định hướng trích dẫn. Đôi khi, tài nguyên thư mục sẽ được gán nhiều mã định danh, chẳng hạn như DOI và PMID. Trong những trường hợp như vậy, cùng một trích dẫn có thể được trình bày theo nhiều cách khác nhau tùy thuộc vào nguồn dữ liệu. Ví dụ: OpenCites sẽ mô tả trong COCI một trích dẫn giữa hai ấn phẩm sử dụng siêu dữ liệu có nguồn gốc từ Crossref dưới dạng trích dẫn DOI-to-DOI và trong POCI cùng một trích dẫn sử dụng siêu dữ liệu có nguồn gốc từ PubMed dưới dạng trích dẫn PMID-to-PMID. Sự trùng lặp này đặt ra vấn đề khi đếm số lượng trích dẫn vào và ra của mỗi tài liệu, một số liệu thống kê quan trọng đối với các thư viện, tạp chí và nghiên cứu Khoa học. Việc sử dụng OpenCites Meta cho phép chúng tôi loại bỏ các trích dẫn trùng lặp như vậy và giải quyết các vấn đề mà việc sao chép đó có thể gây ra.
Thứ hai, việc gán các mã định danh liên tục trên toàn cầu cho các tài liệu không phải là thông lệ phổ biến trên tất cả các lĩnh vực học thuật. Gorraiz và cộng sự. (2016) đã chứng minh rằng cộng đồng Khoa học Tự nhiên và Xã hội áp dụng DOI ở mức độ lớn hơn nhiều so với cộng đồng Nghệ thuật và Nhân văn. Từ nghiên cứu đó, được thực hiện trên Scopus và Web of Science Core Collection, cho thấy gần 90% ấn phẩm trong Khoa học và Khoa học Xã hội có liên quan đến DOI, trong khi ở Nghệ thuật và Nhân văn, con số đó chỉ là 50%. Ngoài ra, liên quan đến Nhân văn, việc trích dẫn các nguồn sơ cấp cổ xưa thiếu DOI (ví dụ như Aristotle) là bắt buộc trong nhiều lĩnh vực (ví dụ như trong Lịch sử). Nếu một tài liệu không có mã định danh thì siêu dữ liệu của nó không tôn trọng các nguyên tắc FAIR (Wilkinson và cộng sự, 2016) rằng các đối tượng nghiên cứu kỹ thuật số học thuật phải có thể tìm thấy, truy cập được, tương tác và tái sử dụng được. Mã định danh duy nhất và ổn định trên toàn cầu là rất quan trọng để làm cho siêu dữ liệu có thể tìm thấy và truy cập được. Hơn nữa, một nguồn thư mục không có mã định danh sẽ ngăn cản các trích dẫn liên quan đến nó được mô tả tuân thủ các nguyên tắc FAIR. Đây là lý do tại sao, theo Định nghĩa trích dẫn mở (Peroni & Shotton, 2018) quản lý tập hợp Chỉ mục OpenCites, bất kỳ hai thực thể nào được liên kết bởi một trích dẫn được lập chỉ mục đều phải được xác định bằng một mã định danh liên tục đến từ cùng một sơ đồ định danh, vì ví dụ cả với DOI hoặc cả hai với ID PubMed. Ví dụ: COCI (Heibi et al., 2019b) chỉ lưu trữ thông tin trích dẫn trong đó các thực thể trích dẫn và trích dẫn được mô tả trong Crossref và cả hai đều có DOI. Các trích dẫn liên quan đến các ấn phẩm thiếu DOI hoặc các PID được công nhận khác cho đến nay đã bị loại khỏi chỉ mục trích dẫn OpenCites.
Nhưng giờ đây, OpenCites Meta giải quyết các vấn đề đặt ra bởi các tài nguyên thư mục được xác định bởi nhiều số nhận dạng cũng như các tài nguyên thư mục thiếu số nhận dạng liên tục, bằng cách liên kết một số nhận dạng liên tục toàn cầu mới với mỗi tài liệu được mô tả trong OpenCites Meta - Mã định danh Meta OpenCites (OMID). Bằng cách này, tất cả các trích dẫn có thể được biểu diễn dưới dạng trích dẫn OMID-to-OMID (Hình 1). Bằng cách cung cấp mã định danh duy nhất cho mọi thực thể được lưu trữ trong OpenCites Meta, OMID của thực thể hoạt động như một proxy giữa các mã định danh bên ngoài khác nhau được sử dụng cho từng thực thể, cho phép phân định. Hơn nữa, OpenCites Meta có thể chứa siêu dữ liệu cho tất cả các ấn phẩm học thuật, mỗi xuất bản phẩm được xác định bởi OMID mà không cần bắt buộc phải có mã định danh liên tục bên ngoài do nguồn siêu dữ liệu cung cấp.
Do đó, nhờ OpenCites Meta, siêu dữ liệu cho tất cả các ấn phẩm học thuật giờ đây có thể được OpenCites lưu trữ và các trích dẫn liên kết tất cả các ấn phẩm đó có thể được đưa vào Chỉ mục OpenCites mới, bao gồm các chỉ mục khác (COCI, DOCI, POCI, v.v.) trong đó. sẽ là các chỉ mục phụ, tùy theo các nguồn đầu vào khác nhau của thông tin trích dẫn.
Thứ ba là hiệu suất kém theo thời gian trước đây của các dịch vụ của OpenCites, đặc biệt là các hoạt động API trả về siêu dữ liệu thư mục cơ bản về trích dẫn và các tài nguyên được trích dẫn. Điều này là do bản thân các Chỉ mục OpenCites cho đến nay chỉ chứa siêu dữ liệu liên quan đến trích dẫn (các trích dẫn được coi là thực thể dữ liệu Hạng nhất với siêu dữ liệu riêng của chúng), nhưng chưa chứa siêu dữ liệu thư mục liên quan đến các thực thể trích dẫn và trích dẫn (tiêu đề, tác giả, số trang). , vân vân.). Thay vào đó, những siêu dữ liệu đó cho đến nay đã được truy xuất nhanh chóng bằng các yêu cầu API rõ ràng tới các dịch vụ bên ngoài như Crossref, ORCID và DataCite
Trong ba năm qua, để giải quyết các vấn đề nêu trên, chúng tôi đã phát triển và thử nghiệm phần mềm mà chúng tôi hiện đang sử dụng để tạo bộ sưu tập siêu dữ liệu thư mục mới, cụ thể là OpenCites Meta, mà chúng tôi đã ra mắt vào tháng 12 năm 2022. Phần mềm hỗ trợ cơ sở dữ liệu này là phần mềm mở nguồn và có sẵn tại https://github.com/opencites/oc_meta. Siêu dữ liệu được OpenCites Meta hiển thị bao gồm siêu dữ liệu thư mục cơ bản mô tả tài nguyên thư mục mang tính học thuật. Đặc biệt, nó lưu trữ tất cả các mã định danh tài nguyên thư mục đã biết cho nguồn tài nguyên thư mục đó (ví dụ DOI, PMID, ISSN và ISBN), tiêu đề, loại, ngày xuất bản, trang, địa điểm của nguồn tài nguyên, số tập và số phát hành nơi tài nguyên đó được xuất bản. địa điểm là một tạp chí. Ngoài ra, OpenCites Meta chứa siêu dữ liệu liên quan đến các tác nhân chính liên quan đến việc xuất bản từng tài nguyên thư mục, tức là tên của tác giả, biên tập viên và nhà xuất bản, mỗi tên bao gồm các mã nhận dạng cố định của riêng họ (ví dụ ORCID) nếu có. Mục đích của chúng tôi là thêm các trường siêu dữ liệu bổ sung (ví dụ: tổ chức của tác giả và thông tin tài trợ) sau này.
Quá trình tạo OpenCites Meta có thể được chia thành hai bước. Bước đầu tiên liên quan đến việc quản lý dữ liệu đầu vào. Quy trình giám tuyển liên quan đến việc tự động sửa lỗi, tiêu chuẩn hóa định dạng dữ liệu và loại bỏ trùng lặp các mục siêu dữ liệu riêng biệt cho cùng một mục. Quá trình loại bỏ trùng lặp chỉ dựa trên số nhận dạng. Cách tiếp cận này thiên về độ chính xác hơn là thu hồi: ví dụ: mọi người chỉ được loại bỏ trùng lặp nếu họ có ORCID được chỉ định chứ không bao giờ được loại bỏ bởi các phương pháp phỏng đoán khác. Sau giai đoạn chuẩn hóa và loại bỏ trùng lặp, mỗi thực thể được gán một Mã định danh Meta OpenCites (OMID), cho dù nó đã có mã định danh liên tục bên ngoài hay chưa (ví dụ: DOI, PubMed ID, ISBN).
Bước thứ hai trong việc điền OpenCites Meta liên quan đến việc chuyển đổi dữ liệu đầu vào thô thành RDF (định dạng Dữ liệu mở được liên kết) tuân thủ Mô hình dữ liệu OpenCites (OCDM) (Daquino và cộng sự, 2020), để cho phép truy vấn dữ liệu đó thông qua SPARQL. Trong quá trình này, người ta đặc biệt chú ý đến nguồn gốc và theo dõi thay đổi: mỗi khi một thực thể được tạo, sửa đổi, xóa hoặc hợp nhất, những thay đổi đó sẽ được ghi lại trong RDF và được đặc trưng bởi ngày tạo, nguồn chính và tác nhân chịu trách nhiệm. .
Phần còn lại của bài báo được tổ chức như sau. Phần 2 xem xét các bộ dữ liệu xuất bản ngữ nghĩa khác. Sau đó, trong Phần 3, cách tiếp cận phương pháp luận được áp dụng để tạo ra OpenCites Meta được trình bày chi tiết, bắt đầu với giai đoạn giám tuyển (3.1), sau đó mô tả việc sửa lỗi (3.2), chuyển sang phần giải thích về việc dịch dữ liệu sang RDF theo OCDM (3.3) và kết thúc bằng phần mô tả quá trình sản xuất dữ liệu theo dõi thay đổi và xuất xứ RDF (3.4). Phần 4 cung cấp một số thống kê mô tả về tập dữ liệu OpenCites Meta hiện tại. Cuối cùng, Phần 5 thảo luận về một số hạn chế hiện tại của OpenCites Meta và xem xét vị trí của OpenCites Meta trong số các bộ dữ liệu học thuật tương tự.
Bài viết này có sẵn trên arxiv theo giấy phép CC 4.0 DEED.