paint-brush
OpenCites Meta: Thảo luậntừ tác giả@categorize
108 lượt đọc

OpenCites Meta: Thảo luận

dài quá đọc không nổi

featured image - OpenCites Meta: Thảo luận
Categorize.Tech: Organizing the World of Software HackerNoon profile picture
0-item

tác giả:

(1) Arcangelo Massari, Trung tâm Nghiên cứu Siêu dữ liệu Học thuật Mở, Khoa Ngữ văn Cổ điển và Nghiên cứu Ý, Đại học Bologna, Bologna, Ý {[email protected]};

(2) Fabio Mariani, Viện Triết học và Khoa học Nghệ thuật, Đại học Leuphana, Lüneburg, Đức {[email protected]};

(3) Ivan Heibi, Trung tâm Nghiên cứu Siêu dữ liệu Học thuật Mở, Khoa Ngữ văn Cổ điển và Nghiên cứu Ý, Đại học Bologna, Bologna, Ý và Trung tâm Nghiên cứu Tiên tiến về Nhân văn Kỹ thuật số (/DH.arc), Khoa Ngữ văn Cổ điển và Nghiên cứu Ý, Đại học của Bologna, Bologna, Ý {[email protected]};

(4) Silvio Peroni, Trung tâm Nghiên cứu Siêu dữ liệu Học thuật Mở, Khoa Ngữ văn Cổ điển và Nghiên cứu Ý, Đại học Bologna, Bologna, Ý và Trung tâm Nghiên cứu Tiên tiến về Nhân văn Kỹ thuật số (/DH.arc), Khoa Ngữ văn Cổ điển và Nghiên cứu Ý, Đại học của Bologna, Bologna, Ý {[email protected]};

(5) David Shotton, Trung tâm nghiên cứu điện tử Oxford, Đại học Oxford, Oxford, Vương quốc Anh {[email protected]}.

Bảng liên kết

5. Thảo luận

Như được trình bày trong Phần 2, khi chỉ xem xét các tập dữ liệu xuất bản ngữ nghĩa, OpenCites Meta, hiện bao gồm dữ liệu từ Crossref, DataCite và NIH Open Citation Collection (ICite et al., 2022), đứng đầu về khối lượng dữ liệu. Hơn nữa, công việc đang được tiến hành để thu thập dữ liệu từ các nguồn mới, chẳng hạn như Trung tâm Liên kết Nhật Bản (Hara, 2020), Đồ thị nghiên cứu OpenAIRE (Atzori và cộng sự, 2017) và Kho lưu trữ kỹ thuật số Dryad (Vision, 2010).


Khi so sánh với Sơ đồ nghiên cứu OpenAIRE, OpenCites Meta có lợi thế về mặt chức năng: cụ thể là việc sử dụng OMID, các mã định danh liên tục duy nhất trên toàn cầu được sử dụng nội bộ để xác định mọi thực thể trong OpenCites Meta. Việc sử dụng này giúp có thể biểu diễn và lập chỉ mục các trích dẫn giữa các tài nguyên thư mục thiếu mã định danh liên tục bên ngoài, chẳng hạn như Mã định danh đối tượng kỹ thuật số (DOI). Tính năng này bổ sung thêm giá trị đáng kể cho Chỉ mục OpenCites, vì lần đầu tiên nó cho phép nhập nhiều trích dẫn mà cho đến nay vẫn chưa thể mô tả được, đặc biệt là các trích dẫn giữa các ấn phẩm từ khoa học xã hội và nhân văn (Gorraiz et al., 2016) và các trích dẫn liên quan đến các nguồn chính, ví dụ như một bức tượng, một bức tranh hoặc một bản mật mã, thường thiếu mã định danh lâu dài. Điều quan trọng là việc có OMID cũng cho phép tài nguyên đã xác định được gán một URL duy nhất, ví dụ: https://w3id.org/oc/meta/br/061401975837 cho omid:br/061401975837.


Một tính năng khác, theo hiểu biết tốt nhất của chúng tôi, chỉ có trong OpenCites Meta là cơ chế quản lý theo dõi thay đổi trong thông tin xuất xứ được lưu trữ trong RDF. Thông tin này có thể được truy vấn bằng phần mềm thư viện dự báo thời gian Python (Massari & Peroni, 2022). Nó có thể thực hiện các truy vấn SPARQL truyền tải thời gian, tức là các truy vấn trên các ảnh chụp nhanh khác nhau cùng với thông tin xuất xứ.


Đối với các bộ dữ liệu thư mục khác không sử dụng công nghệ Web ngữ nghĩa, OpenAlex (Priem và cộng sự, 2022) là một trường hợp quan trọng cần xem xét để so sánh với OpenCites Meta. OpenAlex sử dụng thu thập thông tin web để thêm siêu dữ liệu bị thiếu, một tính năng cho phép nó tự động sửa số lượng lỗi xuất hiện trong dữ liệu của các nguồn cao hơn khi so sánh với OpenCites Meta.


Thật vậy, hiện tại, hạn chế chính của OpenCites Meta liên quan đến chất lượng dữ liệu, vốn phụ thuộc chặt chẽ vào chất lượng của nguồn. Crossref không kiểm tra kỹ siêu dữ liệu do nhà xuất bản cung cấp và do đó giữ nguyên nhiều lỗi. Ví dụ: có thể gặp các bài viết được xuất bản trong tương lai (siêu dữ liệu có sẵn tại https://api.crossref.org/v1/works/10.12960/tsh.2020.0006 nói rằng bài viết sẽ được xuất bản dưới dạng bản in vào năm 2029). Một số lỗi này có thể được sửa tự động mà không cần bất kỳ kiến thức cơ bản nào, trong khi những lỗi khác yêu cầu sử dụng trình thu thập dữ liệu web hoặc can thiệp thủ công. Trong khi OpenAlex đang theo đuổi con đường thu thập dữ liệu web, OpenCites đang làm việc trên một khuôn khổ cho phép chỉnh sửa và quản lý dữ liệu bởi các chuyên gia miền đáng tin cậy của con người (chẳng hạn như thủ thư hàn lâm).


OpenCites Meta hoàn thành mục đích chính của nó bằng cách lưu giữ siêu dữ liệu thư mục cần thiết để mô tả các trích dẫn và ấn phẩm được trích dẫn liên quan đến các trích dẫn trong Chỉ mục OpenCites. Tuy nhiên, ngoài các yếu tố siêu dữ liệu thư mục này, chúng tôi biết rõ rằng còn có các yếu tố siêu dữ liệu bổ sung có tầm quan trọng lớn đối với cộng đồng học thuật: Tóm tắt, để khai thác văn bản, xác định lĩnh vực và chủ đề, và lập chỉ mục (ngay cả khi toàn bộ văn bản của các ấn phẩm có sẵn truy cập mở ở nơi khác), và ID nhà tài trợ, thông tin tài trợ và mã định danh tổ chức, cần thiết để xác định số liệu hiệu suất và thực hiện đánh giá nghiên cứu. Khi chúng tôi đã hoàn thành việc cung cấp các hoạt động tìm kiếm văn bản của mình, mở rộng phạm vi bao phủ của chúng tôi theo những cách đã chỉ định và nâng cao cơ sở hạ tầng tính toán mà OpenCites Meta và Chỉ mục OpenCites chạy trên đó, chúng tôi sẽ tiến hành tích hợp và điền vào các trường siêu dữ liệu bổ sung này.


Việc cung cấp siêu dữ liệu thư mục chất lượng cao là một mục tiêu phức tạp và khó đạt được bằng các hoạt động tự động, trong khi quy mô của các hoạt động ngăn cản việc quản lý thủ công ngoại trừ một số ít các biểu ghi. Hiện tại không có tập dữ liệu thư mục nào có thể tự mình đạt được mục tiêu này. Vì lý do này, tất cả các cơ sở dữ liệu thư mục có sẵn cần được xem như bổ sung cho nhau. Ví dụ: trong khi hiện tại OpenAlex cung cấp siêu dữ liệu chất lượng tốt hơn, OpenCites Meta có dữ liệu xuất xứ hoàn chỉnh sẵn có và cho phép tìm kiếm phức tạp hơn nhờ vào tiềm năng do công nghệ Web ngữ nghĩa mang lại. Ví dụ: "Tìm kiếm tất cả các tác giả là đồng tác giả với Silvio Peroni hoặc Fabio Vitali trong kỷ yếu hội nghị được Springer xuất bản sau năm 2009". Hơn nữa, OpenAlex chỉ miễn phí một phần vì phải trả phí để thực hiện hơn một trăm nghìn yêu cầu mỗi ngày thông qua API và truy cập dữ liệu được cập nhật hàng giờ qua API (thay vì hàng tháng thông qua kết xuất)[9]. Ngược lại, người dùng có thể thực hiện miễn phí các yêu cầu không giới hạn đối với phiên bản OpenCites Meta mới nhất.


Ngoài ra, mặc dù Sơ đồ nghiên cứu OpenAIRE hiện chứa nhiều siêu dữ liệu hơn, dữ liệu đó được phát hành theo giấy phép ghi nhận tác giả CC-BY, trong khi dữ liệu do OpenCites Meta phát hành theo giấy phép từ bỏ phạm vi công cộng CC0, cho phép hoàn toàn tự do sử dụng lại, bao gồm cả tái sử dụng cho mục đích thương mại và để xử lý bằng máy mà không có bất kỳ yêu cầu nào về ghi công.


Bài viết này có sẵn trên arxiv theo giấy phép CC 4.0 DEED.


L O A D I N G
. . . comments & more!

About Author

Categorize.Tech: Organizing the World of Software HackerNoon profile picture
Categorize.Tech: Organizing the World of Software@categorize
Categorize is the leading authority on the categorization of technologies mentioned in research papers and blog posts.

chuyên mục

BÀI VIẾT NÀY CŨNG CÓ MẶT TẠI...