tác giả:
(1) Arcangelo Massari, Trung tâm Nghiên cứu Siêu dữ liệu Học thuật Mở, Khoa Ngữ văn Cổ điển và Nghiên cứu Ý, Đại học Bologna, Bologna, Ý {[email protected]};
(2) Fabio Mariani, Viện Triết học và Khoa học Nghệ thuật, Đại học Leuphana, Lüneburg, Đức {[email protected]};
(3) Ivan Heibi, Trung tâm Nghiên cứu Siêu dữ liệu Học thuật Mở, Khoa Ngữ văn Cổ điển và Nghiên cứu Ý, Đại học Bologna, Bologna, Ý và Trung tâm Nghiên cứu Tiên tiến về Nhân văn Kỹ thuật số (/DH.arc), Khoa Ngữ văn Cổ điển và Nghiên cứu Ý, Đại học của Bologna, Bologna, Ý {[email protected]};
(4) Silvio Peroni, Trung tâm Nghiên cứu Siêu dữ liệu Học thuật Mở, Khoa Ngữ văn Cổ điển và Nghiên cứu Ý, Đại học Bologna, Bologna, Ý và Trung tâm Nghiên cứu Tiên tiến về Nhân văn Kỹ thuật số (/DH.arc), Khoa Ngữ văn Cổ điển và Nghiên cứu Ý, Đại học của Bologna, Bologna, Ý {[email protected]};
(5) David Shotton, Trung tâm nghiên cứu điện tử Oxford, Đại học Oxford, Oxford, Vương quốc Anh {[email protected]}.
Bài viết này trình bày chi tiết về phương pháp được sử dụng để phát triển OpenCites Meta, một cơ sở dữ liệu lưu trữ và cung cấp siêu dữ liệu thư mục cho tất cả các ấn phẩm liên quan đến Chỉ mục OpenCites. Quá trình này bao gồm hai giai đoạn chính: (1) phân tích quản lý tự động nhằm loại bỏ các thực thể trùng lặp, sửa lỗi và làm phong phú thông tin và (2) chuyển đổi dữ liệu sang RDF, đồng thời theo dõi các thay đổi và xuất xứ trong RDF.
Thông tin về các ấn phẩm mới liên tục được thêm vào Crossref, DataCite và PubMed và chúng tôi sẽ phát triển các quy trình để đưa siêu dữ liệu mới này vào OpenCites Meta một cách thường xuyên và kịp thời. Hơn nữa, công việc đang được tiến hành để tiếp thu siêu dữ liệu thư mục từ Trung tâm Liên kết Nhật Bản và Đồ thị Nghiên cứu OpenAIRE, và các nguồn khác sẽ được đưa vào khi nguồn nhân lực và tính toán của chúng tôi cho phép. OpenCites Meta do đó sẽ tiếp tục phát triển.
OpenCites Meta có ba lợi ích chính. Đầu tiên, việc sử dụng OMID (Mã định danh Meta OpenCites) cho tất cả các thực thể được lưu trữ cho phép OpenCites Meta hoạt động như một trung tâm ánh xạ cho các ấn phẩm có thể có nhiều PID bên ngoài (ví dụ: một bài báo được mô tả trong Crossref với DOI (Mã định danh đối tượng kỹ thuật số) ), và ấn phẩm tương tự được mô tả trong PubMed với PMID (Mã nhận dạng PubMed), đồng thời giúp mô tả đặc điểm các trích dẫn liên quan đến các tài nguyên thiếu bất kỳ PID bên ngoài nào. Do đó, lợi ích thứ hai là OpenCites Meta cho phép các trích dẫn trong Chỉ mục OpenCites được mô tả dưới dạng. OMID-to-OMID, phân biệt các trích dẫn giữa các tài liệu với các sơ đồ định danh khác nhau, ví dụ được biểu diễn dưới dạng DOI-to-DOI trên Crossref và PMID-to-PMID trên PubMed. Thứ ba, OpenCitations Meta tăng tốc các hoạt động tìm kiếm để truy xuất siêu dữ liệu trên các ấn phẩm liên quan đến các trích dẫn. được lưu trữ trong Chỉ mục trích dẫn OpenCites, vì những siêu dữ liệu này hiện được lưu giữ nội bộ thay vì được truy xuất bằng các lệnh gọi API nhanh chóng tới các tài nguyên bên ngoài.
Những thách thức trong tương lai sẽ là xây dựng một hệ thống phân định cho những người thiếu mã định danh ORCID, cải thiện chất lượng của siêu dữ liệu hiện có, nâng cao hoạt động tìm kiếm và hiệu quả lưu trữ, thêm các trường siêu dữ liệu bổ sung cho Tóm tắt, ID nhà tài trợ, thông tin tài trợ và Giá trị nhận dạng tổ chức và điền vào những nơi có siêu dữ liệu này từ các nguồn của chúng tôi.
Cuối cùng, một giao diện sẽ được triển khai và cung cấp cho các chuyên gia tên miền đáng tin cậy để cho phép quản lý siêu dữ liệu thủ công trực tiếp theo thời gian thực do OpenCites Meta nắm giữ. Hệ thống như vậy sẽ theo dõi các thay đổi và nguồn gốc, sẽ bảo toàn delta giữa các phiên bản khác nhau của từng thực thể và sẽ lưu giữ thông tin như tác nhân chịu trách nhiệm về thay đổi, nguồn chính và ngày tháng. Bằng cách này, chúng tôi sẽ cố gắng làm cho OpenCites Meta không chỉ toàn diện mà còn là nguồn siêu dữ liệu thư mục chính xác, hoàn toàn mở và có thể tái sử dụng mà các thành viên của cộng đồng học thuật có thể đóng góp trực tiếp.
Công việc này đã được Chương trình Nghiên cứu và Đổi mới Horizon 2020 của Liên minh Châu Âu tài trợ một phần theo thỏa thuận tài trợ số 101017452 (Dự án OpenAIRE-Nexus).
Abramatic, J.-F., Di Cosmo, R., & Zacchiroli, S. (2018). Xây dựng kho lưu trữ phổ quát của mã nguồn. Thông tin liên lạc của ACM, 61 (10), 29–31. https://doi.org/10.1145/3183558
Atzori, C., Bardi, A., Manghi, P., & Mannocci, A. (2017). Quy trình làm việc OpenAIRE dành cho quản lý dữ liệu [Tiêu đề loạt bài: Truyền thông trong khoa học máy tính và thông tin]. Trong C. Grana & L. Baraldi (Eds.), Thư viện và Lưu trữ Kỹ thuật số (trang 95–107). Nhà xuất bản quốc tế Springer. https://doi.org/10.1007/978-3-319-68130-6_8
Auer, S., Oelen, A., Haris, M., Stocker, M., D'Souza, J., Farfar, KE, Vogt, L., Prinz, M., Wiens, V., & Jaradeh, MY (2020). Cải thiện khả năng tiếp cận tài liệu khoa học bằng Sơ đồ tri thức. Bibliothek Forschung und Praxis, 44 (3), 516–529. https://doi.org/10.1515/bfp-2020-2042
Hội đồng quản trị, DU (2020). Điều khoản siêu dữ liệu DCMI. Được truy cập ngày 16 tháng 7 năm 2021, từ http://dublincore.org/specutions/dublin-core/dcmi-terms/2020-01-20/
Brase, J. (2009). DataCite - Cơ quan đăng ký dữ liệu nghiên cứu toàn cầu. Hội nghị quốc tế lần thứ tư năm 2009 về hợp tác và thúc đẩy tài nguyên thông tin trong khoa học và công nghệ, 257–261. https://doi.org/10.1109/COINFO.2009.66
Brase, J. (2010). Datacite - Cơ quan đăng ký dữ liệu nghiên cứu toàn cầu. Tạp chí điện tử SSRN. https://doi.org/10.2139/ssrn.1639998
Carroll, JJ, Bizer, C., Hayes, P., & Stickler, P. (2005). Đồ thị được đặt tên, xuất xứ và độ tin cậy. Kỷ yếu hội nghị quốc tế lần thứ 14 về World Wide Web - WWW '05, 613. https://doi.org/10.1145/1060745. 1060835
Daquino, M., & Peroni, S. (2019). OCO, Bản thể luận OpenCites. Truy cập ngày 4 tháng 9 năm 2021, từ https://w3id.org/oc/ontology/2019-09-19
Daquino, M., Peroni, S., & Shotton, D. (2020). Mô hình dữ liệu OpenCites [Kích thước tác phẩm nghệ thuật: 836876 Byte Nhà xuất bản: figshare], 836876 Byte. https://doi.org/10.6084/M9.FIGSHARE.3443876.V7
Dhakal, K. (2019). Bỏ tường phí. Tạp chí của Hiệp hội Thư viện Y khoa, 107 (2). https://doi.org/10.5195/jmla.2019.650
Ủy ban châu Âu. Tổng cục Nghiên cứu và Đổi mới. (2016). Hiện thực hóa đám mây khoa học mở châu Âu: Báo cáo đầu tiên và các khuyến nghị của nhóm chuyên gia cấp cao của Ủy ban về đám mây khoa học mở châu Âu. Văn phòng xuất bản. Truy cập ngày 17 tháng 10 năm 2022, từ https://data.europa.eu/doi/10.2777/940154
Falco, R., Gangemi, A., Peroni, S., Shotton, D., & Vitali, F. (2014). Mô hình hóa các bản thể OWL bằng Graffoo [Tiêu đề loạt bài: Ghi chú bài giảng về khoa học máy tính]. Trong V. Presutti, E. Blomqvist, R. Troncy, H. Sack, I. Papadakis, & A. Tordai (Eds.), The Semantic Web: ESWC 2014 Satellite Events (trang 320–325). Nhà xuất bản quốc tế Springer. https://doi.org/10. 1007/978-3-319-11955-7_42
Fricke, S. (2018). Học giả ngữ nghĩa. Tạp chí của Hiệp hội Thư viện Y khoa, 106 (1). https://doi.org/10.5195/jmla.2018.280
Garcia, A., Lopez, F., Garcia, L., Giraldo, O., Bucheli, V., & Dumontier, M. (2018). Biotea: Ngữ nghĩa cho Pubmed Central. PeerJ, 6, e4201. https://doi.org/10.7717/peerj.4201
Dân ngoại, AL, & Nuzzolese, AG (2015). cLODg-Trình tạo dữ liệu mở được liên kết hội nghị. ISWC (Áp phích & Bản trình diễn).
Gil, Y., Cheney, J., Groth, P., Hartig, O., Miles, S., Moreau, L., & Silva, P. (2010). Báo cáo cuối cùng của Provenance XG [Loại: W3C.]. http://www.w3. org/2005/Vườn ươm/prov/XGR-prov-20101214/
Gorraiz, J., Melero-Fuentes, D., Gumpenberger, C., & Valderrama-Zurián, J.-C. (2016). Tính khả dụng của mã định danh đối tượng kỹ thuật số (DOI) trong Web of Science và Scopus. Tạp chí Tin học, 10(1), 98–109. https://doi.org/ 10.1016/j.joi.2015.11.008
Haak, LL, Fenner, M., Paglione, L., Pentz, E., & Ratner, H. (2012). ORCID: Một hệ thống để nhận dạng duy nhất các nhà nghiên cứu. Nhà xuất bản đã học, 25 (4), 259–264. https://doi.org/10.1087/20120404
Hammond, T., Pasin, M., & Theodoridis, E. (2017). Tích hợp và phân rã dữ liệu: Quản lý Springer Nature SciGraph bằng SHACL và OWL. ISWC (Áp phích, bản trình diễn & bản nhạc trong ngành). http://ceur-ws.org/Vol1963/paper493.pdf
Hara, M. (2020). Giới thiệu Trung tâm Liên kết Nhật Bản (JaLC) [Kích thước tác phẩm nghệ thuật: 2213661 Byte Nhà xuất bản: ORCID], 2213661 Byte. https://doi.org/10. 23640/07243.12469094.V1
Heibi, I., Peroni, S., & Shotton, D. (2019a). Nguồn lực cộng đồng các trích dẫn mở với CROCI – Một phân tích về tình trạng hiện tại của các trích dẫn mở và một đề xuất [arXiv: 1902.02534]. arXiv:1902.02534 [cs]. Truy cập ngày 15 tháng 9 năm 2021 từ http://arxiv.org/abs/1902.02534
Heibi, I., Peroni, S., & Shotton, D. (2019b). Đánh giá phần mềm: COCI, Chỉ số OpenCites của các trích dẫn DOI-to-DOI mở của Crossref. Khoa học lượng học, 121 (2), 1213–1228. https://doi.org/10.1007/s11192-019-03217-6
Hendricks, G., Tkaczyk, D., Lin, J., & Feeney, P. (2020). Crossref: Nguồn siêu dữ liệu học thuật bền vững do cộng đồng sở hữu. Nghiên cứu Khoa học Định lượng, 1 (1), 414–427. https://doi.org/10.1162/qss_a_00022
ICite, Hutchins, BI, & Santangelo, G. (2022). Ảnh chụp nhanh cơ sở dữ liệu iCite (Bộ sưu tập trích dẫn mở NIH) [Nhà xuất bản: Kho lưu trữ NIH Figshare]. https://doi.org/10.35092/YHJC.C.4586573
Koivunen, M.-R., & Miller, E. (2001). Hoạt động web ngữ nghĩa [Phiên bản: W3C Tập: 11 02]. https://www.w3.org/2001/12/semweb-fin/w3csw
Lammey, R. (2020). Giải pháp cho vấn đề nhận dạng: Nhìn vào Cơ quan đăng ký tổ chức nghiên cứu. Biên tập khoa học, 7 (1), 65–69. https://doi.org/ 10.6087/kcse.192
Lebo, T., Sahoo, S., & McGuinness, D. (2013). PROV-O: Bản thể PROV [Vị trí: PROV-O Tập: 04 30]. Truy cập ngày 16 tháng 7 năm 2021 từ http://www.w3.org/TR/2013/REC-prov-o-20130430/
Maloney, C., Sequeira, E., Kelly, C., Orris, R., & Beck, J. (2013). Trung tâm PubMed. Trong Sổ tay NCBI.
Manghi, P., Manola, N., Horstmann, W., & Peters, D. (2010). Cơ sở hạ tầng để quản lý đầu ra nghiên cứu được EC tài trợ: Dự án OpenAIRE. Tạp chí Grey (TGJ), 6 (1).
Massari, A., & Heibi, I. (2022). Cách cấu trúc dữ liệu trích dẫn và siêu dữ liệu thư mục ở định dạng được OpenCites chấp nhận. Kỷ yếu Hội thảo Tìm hiểu các tài liệu tham khảo Văn học trong văn bản học thuật đầy đủ TExt, 3220. http://ceur-ws.org/Vol-3220/invited-talk2.pdf
Massari, A., & Peroni, S. (2022). Thực hiện các truy vấn truyền tải thời gian trực tiếp thông qua SPARQL trên bộ dữ liệu RDF [Nhà xuất bản: arXiv Số phiên bản: 2]. https://doi.org/10.48550/ARXIV.2210.02534
Mora-Cantallops, M., Sánchez-Alonso, S., & García-Barriocanal, E. (2019). Một bài phê bình tài liệu có hệ thống trên Wikidata. Công nghệ dữ liệu và ứng dụng, 53 (3), 250–268. https://doi.org/10.1108/DTA-12-2018-0110
Morrison, H. (2017). Thư mục các tạp chí truy cập mở (DOAJ). Cố vấn Charleston, 18 (3), 25–28. https://doi.org/10.5260/chara.18.3.25
Nielsen, F. Å., Mietchen, D., & Willighagen, EL (2017). Scholia, Khoa học và Wikidata. Trong E. Blomqvist, K. HOSE, H. Paulheim, A. Lawrynowicz, F. Ciravegna, & O. Hartig (Eds.), The Semantic Web: ESWC 2017 Satellite Events - ESWC 2017 Satellite Events, Portorož, Slovenia, ngày 28 tháng 5 - Ngày 1 tháng 6 năm 2017, Các bài báo được chọn đã sửa đổi (trang 237–259). Mùa xuân. https://doi.org/10.1007/978-3-319-70407-4_36
Nuzzolese, AG, Gentile, AL, Presutti, V., & Gangemi, A. (2016). Bản thể luận hội nghị web ngữ nghĩa-một giải pháp tái cấu trúc. Hội nghị web ngữ nghĩa châu Âu, 84–87.
OpenCites. (2022). Tập dữ liệu CSV COCI của tất cả dữ liệu trích dẫn. https://doi. org/10.6084/M9.FIGSHARE.6741422.V18
OpenCites. (2023a). Bộ dữ liệu OpenCites Meta CSV của tất cả siêu dữ liệu thư mục. https://doi.org/10.6084/M9.FIGSHARE.21747461.V3
OpenCites. (2023b). Bộ dữ liệu OpenCites Meta RDF của tất cả siêu dữ liệu thư mục và thông tin xuất xứ của nó. https://doi.org/10.6084/M9. FIGSHARE.21747536.V3
Pelgrin, O., Galárraga, L., & Ống, K. (2021). Hướng tới việc lưu trữ đầy đủ cho các bộ dữ liệu RDF (A.-C. Ngonga Ngomo, M. Saleem, R. Verborgh, M. Saleem, R. Verborgh, MI Ali, & O. Hartig, Eds.). Tạp chí Web ngữ nghĩa, 12 (6), 903–925. https://doi.org/10.3233/SW-210434
Peroni, S., & Shotton, D. (2018). Trích dẫn mở: Định nghĩa [Kích thước tác phẩm nghệ thuật: 95436 Byte Nhà xuất bản: figshare], 95436 Byte. https://doi.org/10.6084/M9. FIGSHARE.6683855.V1
Peroni, S., & Shotton, D. (2020). OpenCites, một tổ chức cơ sở hạ tầng cho học bổng mở [_eprint: https://direct.mit.edu/qss/articlepdf/1/1/428/1760920/qss_a_00023.pdf]. Nghiên cứu Khoa học Định lượng, 1 (1), 428–444. https://doi.org/10.1162/qss_a_00023
Peroni, S., Shotton, D., & Vitali, F. (2012). Xuất bản học thuật và dữ liệu liên kết: Mô tả vai trò, trạng thái, phạm vi thời gian và ngữ cảnh. Kỷ yếu Hội thảo Quốc tế về Hệ thống Ngữ nghĩa lần thứ 8 - I-SEMANTICS '12, 9. https://doi.org/10.1145/2362499.2362502
Ba Tư, S., Daquino, M., & Peroni, S. (2022). Giao diện lập trình để tạo dữ liệu theo Bản thể SPAR và Mô hình dữ liệu OpenCites [Tiêu đề loạt bài: Ghi chú bài giảng về khoa học máy tính]. Trong P. Groth, M.-E. Vidal, F. Suchanek, P. Szekley, P. Kapanipathi, C. Pesquita, H. Skaf-Molli, & M. Tamper (Eds.), The Semantic Web (trang 305–322). Nhà xuất bản quốc tế Springer. https://doi.org/10. 1007/978-3-031-06981-9_18
Pranckut˙e, R. (2021). Web of Science (WoS) và Scopus: Những gã khổng lồ về thông tin thư mục trong thế giới học thuật ngày nay. Ấn phẩm, 9 (1), 12. https://doi.org/10.3390/publications9010012
Priem, J., Piwowar, HA, & Orr, R. (2022). OpenAlex: Một chỉ mục mở hoàn toàn về các tác phẩm học thuật, tác giả, địa điểm, tổ chức và khái niệm [arXiv: 2205.01833]. CoRR, abs/2205.01833. https://doi.org/10.48550/arXiv. 2205.01833
Nghiên cứu, EOFN và OpenAIRE. (2013). Zenodo: Nghiên cứu. Đã chia sẻ. [Nhà xuất bản: CERN]. https://doi.org/10.25495/7GXK-RD71
Sigurdsson, S. (2020). Tương lai của arXiv và khám phá tri thức trong khoa học mở Kỷ yếu của Hội thảo đầu tiên về xử lý tài liệu học thuật, 7–9. https://doi.org/10.18653/v1/2020.sdp-1.2
Sikos, LF, & Philp, D. (2020). Trình bày kiến thức nhận thức về nguồn gốc: Khảo sát về mô hình dữ liệu và biểu đồ tri thức theo ngữ cảnh. Khoa học và Kỹ thuật Dữ liệu, 5 (3), 293–316. https://doi. org/10.1007/s41019-020-00118-0
Subramanian, S., King, D., Downey, D., & Feldman, S. (2021). S2AND: Hệ thống điểm chuẩn và đánh giá để phân biệt tên tác giả. Hội nghị chung ACM/IEEE 2021 về Thư viện kỹ thuật số (JCDL), 170– 179. https://doi.org/10.1109/JCDL52503.2021.00029
Tanon, TP, Vrandecic, D., Schaffert, S., Steiner, T., & Pintscher, L. (2016). Từ Freebase đến Wikidata: Cuộc di cư vĩ đại. Trong J. Bourdeau, J. Hendler, R. Nkambou, I. Horrocks, & BY Zhao (Eds.), Kỷ yếu của Hội nghị quốc tế lần thứ 25 về World Wide Web, WWW 2016, Montreal, Canada, ngày 11 - 15 tháng 4 năm 2016 ( trang 1419–1428). ACM. https://doi.org/10.1145/2872427.2874809
Hiệp hội PMC Châu Âu (2015). PMC Châu Âu: Cơ sở dữ liệu tài liệu toàn văn về khoa học đời sống và nền tảng cho sự đổi mới. Nghiên cứu Axit Nucleic, 43 (D1), D1042–D1048. https://doi.org/10.1093/nar/gku1061
Tillett, B. (2005). FRBR là gì? Một mô hình khái niệm cho vũ trụ thư mục. Tạp chí Thư viện Úc, 54 (1), 24–30. https://doi. org/10.1080/00049670.2005.10721710
Tầm nhìn, T. (2010). Kho lưu trữ kỹ thuật số Dryad: Dữ liệu tiến hóa được xuất bản như một phần của hệ sinh thái dữ liệu lớn hơn. Thiên nhiên đi trước. https://doi. org/10.1038/npre.2010.4595.1
Wilkinson, MD, Dumontier, M., Aalbersberg, IJ, Appleton, G., Axton, M., Baak, A., Blomberg, N., Boiten, J.-W., da Silva Santos, LB, Bourne, PE , Bouwman, J., Brookes, AJ, Clark, T., Crosas, M., Dillo, I., Dumon, O., Edmunds, S., Evelo, CT, Finkers, R., . . . Thứ Hai, B. (2016). Nguyên tắc hướng dẫn FAIR về quản lý và quản lý dữ liệu khoa học. Dữ liệu Khoa học, 3 (1), 160018. https://doi.org/10. 1038/sdata.2016.18
Wolf, M., & Wicksteed, C. (1997). Định dạng ngày và giờ. Truy cập ngày 9 tháng 5 năm 2022 từ https://www.w3.org/TR/NOTE-datetime
Zhang, Z., Nuzzolese, AG, & Gentile, AL (2017). Loại bỏ trùng lặp thực thể trên dữ liệu Scholarly [Tiêu đề loạt bài: Ghi chú bài giảng về khoa học máy tính]. Trong E. Blomqvist, D. Maynard, A. Gangemi, R. Hoekstra, P. Hitzler, & O. Hartig (Eds.), The Semantic Web (trang 85–100). Nhà xuất bản quốc tế Springer. https://doi.org/10.1007/978-3-319-58068-5_6
Bài viết này có sẵn trên arxiv theo giấy phép CC 4.0 DEED.