Авторы:
(1) Арканджело Массари, Исследовательский центр открытых научных метаданных, факультет классической филологии и итальянских исследований, Болонский университет, Болонья, Италия {[email protected]};
(2) Фабио Мариани, Институт философии и искусств, Университет Леуфана, Люнебург, Германия {[email protected]};
(3) Иван Хейби, Исследовательский центр открытых научных метаданных, факультет классической филологии и итальянских исследований, Болонский университет, Болонья, Италия, и Центр перспективных исследований цифровых гуманитарных наук (/DH.arc), факультет классической филологии и итальянских исследований, университет Болонья, Болонья, Италия {[email protected]};
(4) Сильвио Перони, Исследовательский центр открытых научных метаданных, факультет классической филологии и итальянских исследований, Болонский университет, Болонья, Италия, и Центр перспективных исследований цифровых гуманитарных наук (/DH.arc), факультет классической филологии и итальянских исследований, университет Болонья, Болонья, Италия {[email protected]};
(5) Дэвид Шоттон, Оксфордский центр электронных исследований, Оксфордский университет, Оксфорд, Великобритания {[email protected]}.
В этой статье подробно описана методология, использованная для разработки OpenCitations Meta — базы данных, которая хранит и доставляет библиографические метаданные для всех публикаций, включенных в индексы OpenCitations. Этот процесс включает в себя два основных этапа: (1) автоматический анализ курирования, направленный на дедупликацию объектов, исправление ошибок и обогащение информации, и (2) преобразование данных в RDF с отслеживанием изменений и происхождения в RDF.
Информация о новых публикациях постоянно добавляется в Crossref, DataCite и PubMed, и мы разработаем процедуры для регулярного и своевременного добавления этих новых метаданных в метаданные OpenCitations. Кроме того, уже ведется работа по получению библиографических метаданных из Japan Link Center и OpenAIRE Research Graph, а другие источники будут включены, если позволят наши человеческие и вычислительные ресурсы. Таким образом, OpenCitations Meta будет продолжать расти.
OpenCitations Meta имеет три основных преимущества. Во-первых, использование OMID (мета-идентификаторов OpenCitation) для всех хранимых объектов позволяет OpenCitations Meta действовать как центр сопоставления для публикаций, которые могут иметь более одного внешнего PID (например, журнальная статья, описанная в Crossref, с DOI (цифровой идентификатор объекта) ), и той же публикации, описанной в PubMed, с PMID (идентификатор PubMed), а также позволяет характеризовать цитирования, включающие ресурсы, не имеющие каких-либо внешних PID. Следовательно, второе преимущество заключается в том, что OpenCitations Meta позволяет описывать цитирования в индексах OpenCitations как. OMID-to-OMID, устранение неоднозначности цитат между документами с различными схемами идентификаторов, например, представленными как DOI-to-DOI в Crossref и PMID-to-PMID в PubMed. В-третьих, OpenCitations Meta ускоряет операции поиска для получения метаданных о публикациях, участвующих в цитировании. хранятся в индексах цитирования OpenCitations, поскольку эти метаданные теперь хранятся внутри компании, а не извлекаются с помощью оперативных вызовов API к внешним ресурсам.
Будущие задачи будут заключаться в разработке системы устранения неоднозначности для людей, у которых нет идентификатора ORCID, в улучшении качества существующих метаданных, в улучшении операций поиска и эффективности хранения, в добавлении дополнительных полей метаданных для тезисов, идентификаторов спонсоров, информации о финансировании и Институциональные идентификаторы и заполнять их там, где эти метаданные доступны из наших источников.
Наконец, будет реализован интерфейс, который будет доступен доверенным экспертам в предметной области, чтобы обеспечить прямое ручное управление метаданными, хранящимися в OpenCitations Meta, в режиме реального времени. Такая система будет отслеживать изменения и происхождение, сохранять разницу между различными версиями каждого объекта и сохранять такую информацию, как агент, ответственный за изменение, первоисточник и дата. Таким образом, мы будем стремиться сделать OpenCitations Meta не только всеобъемлющим, но и точным, полностью открытым и пригодным для многократного использования источником библиографических метаданных, в который члены научного сообщества могут внести непосредственный вклад.
Эта работа частично профинансирована программой исследований и инноваций Европейского Союза Horizon 2020 в рамках грантового соглашения № 101017452 (проект OpenAIRE-Nexus).
Абраматик Ж.-Ф., Ди Космо Р. и Закчироли С. (2018). Создание универсального архива исходного кода. Сообщения ACM, 61 (10), 29–31. https://doi.org/10.1145/3183558
Ацори К., Барди А., Манги П. и Манноччи А. (2017). Рабочие процессы OpenAIRE для управления данными [Название серии: Коммуникации в компьютерных и информационных науках]. В К. Грана и Л. Баральди (ред.), Цифровые библиотеки и архивы (стр. 95–107). Международное издательство Спрингер. https://doi.org/10.1007/978-3-319-68130-6_8
Ауэр С., Оэлен А., Харис М., Стокер М., Д'Суза Дж., Фарфар К.Е., Фогт Л., Принц М., Винс В. и Джараде М.Ю. (2020). Улучшение доступа к научной литературе с помощью графов знаний. Библиотека Forschung und Praxis, 44 (3), 516–529. https://doi.org/10.1515/bfp-2020-2042
Совет, ДУ (2020). Условия метаданных DCMI. Получено 16 июля 2021 г. с http://dublincore.org/specifications/dublin-core/dcmi-terms/2020-01-20/.
Брейс, Дж. (2009). DataCite — глобальное агентство регистрации исследовательских данных. Четвертая Международная конференция 2009 г. по сотрудничеству и продвижению информационных ресурсов в области науки и технологий, 257–261. https://doi.org/10.1109/COINFO.2009.66
Брейс, Дж. (2010). Datacite — глобальное агентство регистрации исследовательских данных. Электронный журнал ССРН. https://doi.org/10.2139/ssrn.1639998
Кэрролл Дж. Дж., Бизер К., Хейс П. и Стиклер П. (2005). Именованные графики, происхождение и доверие. Материалы 14-й международной конференции по Всемирной паутине - WWW '05, 613. https://doi.org/10.1145/1060745. 1060835
Дакино М. и Перони С. (2019). OCO, онтология OpenCitations. Получено 4 сентября 2021 г. с https://w3id.org/oc/ontology/2019-09-19.
Дакино М., Перони С. и Шоттон Д. (2020). Модель данных OpenCitations [Размер изображения: 836876 байт. Издатель: figshare], 836876 байт. https://doi.org/10.6084/M9.FIGSHARE.3443876.V7
Дакал, К. (2019). Неплатный доступ. Журнал Ассоциации медицинских библиотек, 107 (2). https://doi.org/10.5195/jmla.2019.650
Европейская комиссия. Генеральный директорат по исследованиям и инновациям. (2016). Реализация европейского облака открытой науки: первый отчет и рекомендации экспертной группы высокого уровня Комиссии по европейскому облаку открытой науки. Офис публикаций. Получено 17 октября 2022 г. с https://data.europa.eu/doi/10.2777/940154.
Фалько Р., Гангеми А., Перони С., Шоттон Д. и Витали Ф. (2014). Моделирование онтологий OWL с помощью Graffoo [Название серии: Конспекты лекций по информатике]. В. Пресутти, Э. Бломквист, Р. Тронси, Х. Сак, И. Пападакис и А. Тордай (ред.), The Semantic Web: Satellite Events ESWC 2014 (стр. 320–325). Международное издательство Спрингер. https://doi.org/10. 1007/978-3-319-11955-7_42
Фрике, С. (2018). Семантический учёный. Журнал Ассоциации медицинских библиотек, 106 (1). https://doi.org/10.5195/jmla.2018.280
Гарсия А., Лопес Ф., Гарсия Л., Хиральдо О., Бучели В. и Дюмонтье М. (2018). Биотея: семантика для Pubmed Central. ПерДж, 6, e4201. https://doi.org/10.7717/peerj.4201
Джентиле, Ал., и Нуццолезе, А.Г. (2015). Генератор открытых данных, связанный с cLODg-Конференцией. ISWC (Плакаты и демонстрации).
Гил Ю., Чейни Дж., Грот П., Хартиг О., Майлз С., Моро Л. и Сильва П. (2010). Итоговый отчет Provenance XG [Тип: W3C.]. http://www.w3. org/2005/Incubator/prov/XGR-prov-20101214/
Горрайс Дж., Мелеро-Фуэнтес Д., Гумпенбергер К. и Вальдеррама-Суриан Ж.-К. (2016). Доступность идентификаторов цифровых объектов (DOI) в Web of Science и Scopus. Журнал Информметрики, 10 (1), 98–109. https://doi.org/10.1016/j.joi.2015.11.008
Хаак Л.Л., Феннер М., Паглионе Л., Пентц Э. и Ратнер Х. (2012). ORCID: Система уникальной идентификации исследователей. Издательство Learned, 25 (4), 259–264. https://doi.org/10.1087/20120404
Хаммонд Т., Пасин М. и Теодоридис Э. (2017). Интеграция и дезинтеграция данных: управление Springer Nature SciGraph с помощью SHACL и OWL. ISWC (плакаты, демо и отраслевые треки). http://ceur-ws.org/Vol1963/paper493.pdf
Хара, М. (2020). Представление Японского центра ссылок (JaLC) [Размер изображения: 2213661 байт. Издатель: ORCID], 2213661 байт. https://doi.org/10. 23640/07243.12469094.В1
Хейби И., Перони С. и Шоттон Д. (2019a). Краудсорсинг открытого цитирования с помощью CROCI – анализ текущего состояния открытого цитирования и предложение [arXiv: 1902.02534]. arXiv:1902.02534 [cs]. Получено 15 сентября 2021 г. с http://arxiv.org/abs/1902.02534.
Хейби И., Перони С. и Шоттон Д. (2019b). Обзор программного обеспечения: COCI, индекс OpenCitations индекса открытых ссылок DOI на DOI Crossref. Наукометрика, 121 (2), 1213–1228. https://doi.org/10.1007/s11192-019-03217-6
Хендрикс Г., Ткачик Д., Лин Дж. и Фини П. (2020). Crossref: устойчивый источник научных метаданных, принадлежащих сообществу. Количественные научные исследования, 1 (1), 414–427. https://doi.org/10.1162/qss_a_00022
ICite, Хатчинс, Б.И., и Сантанджело, Г. (2022). Снимки базы данных iCite (Коллекция открытого цитирования NIH) [Издатель: Архив NIH Figshare]. https://doi.org/10.35092/YHJC.C.4586573
Койвунен М.-Р. и Миллер Э. (2001). Семантическая веб-активность [Издание: W3C, том: 11 02]. https://www.w3.org/2001/12/semweb-fin/w3csw
Ламми, Р. (2020). Решения проблем с идентификацией: взгляд на реестр исследовательских организаций. Научное редактирование, 7 (1), 65–69. https://doi.org/10.6087/kcse.192
Лебо Т., Саху С. и МакГиннесс Д. (2013). PROV-O: Онтология PROV [Место: PROV-O, том: 04 30]. Получено 16 июля 2021 г. с http://www.w3.org/TR/2013/REC-prov-o-20130430/.
Мэлони К., Секейра Э., Келли К., Оррис Р. и Бек Дж. (2013). ПабМед Централ. В Справочнике NCBI.
Манги П., Манола Н., Хорстманн В. и Питерс Д. (2010). Инфраструктура для управления результатами исследований, финансируемых ЕС: проект OpenAIRE. Серый журнал (TGJ), 6 (1).
Массари А. и Хейби И. (2022). Как структурировать данные цитат и библиографические метаданные в формате, принятом OpenCitations. Материалы семинара по пониманию литературных ссылок в академическом полном тексте TExt, 3220. http://ceur-ws.org/Vol-3220/invited-talk2.pdf
Массари А. и Перони С. (2022). Выполнение запросов с обходом времени в реальном времени через SPARQL к наборам данных RDF [Издатель: arXiv, номер версии: 2]. https://doi.org/10.48550/ARXIV.2210.02534
Мора-Канталлопс М., Санчес-Алонсо С. и Гарсиа-Барриоканал Э. (2019). Систематический обзор литературы по Викиданным. Технологии обработки данных и приложения, 53 (3), 250–268. https://doi.org/10.1108/DTA-12-2018-0110
Моррисон, Х. (2017). Каталог журналов открытого доступа (DOAJ). Советник Чарльстона, 18 (3), 25–28. https://doi.org/10.5260/chara.18.3.25
Нильсен, Ф.О., Митчен, Д., и Уиллигхаген, Э.Л. (2017). Схолия, наукометрика и Викиданные. Э. Бломквист, К. Хозе, Х. Паульхайм, А. Лауринович, Ф. Чиравенья и О. Хартиг (ред.), The Semantic Web: Satellite Events ESWC 2017 - Satellite Events ESWC 2017, Порторож, Словения, 28 мая. – 1 июня 2017 г., Переработанные избранные статьи (стр. 237–259). Спрингер. https://doi.org/10.1007/978-3-319-70407-4_36
Нуццолезе А.Г., Джентиле А.Л., Пресутти В. и Гангеми А. (2016). Онтология семантической веб-конференции — решение для рефакторинга. Европейская семантическая веб-конференция, 84–87.
Открытые цитаты. (2022). Набор данных COCI CSV со всеми данными цитирования. https://дой. org/10.6084/M9.FIGSHARE.6741422.V18
Открытые цитаты. (2023а). Набор данных OpenCitations Meta CSV, содержащий все библиографические метаданные. https://doi.org/10.6084/M9.FIGSHARE.21747461.V3
Открытые цитаты. (2023б). Набор данных OpenCitations Meta RDF, содержащий все библиографические метаданные и информацию об их происхождении. https://doi.org/10.6084/M9. ФИГШАРЕ.21747536.V3
Пелгрин О., Галаррага Л. и Хозе К. (2021). На пути к полноценному архивированию наборов данных RDF (А.-К. Нгонга Нгомо, М. Салим, Р. Верборг, М. Салим, Р. Верборг, М. И. Али и О. Хартиг, ред.). Семантический веб-журнал, 12 (6), 903–925. https://doi.org/10.3233/SW-210434
Перони С. и Шоттон Д. (2018). Открытое цитирование: Определение [Размер работы: 95436 Байт Издательство: figshare], 95436 Байт. https://doi.org/10.6084/M9. ФИГШАРЕ.6683855.V1
Перони С. и Шоттон Д. (2020). OpenCitations, инфраструктурная организация для открытых стипендий [_eprint: https://direct.mit.edu/qss/articlepdf/1/1/428/1760920/qss_a_00023.pdf]. Количественные научные исследования, 1 (1), 428–444. https://doi.org/10.1162/qss_a_00023
Перони С., Шоттон Д. и Витали Ф. (2012). Научная публикация и связанные данные: описание ролей, статусов, временных и контекстуальных масштабов. Материалы 8-й Международной конференции по семантическим системам - I-SEMANTICS '12, 9. https://doi.org/10.1145/2362499.2362502.
Персиани С., Дакино М. и Перони С. (2022). Программный интерфейс для создания данных в соответствии с онтологиями SPAR и моделью данных OpenCitations [Название серии: Конспекты лекций по информатике]. У П. Грота, М.-Э. Видал, Ф. Суханек, П. Секли, П. Капанипати, К. Пескита, Х. Скаф-Молли и М. Тампер (ред.), The Semantic Web (стр. 305–322). Международное издательство Спрингер. https://doi.org/10. 1007/978-3-031-06981-9_18
Пранккуте, Р. (2021). Web of Science (WoS) и Scopus: титаны библиографической информации в современном академическом мире. Публикации, 9 (1), 12. https://doi.org/10.3390/publications9010012.
Прием Дж., Пивовар Х.А. и Орр Р. (2022). OpenAlex: Полностью открытый указатель научных работ, авторов, площадок, учреждений и концепций [arXiv: 2205.01833]. КоРР, абс/2205.01833. https://doi.org/10.48550/arXiv. 2205.01833
Исследования, EOFN и OpenAIRE. (2013). Зенодо: Исследования. Общий. [Издательство: ЦЕРН]. https://doi.org/10.25495/7GXK-RD71
Сигурдссон, С. (2020). Будущее arXiv и открытие знаний в открытой науке. Материалы первого семинара по обработке научных документов, 7–9. https://doi.org/10.18653/v1/2020.sdp-1.2
Сикос, Л.Ф., и Филп, Д. (2020). Представление знаний с учетом происхождения: обзор моделей данных и контекстуализированных графов знаний. Наука о данных и инженерия, 5 (3), 293–316. https: // дои. орг/10.1007/s41019-020-00118-0
Субраманиан С., Кинг Д., Дауни Д. и Фельдман С. (2021). S2AND: Система эталона и оценки для устранения неоднозначности имени автора. Совместная конференция ACM/IEEE по цифровым библиотекам (JCDL) 2021 г., 170–179. https://doi.org/10.1109/JCDL52503.2021.00029.
Танон Т.П., Врандечич Д., Шафферт С., Штайнер Т. и Пинчер Л. (2016). От Freebase к Викиданным: Великая миграция. В Дж. Бурдо, Дж. Хендлере, Р. Нкамбоу, И. Хорроксе и Б. Чжао (ред.), Труды 25-й Международной конференции по Всемирной паутине, WWW 2016, Монреаль, Канада, 11–15 апреля 2016 г. ( стр. 1419–1428). АКМ. https://doi.org/10.1145/2872427.2874809
Европейский консорциум PMC. (2015). Europe PMC: Полнотекстовая база данных литературы по наукам о жизни и платформа для инноваций. Исследования нуклеиновых кислот, 43 (D1), D1042–D1048. https://doi.org/10.1093/nar/gku1061
Тиллетт, Б. (2005). Что такое ФРБР? Концептуальная модель библиографической вселенной. Австралийский библиотечный журнал, 54 (1), 24–30. https://дой. орг/10.1080/00049670.2005.10721710
Вижн, Т. (2010). Цифровой репозиторий Dryad: опубликованные эволюционные данные как часть большей экосистемы данных. Предшественники природы. https://дой. орг/10.1038/npre.2010.4595.1
Уилкинсон, доктор медицинских наук, Дюмонтье, М., Ольберсберг, И.Дж., Эпплтон, Г., Экстон, М., Баак, А., Бломберг, Н., Бойтен, Дж.-В., да Силва Сантос, Л.Б., Борн, П.Е. , Бауман, Дж., Брукс, А.Дж., Кларк, Т., Крозас, М., Дилло, И., Дюмон, О., Эдмундс, С., Эвело, Коннектикут, Финкерс, Р., . . . Монс, Б. (2016). Руководящие принципы FAIR по управлению и рациональному использованию научных данных. Научные данные, 3 (1), 160018. https://doi.org/10. 1038/sdata.2016.18
Вольф М. и Викстид К. (1997). Форматы даты и времени. Получено 9 мая 2022 г. с https://www.w3.org/TR/NOTE-datetime.
Чжан З., Нуццолезе А.Г. и Джентиле А.Л. (2017). Дедупликация сущностей в научных данных [Название серии: Конспекты лекций по информатике]. В книге Э. Бломквиста, Д. Мейнарда, А. Гангеми, Р. Хукстра, П. Хитцлера и О. Хартига (ред.), The Semantic Web (стр. 85–100). Международное издательство Спрингер. https://doi.org/10.1007/978-3-319-58068-5_6
Этот документ доступен на arxiv под лицензией CC 4.0 DEED.