Авторы:
(1) Арканджело Массари, Исследовательский центр открытых научных метаданных, факультет классической филологии и итальянских исследований, Болонский университет, Болонья, Италия {[email protected]};
(2) Фабио Мариани, Институт философии и искусств, Университет Леуфана, Люнебург, Германия {[email protected]};
(3) Иван Хейби, Исследовательский центр открытых научных метаданных, факультет классической филологии и итальянских исследований, Болонский университет, Болонья, Италия, и Центр перспективных исследований цифровых гуманитарных наук (/DH.arc), факультет классической филологии и итальянских исследований, университет Болонья, Болонья, Италия {[email protected]};
(4) Сильвио Перони, Исследовательский центр открытых научных метаданных, факультет классической филологии и итальянских исследований, Болонский университет, Болонья, Италия, и Центр перспективных исследований цифровых гуманитарных наук (/DH.arc), факультет классической филологии и итальянских исследований, университет Болонья, Болонья, Италия {[email protected]};
(5) Дэвид Шоттон, Оксфордский центр электронных исследований, Оксфордский университет, Оксфорд, Великобритания {[email protected]}.
Как показано в разделе 2, если рассматривать только наборы данных семантической публикации, OpenCitations Meta, который в настоящее время включает данные из Crossref, DataCite и NIH Open Citation Collection (ICite et al., 2022), занимает первое место по объему данных. Более того, уже ведется работа по получению данных из новых источников, таких как Japan Link Center (Hara, 2020), OpenAIRE Research Graph (Atzori et al., 2017) и Dryad Digital Repository (Vision, 2010).
По сравнению с OpenAIRE Research Graph, OpenCitations Meta имеет преимущества с точки зрения функциональности, а именно: использование OMID, глобальных уникальных постоянных идентификаторов, используемых внутри для идентификации каждого объекта в OpenCitations Meta. Такое использование позволяет представлять и индексировать цитаты между библиографическими ресурсами, у которых отсутствует внешний постоянный идентификатор, такой как идентификатор цифрового объекта (DOI). Эта функция повышает ценность индексов OpenCitations, поскольку впервые позволяет получать множество цитат, которые до сих пор было невозможно охарактеризовать, особенно цитаты между публикациями по гуманитарным и социальным наукам (Gorraiz et al., 2016). и цитаты, включающие первоисточники, например статую, картину или кодекс, которым обычно не хватает постоянного идентификатора. Важно отметить, что наличие OMID также позволяет назначить идентифицированному ресурсу уникальный URL-адрес, например https://w3id.org/oc/meta/br/061401975837 для omid:br/061401975837.
Еще одна особенность, которая, насколько нам известно, присутствует только в OpenCitations Meta, — это механизм управления отслеживанием изменений в информации о происхождении, хранящейся в RDF. Эту информацию можно запросить с помощью программного обеспечения временной библиотеки Python (Massari & Peroni, 2022). Он может выполнять запросы SPARQL с обходом времени, т. е. запросы к различным снимкам вместе с информацией о происхождении.
Что касается других наборов библиографических данных, не использующих технологии семантической сети, OpenAlex (Priem et al., 2022) является важным примером для сравнения с OpenCitations Meta. OpenAlex использует веб-сканирование для добавления недостающих метаданных — функцию, которая позволяет автоматически исправлять большее количество ошибок, появляющихся в данных источников, по сравнению с OpenCitations Meta.
Действительно, на данный момент основное ограничение OpenCitations Meta касается качества данных, которое строго зависит от качества источников. Crossref не проверяет метаданные, предоставляемые издателями, поэтому сохраняется множество ошибок. Например, можно встретить статьи, опубликованные в будущем (в метаданных, доступных по адресу https://api.crossref.org/v1/works/10.12960/tsh.2020.0006, говорится, что статья будет опубликована в печати в 2029 году). Некоторые из этих ошибок можно исправить автоматически без каких-либо дополнительных знаний, тогда как другие требуют либо использования веб-сканеров, либо ручного вмешательства. В то время как OpenAlex идет по пути веб-сканирования, OpenCitations работает над структурой, которая позволит редактировать и обрабатывать данные доверенным экспертам в области человеческой деятельности (например, академическим библиотекарям).
OpenCitations Meta выполняет свою основную задачу, храня библиографические метаданные, необходимые для описания цитирования и цитируемых публикаций, участвующих в цитировании, в индексах OpenCitations. Однако в дополнение к этим элементам библиографических метаданных мы хорошо понимаем, что существуют дополнительные элементы метаданных, имеющие большое значение для академического сообщества: рефераты для анализа текста, определения предметной области и предметной области, а также индексирования (даже если полные тексты публикации доступны в открытом доступе в других местах), а также идентификаторы спонсоров, информацию о финансировании и институциональные идентификаторы, необходимые для определения показателей эффективности и проведения оценки исследований. Как только мы завершим выполнение операций текстового поиска, расширим охват указанными способами и улучшим вычислительную инфраструктуру, на которой работают OpenCitations Meta и индексы OpenCitations, мы приступим к интеграции и заполнению этих дополнительных полей метаданных.
Предоставление высококачественных библиографических метаданных — сложная и трудная цель, которую можно достичь с помощью автоматизированных операций, в то время как масштаб операций исключает ручную обработку, за исключением меньшинства записей. Ни один набор библиографических данных в настоящее время не способен достичь этой цели самостоятельно. По этой причине все доступные библиографические базы данных следует рассматривать как взаимодополняющие. Например, в то время как на данный момент OpenAlex предоставляет метаданные более высокого качества, OpenCitations Meta имеет открытые полные данные о происхождении и обеспечивает более сложный поиск благодаря возможностям, предоставляемым технологиями Semantic Web. Например, «Найти всех авторов, которые вместе с Сильвио Перони или Фабио Витали писали материалы конференций, опубликованные Springer после 2009 года». Более того, OpenAlex бесплатен лишь частично, поскольку за выполнение более ста тысяч запросов в день через API и за доступ к данным, обновляемым каждый час через API (а не каждый месяц через дамп) необходимо платить плату[9]. Напротив, пользователи могут бесплатно отправлять неограниченное количество запросов к последней версии OpenCitations Meta.
Кроме того, хотя OpenAIRE Research Graph в настоящее время содержит больше метаданных, такие данные публикуются под лицензией атрибуции CC-BY, в то время как данные, выпущенные OpenCitations Meta, находятся под запретом общественного достояния CC0, что обеспечивает полную свободу повторного использования, включая повторное использование в коммерческих целях, и для машинной обработки без каких-либо требований об авторстве.
Этот документ доступен на arxiv под лицензией CC 4.0 DEED.