paint-brush
Мета OpenCitations: Аннотация и введениек@categorize
106 чтения

Мета OpenCitations: Аннотация и введение

Слишком долго; Читать

featured image - Мета OpenCitations: Аннотация и введение
Categorize.Tech: Organizing the World of Software HackerNoon profile picture
0-item

Авторы:

(1) Арканджело Массари, Исследовательский центр открытых научных метаданных, факультет классической филологии и итальянских исследований, Болонский университет, Болонья, Италия {[email protected]};

(2) Фабио Мариани, Институт философии и искусств, Университет Леуфана, Люнебург, Германия {[email protected]};

(3) Иван Хейби, Исследовательский центр открытых научных метаданных, факультет классической филологии и итальянских исследований, Болонский университет, Болонья, Италия, и Центр перспективных исследований цифровых гуманитарных наук (/DH.arc), факультет классической филологии и итальянских исследований, университет Болонья, Болонья, Италия {[email protected]};

(4) Сильвио Перони, Исследовательский центр открытых научных метаданных, факультет классической филологии и итальянских исследований, Болонский университет, Болонья, Италия, и Центр перспективных исследований цифровых гуманитарных наук (/DH.arc), факультет классической филологии и итальянских исследований, университет Болонья, Болонья, Италия {[email protected]};

(5) Дэвид Шоттон, Оксфордский центр электронных исследований, Оксфордский университет, Оксфорд, Великобритания {[email protected]}.

Таблица ссылок

Абстрактный

OpenCitations Meta — это новая база данных, содержащая библиографические метаданные научных публикаций, участвующих в цитировании, индексируемых инфраструктурой OpenCitations. Он придерживается принципов открытой науки и предоставляет данные по лицензии CC0 для максимального повторного использования. Доступ к данным можно получить через конечную точку SPARQL, API REST и дампы. OpenCitations Meta служит трем важным целям. Во-первых, это позволяет устранить неоднозначность цитирования между публикациями, описанными с использованием разных идентификаторов из разных источников. Например, он может связать публикации, идентифицированные DOI в Crossref и PMID в PubMed. Во-вторых, он назначает новые глобальные постоянные идентификаторы (PID), известные как мета-идентификаторы OpenCitations (OMID), библиографическим ресурсам без существующих внешних постоянных идентификаторов, таких как DOI. Наконец, за счет внутреннего размещения библиографических метаданных OpenCitations Meta повышает скорость поиска метаданных для цитирования и цитируемых документов. База данных заполняется посредством автоматического управления данными, включая дедупликацию, исправление ошибок и обогащение метаданными. Данные хранятся в формате RDF в соответствии с моделью данных OpenCitations, а изменения и информация о происхождении отслеживаются. OpenCitations Meta и ее продукция. OpenCitations Meta в настоящее время включает данные из Crossref, DataCite и NIH Open Citation Collection. Что касается семантических наборов данных публикации, то на данный момент он занимает первое место по объему данных.



Ключевые слова : научные цитаты, библиографические метаданные, происхождение, отслеживание изменений, открытая наука, OpenCitations.

1. Введение

OpenCitations — независимая некоммерческая инфраструктурная организация открытых научных исследований, занимающаяся публикацией открытых библиографических и цитирующих данных с использованием технологий семантической сети. OpenCitations хранит и управляет информацией о научных цитатах, то есть концептуальных ссылках, соединяющих цитирующий объект с цитируемым объектом, в индексах OpenCitations. До сих пор существовало четыре индекса OpenCitations: COCI (https://opencitations.net/index/coci), индекс OpenCitations для перекрестных ссылок с открытым DOI-DOI Citations (Heibi et al., 2019b); POCI (https://opencitations.net/index/poci), индекс OpenCitations открытых цитирований PubMed между PMID; DOCI (https://opencitations.net/index/doci), индекс OpenCitations для открытых цитирований DataCite DOI-DOI; и CROCI (https://opencitations.net/index/croci), Краудсорсинговый индекс открытого цитирования (Heibi et al., 2019a).


Хотя охват индексов OpenCitations приблизился к охвату коммерческих индексов цитирования (см. https://opencitations.hypotheses.org/ 1420), возникли нерешенные проблемы, которые ранее не решались OpenCitations.


Во-первых, это устранение неоднозначности цитирования. Иногда библиографическим ресурсам присваивается несколько идентификаторов, например DOI и PMID. В таких случаях одна и та же цитата может быть многократно представлена по-разному в зависимости от источника данных. Например, OpenCitations будет описывать в COCI цитирование между двумя публикациями, используя метаданные, полученные из Crossref, в виде цитирования DOI-DOI, а в POCI ту же самую цитату, используя метаданные, полученные из PubMed, в качестве цитирования PMID-to-PMID. Такое дублирование создает проблемы при подсчете количества входящих и исходящих цитирований каждого документа, что является важной статистикой для библиотек, журналов и наукометрических исследований. Использование OpenCitations Meta позволяет нам дедуплицировать такие цитаты и решить проблемы, которые в противном случае могло бы вызвать такое дублирование.


Во-вторых, присвоение документам глобально постоянных идентификаторов не является универсальной практикой во всех научных областях. Горрайз и др. (2016) продемонстрировали, что сообщества естественных и социальных наук принимают DOI в гораздо большей степени, чем сообщество искусств и гуманитарных наук. В результате этого исследования, проведенного в Scopus и Web of Science Core Collection, выяснилось, что почти 90% публикаций в области естественных и социальных наук связаны с DOI, тогда как в области искусства и гуманитарных наук этот показатель составляет лишь 50%. Кроме того, что касается гуманитарных наук, во многих областях (например, в истории) требуются ссылки на древние первоисточники, не имеющие DOI (например, Аристотеля). Если документ не имеет идентификатора, его метаданные не соответствуют принципам FAIR (Wilkinson et al., 2016), согласно которым объекты научных цифровых исследований должны быть обнаруживаемыми, доступными, совместимыми и пригодными для повторного использования. Глобальный уникальный и постоянный идентификатор имеет решающее значение для обеспечения доступности метаданных. Более того, библиографический ресурс без идентификатора не позволяет описывать связанные с ним цитаты в соответствии с принципами FAIR. Именно по этой причине, согласно определению открытого цитирования (Peroni & Shotton, 2018), регулирующему совокупность индексов OpenCitations, любые два объекта, связанные проиндексированной цитатой, должны оба идентифицироваться постоянным идентификатором, исходящим из одной и той же схемы идентификаторов, поскольку например, оба с DOI или оба с идентификаторами PubMed. Например, COCI (Heibi et al., 2019b) хранит информацию о цитировании только в том случае, если цитирующие и цитируемые объекты описаны в Crossref и оба имеют DOI. Цитирования публикаций, не имеющих DOI или других признанных PID, до сих пор исключались из индексов цитирования OpenCitations.


Но теперь OpenCitations Meta решает проблемы, связанные с библиографическими ресурсами, идентифицируемыми несколькими идентификаторами, а также библиографическими ресурсами, у которых отсутствуют постоянные идентификаторы, путем связывания нового глобального постоянного идентификатора с каждым документом, описанным в OpenCitations Meta - мета-идентификатором OpenCitations (OMID). Таким образом, все цитаты можно представить в виде цитат OMID-to-OMID (рис. 1). Предоставляя уникальный идентификатор для каждого объекта, хранящегося в OpenCitations Meta, OMID объекта действует как прокси-сервер между различными внешними идентификаторами, используемыми для каждого объекта, обеспечивая устранение неоднозначности. Более того, OpenCitations Meta может содержать метаданные для всех научных публикаций, каждая из которых идентифицируется OMID, без обязательной необходимости предоставления внешнего постоянного идентификатора источником метаданных.


Таким образом, благодаря OpenCitations Meta метаданные для всех научных публикаций теперь могут храниться в OpenCitations, а ссылки, связывающие все такие публикации, могут быть включены в новый инклюзивный индекс OpenCitations, из которого другие индексы (COCI, DOCI, POCI и т. д.) будут субиндексами в соответствии с различными источниками входной информации о цитировании.


В-третьих, это ранее низкая временная производительность сервисов OpenCitations, в частности операций API, возвращающих основные библиографические метаданные цитирования и цитируемых ресурсов. Это связано с тем, что сами индексы OpenCitations до сих пор содержали только метаданные, связанные с цитированием (цитаты рассматривались как объекты данных первого класса со своими собственными метаданными), но не содержали библиографических метаданных, относящихся к цитирующим и цитируемым объектам (название, авторы, номера страниц). , и т. д.). Скорее, эти метаданные до сих пор извлекались «на лету» посредством явных запросов API к внешним службам, таким как Crossref, ORCID и DataCite.


За последние три года для решения упомянутых выше проблем мы разработали и протестировали программное обеспечение, которое сейчас используем для создания новой коллекции библиографических метаданных, а именно OpenCitations Meta, которое мы запустили в декабре 2022 года. Программное обеспечение, поддерживающее эту базу данных, является открытым. исходный код и доступен по адресу https://github.com/opencitations/oc_meta. Метаданные, предоставляемые OpenCitations Meta, включают базовые библиографические метаданные, описывающие научный библиографический ресурс. В частности, он хранит все известные идентификаторы библиографических ресурсов для библиографического ресурса (например, DOI, PMID, ISSN и ISBN), название, тип, дату публикации, страницы, место размещения ресурса, а также номера томов и выпусков, в которых Место проведения — журнал. Кроме того, метаданные OpenCitations Meta содержат метаданные об основных участниках, участвующих в публикации каждого библиографического ресурса, т. е. имена авторов, редакторов и издателей, каждый из которых включает свои собственные постоянные идентификаторы (например, ORCID), если таковые имеются. Мы намерены добавить дополнительные поля метаданных (например, учреждения авторов и информацию о финансировании) позднее.


Рисунок 1. Если документ описан несколькими идентификаторами, например, DOI из Crossref и PMID из Pubmed, ссылки, связанные с ним, могут быть описаны несколькими способами, что создает проблему двусмысленности и дедупликации. Использование мета-идентификатора OpenCitations решает эту проблему, выступая в качестве прокси-сервера между различными внешними идентификаторами.


Процесс создания мета OpenCitations можно разделить на два этапа. Первый шаг включает в себя обработку входных данных. Кураторская процедура касается автоматического исправления ошибок, стандартизации формата данных и дедупликации отдельных записей метаданных для одного и того же объекта. Процесс дедупликации основан только на идентификаторах. Этот подход отдает предпочтение точности, а не полноте: например, люди дедуплицируются только в том случае, если им назначен ORCID, а не с помощью других эвристик. После этапов нормализации и дедупликации каждому объекту присваивается мета-идентификатор OpenCitations (OMID) независимо от того, имеет ли он уже внешний постоянный идентификатор (например, DOI, PubMed ID, ISBN).


Второй шаг в заполнении мета OpenCitations включает преобразование необработанных входных данных в RDF (формат связанных открытых данных), совместимый с моделью данных OpenCitations (OCDM) (Daquino et al., 2020), чтобы можно было запрашивать такие данные через SPARQL. В ходе этого процесса большое внимание уделяется происхождению и отслеживанию изменений: каждый раз, когда объект создается, модифицируется, удаляется или объединяется, такие изменения записываются в RDF и характеризуются датами их создания, первоисточниками и ответственными агентами. .


Остальная часть статьи организована следующим образом. В разделе 2 рассматриваются другие наборы данных семантической публикации. Впоследствии, в разделе 3, методологический подход, принятый для создания мета OpenCitations Meta, представлен подробно, начиная с кураторского этапа (3.1), затем описывая исправление ошибок (3.2), переходя к объяснению перевода данных в RDF в соответствии с OCDM. (3.3) и завершается описанием производства данных о происхождении RDF и отслеживании изменений (3.4). В разделе 4 представлены некоторые описательные статистические данные относительно текущего набора метаданных OpenCitations. Наконец, в разделе 5 обсуждаются некоторые существующие ограничения OpenCitations Meta и рассматривается место OpenCitations Meta среди аналогичных наборов научных данных.


Этот документ доступен на arxiv под лицензией CC 4.0 DEED.