paint-brush
Мета OpenCitations: данные и сервисык@categorize

Мета OpenCitations: данные и сервисы

Слишком долго; Читать

featured image - Мета OpenCitations: данные и сервисы
Categorize.Tech: Organizing the World of Software HackerNoon profile picture
0-item

Авторы:

(1) Арканджело Массари, Исследовательский центр открытых научных метаданных, факультет классической филологии и итальянских исследований, Болонский университет, Болонья, Италия {[email protected]};

(2) Фабио Мариани, Институт философии и искусств, Университет Леуфана, Люнебург, Германия {[email protected]};

(3) Иван Хейби, Исследовательский центр открытых научных метаданных, кафедра классической филологии и итальянских исследований, Болонский университет, Болонья, Италия, и Центр перспективных исследований цифровых гуманитарных наук (/DH.arc), кафедра классической филологии и итальянских исследований, университет Болонья, Болонья, Италия {[email protected]};

(4) Сильвио Перони, Исследовательский центр открытых научных метаданных, факультет классической филологии и итальянских исследований, Болонский университет, Болонья, Италия, и Центр перспективных исследований цифровых гуманитарных наук (/DH.arc), факультет классической филологии и итальянских исследований, университет Болонья, Болонья, Италия {[email protected]};

(5) Дэвид Шоттон, Оксфордский центр электронных исследований, Оксфордский университет, Оксфорд, Великобритания {[email protected]}.

Таблица ссылок

4. Данные и услуги

На момент своего первого выпуска в декабре 2022 года OpenCitations Meta включала Crossref (Hendricks et al., 2020), DataCite (Brase, 2010) и NIH Open Citation Collection (ICite et al., 2022) в качестве основных источников для библиографические метаданные, описывающие публикации, цитируемые в следующих индексах OpenCitations: COCI (https://opencitations.net/index/coci) (OpenCitations, 2022), DOCI (https: //opencitations.net/index/doci), и POCI (https://opencitations.net/index/poci). С количественной точки зрения, в этой первоначальной версии OpenCitations Meta имеется 98 243 101 библиографический объект (fabio:Expression), 309 881 223 автора (pro:author), 2 406 510 редакторов (pro:editor), 19 076 издателей (pro:publisher) и 659 214 площадок (например, ресурсы типа fabio:AcademicProceedings, fabio:ExpressionCollection, fabio:Book, fabio:BookSeries, fabio:Journal, fabio:ReferenceBook или fabio:Series). Таким образом, в среднем каждый библиографический ресурс имеет трех авторов. Обычно редактор не записывается, поскольку последние метаданные в наших источниках используются мало. Всего триплстор состоит из 3 749 729 755 троек (без учета провенанса).


Редакторы и авторы учитывались как роли без уточнения лиц, выполняющих эти роли. И наоборот, библиографические объекты, издатели и места проведения учитывались OMID. Однако в отношении площадок (например, журналов) мы приняли дополнительные меры предосторожности: многие из них дублируются в OpenCitations Meta, поскольку у них нет других идентификаторов, кроме OMID. Поэтому на приведенных выше рисунках мы сочли целесообразным устранить неоднозначность площадок по названию при отсутствии других идентификаторов.


Как показано в таблице 2, Springer Science является издательством с наибольшим количеством площадок (2097 г.), за ним следуют Elsevier BV (1961 г.) и IEEE (1775 г.). По количеству публикаций лидирует Elsevier (16 933 610), за ним следуют Springer Science (11 507 498) и Wiley (7 262 893) в таблице 3.


Учитывая места, указанные в Таблице 4, наибольшее количество публикаций принадлежит ChemInform компании Wiley (421 735), за ней следуют Elsevier SSRN Electronic Journal (337 223) и Springer's Journal On Data Semantics (330 093).


В Таблице 5 перечислены все типы библиографических ресурсов в OpenCitations Meta. Текущий набор данных содержит в основном журнальные статьи (67 904 323), которые превышают количество глав книг на втором месте (6 476 623) примерно в десять раз, а также сборники статей на третьем месте (5 046 165) примерно в тринадцать раз.


Таблица 6, в которой указано количество публикаций в год, показывает тенденцию к увеличению: количество публикаций увеличивается из года в год.


Таблица 2. Десять крупнейших издателей по количеству площадок


Таблица 3. Десять крупнейших издателей по количеству публикаций


Таблица 4: Десять крупнейших площадок по количеству публикаций


Таблица 5. Все типы библиографических ресурсов, участвующих в OpenCitations Meta, отсортированные по количеству публикаций этого типа. Эталонными онтологиями являются обзоры FaBiO (http://purl.org/spar/fabio), DOCO (http://purl.org/spar/doco) и обзоры FAIR (http://purl.org/spar/fr).


Таблица 6: Десять лучших лет публикаций по количеству публикаций в этом году


OpenCitations Meta позволяет пользователям просматривать такие данные либо через SPARQL (https://opencitations.net/meta/sparql), либо через API (https://opencitations.net/meta/api/v1). В частности, мета-API OpenCitations извлекает список библиографических ресурсов и связанных метаданных, начиная с одного или нескольких идентификаторов публикации, ORCID автора или ORCID редактора. Текстовый поиск в настоящее время находится на стадии тестирования и будет реализован в будущем как еще одна операция мета API OpenCitations. В частности, можно выполнять текстовый поиск по названиям, авторам, редакторам, издателям, идентификаторам и местам проведения. Их также можно достичь по объемам и номерам выпусков при условии, что предварительно указано место проведения. Действительно, поиск по нескольким полям можно объединить с помощью логических операторов конъюнкции и дизъюнкции. Например, после запуска операции пользователь сможет искать все библиографические ресурсы, заголовок которых содержит слово «микрохаос», опубликованный либо журналом Philosophical Studies, либо Journal of Nonlinear Science: title=micro-chaos&&venue=philosophical% 20studies||title=microchaos&&venue=journal%20of%20nonlinear%20science, где «&&» — оператор союза, а || является оператором дизъюнкции.


Наконец, все данные и происхождение доступны в виде дампов в формате RDF (JSON-LD) (OpenCitations, 2023b) или CSV (OpenCitations, 2023a) по лицензии CC0.


Этот документ доступен на arxiv под лицензией CC 4.0 DEED.