paint-brush
Свалка данных новостей технологических компаний на HuggingFace: 7 миллионов самых цитируемых публикаций о 3 тысячах самых ценных технологических компанийк@David

Свалка данных новостей технологических компаний на HuggingFace: 7 миллионов самых цитируемых публикаций о 3 тысячах самых ценных технологических компаний

к David Smooke2m2024/02/08
Read on Terminal Reader

Слишком долго; Читать

HackerNoon курировал и опубликовал в открытом доступе самые цитируемые в Интернете новостные статьи о более чем 7 миллионах технологических компаний и сообщения в блогах о более чем 3 тысячах самых ценных технологических компаний.
featured image - Свалка данных новостей технологических компаний на HuggingFace: 7 миллионов самых цитируемых публикаций о 3 тысячах самых ценных технологических компаний
David Smooke HackerNoon profile picture
0-item
1-item


ХакерПолдень курировал самые цитируемые в Интернете новостные статьи и сообщения в блогах о более чем 7 миллионах технологических компаний и сообщения в блогах о более чем 3 тысячах самых ценных технологических компаний в 2022 и 2023 годах. HackerNoon.com/Компании , где мы ежедневно обновляем новости о ведущих технологических компаниях, таких как Майкрософт , Google , и ОбниматьЛицо . Этот набор данных доступен под лицензией MIT на HuggingFace под названием Tech Company News Data Dump . Пожалуйста, свободно используйте данные новостей этой технологической компании для своего проекта :-)


https://huggingface.co/datasets/HackerNoon/tech-company-news-data-dump


Как курировали технологические компании

Наша команда составила список самых ценных технологических компаний и добавила компании, когда они начали появляться в новостях и на HackerNoon. Первые полторы тысячи были публичными компаниями, основанными на рыночной капитализации. Затем, когда компании упоминались в историях HackerNoon и показывали хорошие результаты в нашем голосовании «Стартап года» , мы добавили для них созданные страницы новостей технологических компаний. После создания страницы новостей технологической компании наша система собирает и сохраняет актуальные новости, статьи и сообщения в блогах об этой компании на основе наших правил и подсказок, которые определяют, что является трендовой историей.

Как были получены истории, статьи и сообщения в блогах

Комбинация пользовательских правил, подсказок и условий для обеспечения релевантности, специфики и актуальности с использованием API Bing News, API Brave News и API HackerNoon. Мы углубили отраслевое соответствие каждой компании и отдали предпочтение более надежным сайтам с высоким рейтингом, а также разрешили использовать соответствующих нишевых издателей с более низким рейтингом. Для каждой компании мы размещаем 10–20 наиболее актуальных историй на их главной странице/странице компании ( например, Microsoft ), а затем размещаем полный список новостей, историй, упоминаний, статей и заметных ссылок в истории компании в Интернете. -имя/новости ( например, Google ).

Как организованы данные новостей этой технологической компании

Столбцы: имя компании, URL-адрес компании, опубликованный AT, URL-адрес (истории), заголовок, избранное изображение и (мета)описание. Это соответствует тому, как мы организуем данные в нашей базе данных. Каждая статья связана как минимум с одной компанией. Некоторые компании имеют больше статей, чем другие, в зависимости от их доли голоса. Например, с помощью средства просмотра набора данных вы можете увидеть, что у Google 99 152 результатов , у 3M — 20 608 результатов , у Adobe — 13 449 результатов , а у NVIDIA — 19 811 результатов .


Даже не загружая данные, вы можете искать названия компаний или публикаций в средстве просмотра наборов данных, как показано на рисунке NVIDIA ниже :



Этот набор данных доступен под лицензией MIT на HuggingFace под названием Tech Company News Data Dump . Пожалуйста, свободно используйте эти данные новостей технологических компаний для своего проекта :-) Вы можете количественно оценить совокупную долю голоса компании в Интернете, вы можете измерить анализ настроений в освещении цифровых новостей компании, вы можете обучить свою модель прогнозировать, какие заголовки о чем будут публиковаться. компаниях будущего или любые другие исследования о крупных технологических компаниях и освещение в СМИ, которые вам пожелают.

Проверьте эти открытые данные здесь: