Наша команда составила список самых ценных технологических компаний и добавила компании, когда они начали появляться в новостях и на HackerNoon. Первые полторы тысячи были публичными компаниями, основанными на рыночной капитализации. Затем, когда компании упоминались в историях HackerNoon и показывали хорошие результаты в нашем голосовании «Стартап года» , мы добавили для них созданные страницы новостей технологических компаний. После создания страницы новостей технологической компании наша система собирает и сохраняет актуальные новости, статьи и сообщения в блогах об этой компании на основе наших правил и подсказок, которые определяют, что является трендовой историей.
Комбинация пользовательских правил, подсказок и условий для обеспечения релевантности, специфики и актуальности с использованием API Bing News, API Brave News и API HackerNoon. Мы углубили отраслевое соответствие каждой компании и отдали предпочтение более надежным сайтам с высоким рейтингом, а также разрешили использовать соответствующих нишевых издателей с более низким рейтингом. Для каждой компании мы размещаем 10–20 наиболее актуальных историй на их главной странице/странице компании ( например, Microsoft ), а затем размещаем полный список новостей, историй, упоминаний, статей и заметных ссылок в истории компании в Интернете. -имя/новости ( например, Google ).
Столбцы: имя компании, URL-адрес компании, опубликованный AT, URL-адрес (истории), заголовок, избранное изображение и (мета)описание. Это соответствует тому, как мы организуем данные в нашей базе данных. Каждая статья связана как минимум с одной компанией. Некоторые компании имеют больше статей, чем другие, в зависимости от их доли голоса. Например, с помощью средства просмотра набора данных вы можете увидеть, что у Google 99 152 результатов , у 3M — 20 608 результатов , у Adobe — 13 449 результатов , а у NVIDIA — 19 811 результатов .
Даже не загружая данные, вы можете искать названия компаний или публикаций в средстве просмотра наборов данных, как показано на рисунке NVIDIA ниже :
Этот набор данных доступен под лицензией MIT на HuggingFace под названием Tech Company News Data Dump . Пожалуйста, свободно используйте эти данные новостей технологических компаний для своего проекта :-) Вы можете количественно оценить совокупную долю голоса компании в Интернете, вы можете измерить анализ настроений в освещении цифровых новостей компании, вы можете обучить свою модель прогнозировать, какие заголовки о чем будут публиковаться. компаниях будущего или любые другие исследования о крупных технологических компаниях и освещение в СМИ, которые вам пожелают.