paint-brush
Despejo de dados de notícias de empresas de tecnologia no HuggingFace: 7 milhões de postagens mais citadas sobre 3 mil empresas de tecnologia mais valiosaspor@David

Despejo de dados de notícias de empresas de tecnologia no HuggingFace: 7 milhões de postagens mais citadas sobre 3 mil empresas de tecnologia mais valiosas

por David Smooke2m2024/02/08
Read on Terminal Reader

Muito longo; Para ler

A HackerNoon fez a curadoria e o código aberto dos mais de 7 milhões de artigos de notícias de empresas de tecnologia mais citados da Internet e postagens de blog sobre as mais de 3 mil empresas de tecnologia mais valiosas.
featured image - Despejo de dados de notícias de empresas de tecnologia no HuggingFace: 7 milhões de postagens mais citadas sobre 3 mil empresas de tecnologia mais valiosas
David Smooke HackerNoon profile picture
0-item
1-item


HackerNoon fez a curadoria dos mais de 7 milhões de artigos de notícias de empresas de tecnologia mais citados da Internet e postagens de blog sobre as mais de 3 mil empresas de tecnologia mais valiosas em 2022 e 2023. Essas histórias foram selecionadas para poder HackerNoon.com/Empresas , onde atualizamos notícias diárias sobre as principais empresas de tecnologia como Microsoft , Google , e Abraçando o rosto . Este conjunto de dados é de código aberto sob a licença MIT no HuggingFace como Tech Company News Data Dump . Por favor, use os dados de notícias desta empresa de tecnologia gratuitamente para o seu projeto :-)


https://huggingface.co/datasets/HackerNoon/tech-company-news-data-dump


Como as empresas de tecnologia foram curadas

Nossa equipe fez uma lista das empresas de tecnologia mais valiosas e adicionou empresas à medida que começaram a aparecer nas notícias e no HackerNoon. As primeiras mil e quinhentas eram empresas públicas com base no valor de mercado. Então, à medida que as empresas foram mencionadas nas histórias do HackerNoon e tiveram um bom desempenho em nossa votação de inicialização do ano , adicionamos páginas de notícias de empresas de tecnologia criadas para elas. Depois que uma página de notícias de uma empresa de tecnologia é criada, nosso sistema seleciona e armazena as notícias, artigos e postagens de blog de tendência sobre essa empresa com base em nossas regras e instruções que definem o que é uma história de tendência.

Como as histórias, artigos e postagens de blog foram obtidas

Uma combinação de regras personalizadas, prompts e condições de relevância, especificidade e tendência usando a API Bing News, a API Brave News e a API HackerNoon. Analisamos a correspondência do setor para cada empresa e favorecemos fortemente sites de alta classificação mais confiáveis, ao mesmo tempo que permitimos editores de nicho relevantes de classificação inferior. Para cada empresa, apresentamos as 10 a 20 histórias mais relevantes em sua página principal/da empresa ( a Microsoft, por exemplo ) e, em seguida, apresentamos a lista completa de notícias, histórias, menções, artigos e links notáveis da empresa na história da Internet na empresa. -nome/notícias ( Google como exemplo ).

Como os dados de notícias desta empresa de tecnologia são organizados

As colunas são nomedaempresa, URL da empresa, AT publicado, URL da (história), título, imagem em destaque e (meta) descrição. Isso segue como organizamos os dados em nosso banco de dados. Cada artigo está vinculado a pelo menos uma empresa. Algumas empresas têm mais artigos do que outras com base em sua participação de voz, por exemplo, usando o visualizador de conjunto de dados, você pode ver que o Google tem 99.152 resultados , a 3M tem 20.608 resultados , a Adobe tem 13.449 resultados e a NVIDIA tem 19.811 resultados .


Mesmo sem baixar os dados, você pode pesquisar nomes de empresas ou publicações no visualizador de conjunto de dados, como NVIDIA mostrado abaixo :



Este conjunto de dados é de código aberto sob a licença MIT no HuggingFace como Tech Company News Data Dump . Por favor, use os dados de notícias desta empresa de tecnologia livremente para o seu projeto :-) Você pode quantificar a participação agregada de voz de uma empresa on-line, pode medir a análise de sentimento da cobertura de notícias digitais de uma empresa, pode treinar seu modelo para prever quais manchetes serão publicadas sobre o que empresas no futuro, ou qualquer outra pesquisa sobre grandes empresas de tecnologia e cobertura da mídia que você desejar.

Confira esses dados abertos aqui: