paint-brush
Volcado de datos de noticias de empresas tecnológicas en HuggingFace: 7 millones de publicaciones más citadas sobre las 3.000 empresas tecnológicas más valoradaspor@david

Volcado de datos de noticias de empresas tecnológicas en HuggingFace: 7 millones de publicaciones más citadas sobre las 3.000 empresas tecnológicas más valoradas

por David Smooke2m2024/02/08
Read on Terminal Reader

Demasiado Largo; Para Leer

HackerNoon seleccionó y abrió el código abierto de los más de 7 millones de artículos de noticias y publicaciones de blogs de empresas de tecnología más citados en Internet sobre las más de 3.000 empresas de tecnología más valiosas.
featured image - Volcado de datos de noticias de empresas tecnológicas en HuggingFace: 7 millones de publicaciones más citadas sobre las 3.000 empresas tecnológicas más valoradas
David Smooke HackerNoon profile picture
0-item
1-item


HackerMediodía Seleccionó los más de 7 millones de artículos de noticias y publicaciones de blogs de empresas de tecnología más citados en Internet sobre las más de 3.000 empresas de tecnología más valiosas en 2022 y 2023. Estas historias fueron seleccionadas para el poder. HackerNoon.com/Companies , donde actualizamos noticias diarias sobre las principales empresas de tecnología como microsoft , Google , y AbrazosCara . Este conjunto de datos es de código abierto bajo la licencia MIT en HuggingFace como volcado de datos de noticias de empresas tecnológicas . Utilice los datos de noticias de esta empresa de tecnología libremente para su proyecto :-)


https://huggingface.co/datasets/HackerNoon/tech-company-news-data-dump


Cómo se seleccionaron las empresas de tecnología

Nuestro equipo hizo una lista de las empresas de tecnología más valiosas y agregó empresas a medida que comenzaron a aparecer en las noticias y en HackerNoon. Los primeros mil quinientos eran empresas públicas basadas en su capitalización de mercado. Luego, a medida que las empresas fueron mencionadas en las historias de HackerNoon y obtuvieron buenos resultados en nuestra votación de inicio del año , agregamos páginas de noticias de empresas de tecnología creadas para ellas. Una vez que se crea una página de noticias de una empresa de tecnología , nuestro sistema selecciona y almacena las noticias, artículos y publicaciones de blog de tendencia sobre esa empresa según nuestras reglas e indicaciones que definen lo que es una historia de tendencia.

Cómo se obtuvieron las historias, los artículos y las publicaciones del blog

Una combinación de reglas personalizadas, indicaciones y condiciones de relevancia, especificidad y tendencia utilizando la API de Bing News, la API de Brave News y la API de HackerNoon. Profundizamos en la coincidencia de la industria para cada empresa y favorecimos en gran medida los sitios más confiables de alto ranking, al mismo tiempo que permitimos editores de nicho relevantes de menor ranking. Para cada empresa, mostramos las 10 a 20 historias más relevantes en su página principal/empresa ( Microsoft como ejemplo ) y luego presentamos la lista completa de noticias, historias, menciones, artículos y enlaces notables de la empresa en el historial de Internet de la empresa. -nombre/noticias ( Google como ejemplo ).

Cómo se organizan los datos de noticias de esta empresa de tecnología

Las columnas son nombre de la empresa, URL de la empresa, AT publicado, URL (de la historia), título, imagen destacada y (meta) descripción. Esto sigue cómo organizamos los datos en nuestra base de datos. Cada artículo está relacionado con al menos una empresa. Algunas empresas tienen más artículos que otras según su participación en la voz; por ejemplo, al utilizar el visor de conjuntos de datos, puede ver que Google tiene 99,152 resultados , 3M tiene 20,608 resultados , Adobe tiene 13,449 resultados y NVIDIA tiene 19,811 resultados .


Sin siquiera descargar los datos, puede buscar nombres de empresas o publicaciones en el visor de conjuntos de datos, como NVIDIA que se muestra a continuación :



Este conjunto de datos es de código abierto bajo la licencia MIT en HuggingFace como volcado de datos de noticias de empresas tecnológicas . Utilice libremente los datos de noticias de esta empresa de tecnología para su proyecto :-) Podría cuantificar la participación de voz agregada de una empresa en línea, podría medir el análisis de sentimiento de la cobertura de noticias digitales de una empresa, podría entrenar su modelo para predecir qué titulares se publicarán sobre qué empresas en el futuro, o cualquier otra investigación sobre las grandes empresas de tecnología y la cobertura de los medios que desee.

Consulta estos datos abiertos aquí: