paint-brush
HuggingFace 上的科技公司新闻数据转储:关于 3000 家最有价值科技公司的 700 万条被引用次数最多的帖子经过@David

HuggingFace 上的科技公司新闻数据转储:关于 3000 家最有价值科技公司的 700 万条被引用次数最多的帖子

经过 David Smooke2m2024/02/08
Read on Terminal Reader

太長; 讀書

HackerNoon 策划并开源了互联网上被引用次数最多的 700 万+科技公司新闻文章和有关 3000+ 最有价值科技公司的博客文章。
featured image - HuggingFace 上的科技公司新闻数据转储:关于 3000 家最有价值科技公司的 700 万条被引用次数最多的帖子
David Smooke HackerNoon profile picture
0-item
1-item


黑客午间策划了互联网上被引用次数最多的 700 万+科技公司新闻文章和博客文章,内容涉及 2022 年和 2023 年 3000+ 家最有价值的科技公司。这些故事经过精心策划,具有强大的影响力HackerNoon.com/Companies ,我们在这里更新顶级科技公司的每日新闻,例如微软,谷歌, 和抱脸。该数据集是根据 MIT 许可在HuggingFace 上作为科技公司新闻数据转储开源的。请在您的项目中免费使用该科技公司新闻数据:-)


https://huggingface.co/datasets/HackerNoon/tech-company-news-data-dump


科技公司是如何策划的

我们的团队列出了最有价值的科技公司,并在新闻和 HackerNoon 上开始流行时添加了这些公司。前 15,000 家是按市值计算的上市公司。然后,当公司在 HackerNoon 故事中被提及并在我们的年度初创公司投票中表现良好时,我们为他们添加了创建科技公司新闻页面。创建科技公司新闻页面后,我们的系统会根据定义热门故事的规则和提示来策划和存储有关该公司的热门新闻、文章和博客文章。

故事、文章和博客文章的来源

使用 Bing News API、Brave News API 和 HackerNoon API 组合自定义规则、相关性、特异性和趋势的提示和条件。我们深入研究了每家公司的行业匹配情况,并大力支持更值得信赖的高排名网站,同时也允许相关的较低排名的利基出版商。对于每家公司,我们会在其主页/公司页面上展示最相关的 10-20 个故事(以 Microsoft 为例),然后在公司的互联网历史上提供公司新闻、故事、提及、文章和著名链接的完整列表-名称/新闻(以 Google 为例)。

这家科技公司的新闻数据是如何组织的

这些列包括公司名称、公司 URL、已发布的 AT、(故事)URL、标题、特色图像和(元)描述。这遵循我们在数据库中组织数据的方式。每篇文章都至少与一家公司相关。有些公司根据其声音份额拥有比其他公司更多的文章,例如使用数据集查看器,您可以看到Google 有 99,152 个结果3M 有 20,608 个结果Adobe 有 13,449 个结果NVIDIA 有 19,811 个结果


甚至无需下载数据,您就可以在数据集查看器中搜索公司或出版物名称,如下图所示的 NVIDIA



该数据集是根据 MIT 许可在HuggingFace 上作为科技公司新闻数据转储开源的。请在您的项目中自由使用此科技公司新闻数据:-) 您可以量化一家公司在网上的总声音份额,您可以测量一家公司数字新闻报道的情绪分析,您可以训练您的模型来预测哪些头条新闻将发布有关哪些内容未来的公司,或者您想要的有关大型科技公司和媒体报道的任何其他研究。

在这里查看这个开放数据: