我们的团队列出了最有价值的科技公司,并在新闻和 HackerNoon 上开始流行时添加了这些公司。前 15,000 家是按市值计算的上市公司。然后,当公司在 HackerNoon 故事中被提及并在我们的年度初创公司投票中表现良好时,我们为他们添加了创建科技公司新闻页面。创建科技公司新闻页面后,我们的系统会根据定义热门故事的规则和提示来策划和存储有关该公司的热门新闻、文章和博客文章。
使用 Bing News API、Brave News API 和 HackerNoon API 组合自定义规则、相关性、特异性和趋势的提示和条件。我们深入研究了每家公司的行业匹配情况,并大力支持更值得信赖的高排名网站,同时也允许相关的较低排名的利基出版商。对于每家公司,我们会在其主页/公司页面上展示最相关的 10-20 个故事(以 Microsoft 为例),然后在公司的互联网历史上提供公司新闻、故事、提及、文章和著名链接的完整列表-名称/新闻(以 Google 为例)。
这些列包括公司名称、公司 URL、已发布的 AT、(故事)URL、标题、特色图像和(元)描述。这遵循我们在数据库中组织数据的方式。每篇文章都至少与一家公司相关。有些公司根据其声音份额拥有比其他公司更多的文章,例如使用数据集查看器,您可以看到Google 有 99,152 个结果, 3M 有 20,608 个结果, Adobe 有 13,449 个结果, NVIDIA 有 19,811 个结果。
甚至无需下载数据,您就可以在数据集查看器中搜索公司或出版物名称,如下图所示的 NVIDIA :
该数据集是根据 MIT 许可在HuggingFace 上作为科技公司新闻数据转储开源的。请在您的项目中自由使用此科技公司新闻数据:-) 您可以量化一家公司在网上的总声音份额,您可以测量一家公司数字新闻报道的情绪分析,您可以训练您的模型来预测哪些头条新闻将发布有关哪些内容未来的公司,或者您想要的有关大型科技公司和媒体报道的任何其他研究。