paint-brush
HuggingFace のテクノロジー企業ニュース データ ダンプ: 最も価値のある 3,000 のテクノロジー企業に関する最も引用された 700 万件の投稿@David

HuggingFace のテクノロジー企業ニュース データ ダンプ: 最も価値のある 3,000 のテクノロジー企業に関する最も引用された 700 万件の投稿

David Smooke2m2024/02/08
Read on Terminal Reader

長すぎる; 読むには

HackerNoon は、インターネットで最も引用されている 700 万件以上のテクノロジー企業のニュース記事と、最も価値のある 3000 件以上のテクノロジー企業に関するブログ投稿を厳選し、オープンソース化しました。
featured image - HuggingFace のテクノロジー企業ニュース データ ダンプ: 最も価値のある 3,000 のテクノロジー企業に関する最も引用された 700 万件の投稿
David Smooke HackerNoon profile picture
0-item
1-item


ハッカーヌーン2022 年と 2023 年にインターネットで最も引用された 700 万件以上のテクノロジー企業のニュース記事と、最も価値のある 3,000 件以上のテクノロジー企業に関するブログ投稿を厳選しました。これらの記事は、パワーアップするために厳選されました。 HackerNoon.com/会社、以下のようなトップテクノロジー企業に関するニュースを毎日更新しています。マイクロソフトグーグル、 そしてハグ顔。このデータセットは、 HuggingFace で MIT ライセンスに基づいて Tech Company News Data Dump としてオープンソース化されています。このテクノロジー企業のニュース データをあなたのプロジェクトに自由に使用してください :-)


https://huggingface.co/datasets/HackerNoon/tech-company-news-data-dump


テクノロジー企業はどのように選ばれたのか

私たちのチームは、最も価値のあるテクノロジー企業のリストを作成し、ニュースや HackerNoon でトレンドになり始めた企業を追加しました。最初の 15,000 社は時価総額に基づく公開企業でした。その後、企業が HackerNoon の記事で言及されたり、 スタートアップ オブ ザ イヤーの投票で好成績を収めたりしたため、それらの企業向けにテクノロジー企業のニュース ページを追加しました。テクノロジー企業のニュース ページが作成されると、当社のシステムは、トレンドの記事とは何かを定義するルールとプロンプトに基づいて、その企業に関するトレンドのニュース、記事、ブログ投稿を厳選して保存します。

ストーリー、記事、ブログ投稿の入手方法

Bing News API、Brave News API、HackerNoon API を使用した、関連性、具体性、トレンド性に関するカスタム ルール、プロンプト、条件の組み合わせ。私たちは各企業の業界の一致を掘り下げ、より信頼できる上位サイトを重点的に支持するとともに、関連する下位ランクのニッチなパブリッシャーも考慮しました。各企業について、最も関連性の高い 10 ~ 20 件の記事をその企業のメイン ページ (例としてマイクロソフト) に表示し、その企業のニュース、記事、言及、記事、企業のインターネットの歴史における注目すべきリンクの完全なリストを特集します。 -name/news (例として Google )。

このテクノロジー企業のニュースデータはどのように構成されているか

列は、companyName、company URL、publishedAT、(ストーリー) URL、タイトル、注目の画像、および (メタ) 説明です。これは、データベース内のデータをどのように整理するかに従います。すべての記事は少なくとも 1 つの企業に関連しています。一部の企業は、自社の発言力に基づいて他の企業よりも多くの記事を掲載しています。たとえば、 データセット ビューアを使用すると、 Google の検索結果が 99,152 件3M の検索結果が 20,608 件Adobe の検索結果が 13,449 件NVIDIA の検索結果が 19,811 件であることがわかります。


データをダウンロードしなくても、 以下の NVIDIAのようなデータセット ビューアで会社名や出版物名を検索できます。



このデータセットは、 HuggingFace で MIT ライセンスに基づいて Tech Company News Data Dump としてオープンソース化されています。このテクノロジー企業のニュース データをあなたのプロジェクトに自由に使用してください :-) オンラインでの発言の企業の総シェアを定量化したり、企業のデジタル ニュース報道のセンチメント分析を測定したり、どのヘッドラインで何について掲載されるかを予測するモデルをトレーニングしたりできます。将来の企業や、大手テクノロジー企業に関するその他の研究やメディアの報道など、あなたが望むものなら何でも。

ここのオープンデータをチェックしてください。