私たちのチームは、最も価値のあるテクノロジー企業のリストを作成し、ニュースや HackerNoon でトレンドになり始めた企業を追加しました。最初の 15,000 社は時価総額に基づく公開企業でした。その後、企業が HackerNoon の記事で言及されたり、 スタートアップ オブ ザ イヤーの投票で好成績を収めたりしたため、それらの企業向けにテクノロジー企業のニュース ページを追加しました。テクノロジー企業のニュース ページが作成されると、当社のシステムは、トレンドの記事とは何かを定義するルールとプロンプトに基づいて、その企業に関するトレンドのニュース、記事、ブログ投稿を厳選して保存します。
Bing News API、Brave News API、HackerNoon API を使用した、関連性、具体性、トレンド性に関するカスタム ルール、プロンプト、条件の組み合わせ。私たちは各企業の業界の一致を掘り下げ、より信頼できる上位サイトを重点的に支持するとともに、関連する下位ランクのニッチなパブリッシャーも考慮しました。各企業について、最も関連性の高い 10 ~ 20 件の記事をその企業のメイン ページ (例としてマイクロソフト) に表示し、その企業のニュース、記事、言及、記事、企業のインターネットの歴史における注目すべきリンクの完全なリストを特集します。 -name/news (例として Google )。
列は、companyName、company URL、publishedAT、(ストーリー) URL、タイトル、注目の画像、および (メタ) 説明です。これは、データベース内のデータをどのように整理するかに従います。すべての記事は少なくとも 1 つの企業に関連しています。一部の企業は、自社の発言力に基づいて他の企業よりも多くの記事を掲載しています。たとえば、 データセット ビューアを使用すると、 Google の検索結果が 99,152 件、 3M の検索結果が 20,608 件、 Adobe の検索結果が 13,449 件、 NVIDIA の検索結果が 19,811 件であることがわかります。
データをダウンロードしなくても、 以下の NVIDIAのようなデータセット ビューアで会社名や出版物名を検索できます。
このデータセットは、 HuggingFace で MIT ライセンスに基づいて Tech Company News Data Dump としてオープンソース化されています。このテクノロジー企業のニュース データをあなたのプロジェクトに自由に使用してください :-) オンラインでの発言の企業の総シェアを定量化したり、企業のデジタル ニュース報道のセンチメント分析を測定したり、どのヘッドラインで何について掲載されるかを予測するモデルをトレーニングしたりできます。将来の企業や、大手テクノロジー企業に関するその他の研究やメディアの報道など、あなたが望むものなら何でも。