paint-brush
Tech-Unternehmens-News-Datendump auf HuggingFace: 7 Millionen meistzitierte Beiträge über 3.000 am meisten geschätzte Technologieunternehmenvon@David

Tech-Unternehmens-News-Datendump auf HuggingFace: 7 Millionen meistzitierte Beiträge über 3.000 am meisten geschätzte Technologieunternehmen

von David Smooke2m2024/02/08
Read on Terminal Reader

Zu lang; Lesen

HackerNoon hat die im Internet am häufigsten zitierten über 7 Mio. Tech-Unternehmensnachrichtenartikel und Blogbeiträge über die über 3.000 wertvollsten Tech-Unternehmen kuratiert und als Open Source bereitgestellt.
featured image - Tech-Unternehmens-News-Datendump auf HuggingFace: 7 Millionen meistzitierte Beiträge über 3.000 am meisten geschätzte Technologieunternehmen
David Smooke HackerNoon profile picture
0-item
1-item


HackerNoon kuratierte die im Internet am häufigsten zitierten Nachrichtenartikel und Blogbeiträge zu mehr als 7 Millionen Technologieunternehmen über die mehr als 3.000 wertvollsten Technologieunternehmen in den Jahren 2022 und 2023. Diese Geschichten wurden kuratiert, um die Macht zu steigern HackerNoon.com/Companies , wo wir täglich Neuigkeiten zu Top-Technologieunternehmen aktualisieren Microsoft , Google , Und Umarmendes Gesicht . Dieser Datensatz ist Open Source unter der MIT-Lizenz auf HuggingFace als Tech Company News Data Dump . Bitte nutzen Sie diese Tech-Unternehmensnachrichtendaten frei für Ihr Projekt :-)


https://huggingface.co/datasets/HackerNoon/tech-company-news-data-dump


Wie die Technologieunternehmen kuratiert wurden

Unser Team hat eine Liste der wertvollsten Technologieunternehmen erstellt und Unternehmen hinzugefügt, sobald sie in den Nachrichten und auf HackerNoon im Trend lagen. Die ersten eineinhalbtausend waren börsennotierte Unternehmen, basierend auf der Marktkapitalisierung. Als dann Unternehmen in HackerNoon-Storys erwähnt wurden und bei unserer Wahl zum Startup des Jahres gut abgeschnitten haben, haben wir für sie Nachrichtenseiten zu Technologieunternehmen erstellt. Sobald eine Nachrichtenseite zu einem Technologieunternehmen erstellt wurde, kuratiert und speichert unser System die Trendnachrichten, Artikel und Blogbeiträge zu diesem Unternehmen auf der Grundlage unserer Regeln und Eingabeaufforderungen, die definieren, was eine Trendgeschichte ist.

Wie die Geschichten, Artikel und Blogbeiträge stammen

Eine Kombination aus benutzerdefinierten Regeln, Eingabeaufforderungen und Bedingungen für Relevanz, Spezifität und Trendigkeit unter Verwendung der Bing News API, der Brave News API und der HackerNoon API. Wir haben die Branchenübereinstimmung für jedes Unternehmen genauer untersucht und vertrauenswürdigere, hochrangige Websites stark favorisiert, gleichzeitig aber auch relevante Nischenverleger mit niedrigerem Rang berücksichtigt. Für jedes Unternehmen zeigen wir die relevantesten 10–20 Geschichten auf der Haupt-/Unternehmensseite ( Microsoft als Beispiel ) und stellen dann die vollständige Liste der Unternehmensnachrichten, Geschichten, Erwähnungen, Artikel und bemerkenswerten Links in der Internetgeschichte zum Unternehmen bereit -name/news ( Google als Beispiel ).

Wie diese Nachrichtendaten von Technologieunternehmen organisiert sind

Die Spalten sind Firmenname, Firmen-URL, veröffentlichte AT, (Story-)URL, Titel, vorgestelltes Bild und (Meta-)Beschreibung. Dies folgt der Art und Weise, wie wir Daten in unserer Datenbank organisieren. Jeder Artikel ist mit mindestens einem Unternehmen verbunden. Einige Unternehmen haben basierend auf ihrem Share of Voice mehr Artikel als andere. Mit dem Datensatz-Viewer können Sie beispielsweise sehen , dass Google 99.152 Ergebnisse hat , 3M 20.608 Ergebnisse hat , Adobe 13.449 Ergebnisse hat und NVIDIA 19.811 Ergebnisse hat .


Ohne die Daten überhaupt herunterzuladen, können Sie im Datensatz-Viewer nach Firmen- oder Publikationsnamen suchen, wie NVIDIA unten abgebildet :



Dieser Datensatz ist Open Source unter der MIT-Lizenz auf HuggingFace als Tech Company News Data Dump . Bitte nutzen Sie diese Nachrichtendaten zu Technologieunternehmen frei für Ihr Projekt :-) Sie könnten den aggregierten Share of Voice eines Unternehmens online quantifizieren, Sie könnten eine Stimmungsanalyse der digitalen Berichterstattung eines Unternehmens messen, Sie könnten Ihr Modell trainieren, um vorherzusagen, welche Schlagzeilen worüber veröffentlicht werden Unternehmen in der Zukunft oder was auch immer Ihr Herz begehrt.

Schauen Sie sich diese offenen Daten hier an: