paint-brush
Teknoloji Şirketi Haberleri HuggingFace'teki Veri Dökümü: 3 Bin En Değerli Teknoloji Şirketi Hakkında 7 Milyon En Çok Alıntı Yapılan Gönderiile@david

Teknoloji Şirketi Haberleri HuggingFace'teki Veri Dökümü: 3 Bin En Değerli Teknoloji Şirketi Hakkında 7 Milyon En Çok Alıntı Yapılan Gönderi

ile David Smooke2m2024/02/08
Read on Terminal Reader

Çok uzun; Okumak

HackerNoon, internetin en çok alıntı yapılan 7 milyondan fazla teknoloji şirketi haber makalesini ve 3 binden fazla en değerli teknoloji şirketi hakkındaki blog gönderilerini derledi ve açık kaynak haline getirdi.
featured image - Teknoloji Şirketi Haberleri HuggingFace'teki Veri Dökümü: 3 Bin En Değerli Teknoloji Şirketi Hakkında 7 Milyon En Çok Alıntı Yapılan Gönderi
David Smooke HackerNoon profile picture
0-item
1-item


HackerÖğlen 2022 ve 2023'teki 3 binden fazla en değerli teknoloji şirketi hakkında internette en çok alıntı yapılan 7 milyondan fazla teknoloji şirketi haber makalesini ve blog gönderisini derledik. Bu hikayeler, güç sağlamak için seçildi HackerNoon.com/Companies gibi önde gelen teknoloji şirketlerine ilişkin günlük haberleri güncellediğimiz yer Microsoft , Google , Ve SarılmaYüz . Bu veri kümesi, HuggingFace'te Tech Company News Data Dump olarak MIT Lisansı altında açık kaynaklıdır. Lütfen bu teknoloji şirketi haber verilerini projeniz için özgürce kullanın :-)


https://huggingface.co/datasets/HackerNoon/tech-company-news-data-dump


Teknoloji şirketleri nasıl seçildi?

Ekibimiz en değerli teknoloji şirketlerinin bir listesini yaptı ve haberlerde ve HackerNoon'da trend olmaya başladıkça şirketleri de ekledi. Piyasa kapitalizasyonuna göre ilk bir buçuk bin halka açık şirketlerdi. Daha sonra HackerNoon hikayelerinde şirketlerden bahsedildikçe ve yılın startup'ı oylamamızda iyi performans gösterdikçe, onlar için teknoloji şirketi haber sayfaları oluşturduk. Bir teknoloji şirketi haber sayfası oluşturulduktan sonra sistemimiz, trend olan hikayenin ne olduğunu tanımlayan kurallarımıza ve istemlerimize göre o şirket hakkındaki trend haberleri, makaleleri ve blog gönderilerini seçer ve saklar.

Hikayeler, makaleler ve blog gönderilerinin kaynağı nasıl?

Bing News API'si, Brave News API'si ve HackerNoon API'si kullanılarak alaka düzeyi, spesifiklik ve trende yönelik özel kuralların, istemlerin ve koşulların birleşimi. Her şirket için sektör eşleşmesini ayrıntılı olarak inceledik ve daha güvenilir, yüksek sıralamaya sahip siteleri tercih ederken aynı zamanda daha düşük sıralamaya sahip niş yayıncılara da izin verdik. Her şirket için, ana/şirket sayfasında ( örnek olarak Microsoft ) en alakalı 10-20 öyküyü ortaya koyuyoruz ve ardından şirketin haberlerinin, öykülerinin, anılanlarının, makalelerinin ve şirketin internet geçmişindeki önemli bağlantıların tam listesini sunuyoruz. -isim/haberler ( örnek olarak Google ).

Bu teknoloji şirketinin haber verileri nasıl düzenleniyor?

Sütunlar şirketAdı, şirket URL'si, yayınlananAT, (hikaye) URL'si, başlık, öne çıkan resim ve (meta) açıklamadır. Bu, veritabanımızdaki verileri nasıl düzenlediğimizi takip eder. Her makale en az bir şirkete bağlıdır. Bazı şirketlerin ses paylarına göre diğerlerinden daha fazla makalesi vardır; örneğin veri kümesi görüntüleyiciyi kullandığınızda Google'ın 99.152 sonuç , 3M'nin 20.608 sonuç , Adobe'nin 13.449 sonuç ve NVIDIA'nın 19.811 sonuç olduğunu görebilirsiniz.


Verileri indirmeden bile, aşağıdaki resimde görülen NVIDIA gibi, veri kümesi görüntüleyicide şirket veya yayın adlarını arayabilirsiniz:



Bu veri kümesi, HuggingFace'te Tech Company News Data Dump olarak MIT Lisansı altında açık kaynaklıdır. Lütfen bu teknoloji şirketi haber verilerini projeniz için özgürce kullanın :-) Bir şirketin çevrimiçi toplam ses payını ölçebilir, bir şirketin dijital haber kapsamının duyarlılık analizini ölçebilir, hangi manşetlerin hangi konu hakkında yayınlanacağını tahmin etmek için modelinizi eğitebilirsiniz. Gelecekteki şirketler veya büyük teknoloji şirketleri ve medyada yer almak istediğiniz diğer araştırmalar.

Buradaki açık verilere göz atın: