paint-brush
Kết xuất dữ liệu tin tức công ty công nghệ trên HuggingFace: 7 triệu bài viết được trích dẫn nhiều nhất về 3k công ty công nghệ có giá trị nhấttừ tác giả@David

Kết xuất dữ liệu tin tức công ty công nghệ trên HuggingFace: 7 triệu bài viết được trích dẫn nhiều nhất về 3k công ty công nghệ có giá trị nhất

từ tác giả David Smooke2m2024/02/08
Read on Terminal Reader

dài quá đọc không nổi

HackerNoon đã tuyển chọn và cung cấp nguồn mở cho hơn 7 triệu bài viết tin tức về công ty công nghệ được trích dẫn nhiều nhất trên Internet và các bài đăng trên blog về các công ty công nghệ có giá trị nhất trên 3 nghìn công ty công nghệ.
featured image - Kết xuất dữ liệu tin tức công ty công nghệ trên HuggingFace: 7 triệu bài viết được trích dẫn nhiều nhất về 3k công ty công nghệ có giá trị nhất
David Smooke HackerNoon profile picture
0-item
1-item


HackerBuổi trưa tuyển chọn các bài báo và bài đăng blog về công ty công nghệ có giá trị hơn 3k+ được trích dẫn nhiều nhất trên Internet vào năm 2022 và 2023. Những câu chuyện này được tuyển chọn theo quyền lực HackerNoon.com/Companies , nơi chúng tôi cập nhật tin tức hàng ngày về các công ty công nghệ hàng đầu như Microsoft , Google , Và ôm mặt . Tập dữ liệu này có nguồn mở theo Giấy phép MIT trên HuggingFace dưới dạng Kết xuất dữ liệu tin tức của công ty công nghệ . Vui lòng sử dụng miễn phí dữ liệu tin tức của công ty công nghệ này cho dự án của bạn :-)


https://huggingface.co/datasets/HackerNoon/tech-company-news-data-dump


Các công ty công nghệ được quản lý như thế nào

Nhóm của chúng tôi đã lập danh sách các công ty công nghệ có giá trị nhất và thêm các công ty khi chúng bắt đầu trở thành xu hướng trên tin tức và trên HackerNoon. Một nghìn rưỡi đầu tiên là các công ty đại chúng dựa trên vốn hóa thị trường. Sau đó, khi các công ty được nhắc đến trong các câu chuyện của HackerNoon và hoạt động tốt trong cuộc bình chọn công ty khởi nghiệp của năm , chúng tôi đã thêm các trang tin tức về công ty công nghệ đã tạo cho họ. Sau khi trang tin tức của công ty công nghệ được tạo, hệ thống của chúng tôi sẽ tuyển chọn và lưu trữ các tin tức, bài viết và bài đăng blog thịnh hành về công ty đó dựa trên các quy tắc và lời nhắc của chúng tôi nhằm xác định đâu là câu chuyện thịnh hành.

Các câu chuyện, bài báo và bài đăng trên blog có nguồn gốc như thế nào

Sự kết hợp của các quy tắc tùy chỉnh, lời nhắc và điều kiện về mức độ liên quan, tính cụ thể và tính xu hướng bằng cách sử dụng API Bing News, API Brave News và API HackerNoon. Chúng tôi đã tìm hiểu sâu hơn về sự phù hợp trong ngành cho từng công ty và đặc biệt ưu tiên các trang web có thứ hạng cao đáng tin cậy hơn, đồng thời cho phép các nhà xuất bản thích hợp có thứ hạng thấp hơn có liên quan. Đối với mỗi công ty, chúng tôi hiển thị 10-20 câu chuyện có liên quan nhất trên trang chính /công ty của họ ( Microsoft làm ví dụ ) và sau đó đưa ra danh sách đầy đủ các tin tức, câu chuyện, đề cập, bài viết và liên kết đáng chú ý trong lịch sử internet của công ty -name/news ( Google làm ví dụ ).

Dữ liệu tin tức của công ty công nghệ này được tổ chức như thế nào

Các cột là Tên công ty, URL công ty, AT đã xuất bản, url (câu chuyện), tiêu đề, hình ảnh nổi bật và mô tả (meta). Điều này tuân theo cách chúng tôi tổ chức dữ liệu trong cơ sở dữ liệu của mình. Mỗi bài viết được kết nối với ít nhất một công ty. Một số công ty có nhiều bài viết hơn các công ty khác dựa trên tỷ lệ chia sẻ ý kiến của họ, chẳng hạn như sử dụng trình xem tập dữ liệu, bạn có thể thấy Google có 99.152 kết quả , 3M có 20.608 kết quả , Adobe có 13.449 kết quảNVIDIA có 19.811 kết quả .


Thậm chí không cần tải xuống dữ liệu, bạn có thể tìm kiếm tên công ty hoặc ấn bản trong trình xem tập dữ liệu, như NVIDIA trong hình bên dưới :



Tập dữ liệu này có nguồn mở theo Giấy phép MIT trên HuggingFace dưới dạng Kết xuất dữ liệu tin tức của công ty công nghệ . Vui lòng sử dụng miễn phí dữ liệu tin tức của công ty công nghệ này cho dự án của bạn :-) Bạn có thể định lượng tỷ lệ tiếng nói tổng hợp trực tuyến của một công ty, bạn có thể đo lường phân tích cảm tính về mức độ đưa tin tức kỹ thuật số của công ty, bạn có thể đào tạo mô hình của mình để dự đoán những tiêu đề nào sẽ xuất bản về những gì các công ty trong tương lai hoặc bất kỳ nghiên cứu nào khác về các công ty công nghệ lớn và phương tiện truyền thông đưa tin mà trái tim bạn mong muốn.

Kiểm tra dữ liệu mở này ở đây: