paint-brush
기술 회사 뉴스 HuggingFace의 데이터 덤프: 가장 가치 있는 기술 회사 3,000개에 대한 가장 많이 인용된 게시물 700만 개~에 의해@David

기술 회사 뉴스 HuggingFace의 데이터 덤프: 가장 가치 있는 기술 회사 3,000개에 대한 가장 많이 인용된 게시물 700만 개

~에 의해 David Smooke2m2024/02/08
Read on Terminal Reader

너무 오래; 읽다

HackerNoon은 인터넷에서 가장 많이 인용된 700만 개 이상의 기술 회사 뉴스 기사와 3000개 이상의 가장 가치 있는 기술 회사에 대한 블로그 게시물을 선별하고 오픈소스로 제공했습니다.
featured image - 기술 회사 뉴스 HuggingFace의 데이터 덤프: 가장 가치 있는 기술 회사 3,000개에 대한 가장 많이 인용된 게시물 700만 개
David Smooke HackerNoon profile picture
0-item
1-item


해커눈 2022년과 2023년에 인터넷에서 가장 많이 인용된 700만 개 이상의 기술 회사 뉴스 기사와 3,000개 이상의 가장 가치 있는 기술 회사에 대한 블로그 게시물을 큐레이팅했습니다. HackerNoon.com/Compansies , 다음과 같은 최고의 기술 기업에 대한 일일 뉴스를 업데이트합니다. 마이크로소프트 , Google , 그리고 포옹얼굴 . 이 데이터 세트는 HuggingFace의 MIT 라이선스(Tech Company News Data Dump) 에 따라 오픈 소스로 제공됩니다. 이 기술 회사 뉴스 데이터를 귀하의 프로젝트에 자유롭게 활용하십시오 :-)


https://huggingface.co/datasets/HackerNoon/tech-company-news-data-dump


기술 회사가 어떻게 큐레이팅되었는지

우리 팀은 가장 가치 있는 기술 회사 목록을 작성하고 뉴스와 HackerNoon에서 트렌드가 되기 시작하는 회사를 추가했습니다. 처음 15,000개는 시가총액 기준으로 공개된 기업이었습니다. 그런 다음 회사가 HackerNoon 스토리에 언급되고 올해의 스타트업 투표 에서 좋은 성과를 거두자 해당 회사를 위한 기술 회사 뉴스 페이지를 추가했습니다. 기술 회사 뉴스 페이지가 생성되면 당사 시스템은 트렌드 스토리가 무엇인지 정의하는 규칙과 프롬프트를 기반으로 해당 회사에 대한 트렌드 뉴스, 기사 및 블로그 게시물을 선별하고 저장합니다.

스토리, 기사, 블로그 게시물의 출처

Bing News API, Brave News API 및 HackerNoon API를 사용하여 관련성, 특이성 및 유행에 대한 사용자 지정 규칙, 프롬프트 및 조건의 조합입니다. 우리는 각 회사의 업계 일치 항목을 자세히 조사하여 더 신뢰할 수 있는 상위 사이트를 선호하는 동시에 관련성이 낮은 틈새 게시자를 허용했습니다. 각 회사에 대해 기본/회사 페이지( 예: Microsoft )에 가장 관련성이 높은 10-20개의 기사를 표시한 다음 회사의 뉴스, 기사, 언급, 기사 및 회사 인터넷 기록의 주목할만한 링크의 전체 목록을 표시합니다. -이름/뉴스( 예: Google ).

이 기술 회사 뉴스 데이터가 구성되는 방식

열은 회사 이름, 회사 URL, 게시된 AT, (스토리) URL, 제목, 추천 이미지 및 (메타) 설명입니다. 이는 데이터베이스에서 데이터를 구성하는 방법을 따릅니다. 모든 기사는 적어도 하나의 회사와 연결되어 있습니다. 일부 회사는 목소리 점유율을 기준으로 다른 회사보다 더 많은 기사를 보유하고 있습니다. 예를 들어 데이터세트 뷰어를 사용하면 Google의 결과가 99,152개 , 3M의 결과가 20,608개 , Adobe의 결과가 13,449개 , NVIDIA의 결과가 19,811개라는 것을 볼 수 있습니다.


데이터를 다운로드하지 않고도 아래 그림의 NVIDIA 와 같이 데이터 세트 뷰어에서 회사 또는 출판물 이름을 검색할 수 있습니다.



이 데이터 세트는 HuggingFace의 MIT 라이선스(Tech Company News Data Dump) 에 따라 오픈 소스로 제공됩니다. 이 기술 회사 뉴스 데이터를 귀하의 프로젝트에 자유롭게 사용하십시오. :-) 회사의 온라인 전체 음성 점유율을 정량화할 수 있고, 회사의 디지털 뉴스 보도에 대한 감정 분석을 측정할 수 있으며, 어떤 헤드라인이 어떤 기사에 게시될지 예측하도록 모델을 훈련시킬 수 있습니다. 미래의 회사 또는 대규모 기술 회사에 대한 기타 연구 및 미디어 보도가 원하는 모든 것.

여기에서 공개 데이터를 확인하세요.