paint-brush
데이터 분석 초보자를 위한 15가지 Excel 데이터 세트~에 의해@datasets
285,960 판독값
285,960 판독값

데이터 분석 초보자를 위한 15가지 Excel 데이터 세트

~에 의해 Open Datasets Compiled by HackerNoon15m2023/03/19
Read on Terminal Reader
Read this story w/o Javascript

너무 오래; 읽다

Excel은 데이터 분석에 없어서는 안 될 도구이며, 올바른 데이터 세트와 기술을 통해 초보자는 통찰력을 발견하고 정보에 입각한 결정을 내리는 방법을 배울 수 있습니다. 이 기사에서는 데이터 분석 초보자를 위한 15개의 Excel 데이터 세트 목록을 정리했습니다. 재무 분석, 시장 분석, 시계열 분석과 같은 주제를 다루는 이러한 Excel 데이터 세트를 사용하여 실제 시나리오에 대한 통찰력을 얻을 수 있습니다.
featured image - 데이터 분석 초보자를 위한 15가지 Excel 데이터 세트
Open Datasets Compiled by HackerNoon HackerNoon profile picture

Excel은 데이터 분석에 없어서는 안 될 도구이며, 올바른 데이터 세트와 기술을 통해 초보자는 통찰력을 발견하고 정보에 입각한 결정을 내리는 방법을 배울 수 있습니다. 직관적인 인터페이스와 강력한 기능을 통해 사용자는 데이터 조작, 데이터 시각화 및 통계 분석과 같은 광범위한 프로세스를 수행할 수 있습니다.

"Excel 데이터 세트"란 무엇입니까?

Excel 데이터 세트는 사용자가 구조화된 형식으로 데이터를 생성, 조작 및 분석할 수 있도록 하는 일반적으로 사용되는 소프트웨어인 Excel 스프레드시트에 저장되고 구성되는 데이터 모음입니다. 이러한 데이터 세트는 Excel(.xlsx)과 쉼표로 구분된 값(CSV)의 두 가지 주요 형식으로 제공될 수 있습니다. Excel 형식은 수식 및 시각화 사용을 포함하여 복잡한 데이터를 구성하고 분석하기 위한 고급 기능을 제공하는 반면, CSV는 광범위한 소프트웨어 응용 프로그램과 호환되는 더 간단한 형식을 제공하므로 더 쉽게 공유할 수 있습니다. 서로 다른 프로그램 간의 데이터.


이 기사에서는 데이터 분석 초보자를 위한 15개의 Excel 데이터 세트 목록을 정리했습니다. 재무 분석, 시장 분석 및 시계열 분석과 같은 주제를 다루는 이러한 Excel 데이터 세트를 통해 초보자는 실제 시나리오에 대한 통찰력을 얻으면서 데이터 정리, 피벗 테이블 및 차트와 같은 데이터 분석 기술을 연습할 수 있습니다.

데이터 분석 초보자를 위한 Excel 데이터 세트 목록

  1. 대형마트 판매
  2. 아이리스
  3. 거대한
  4. 와인 품질
  5. 성인 인구 조사 소득
  6. 보스턴 하우징
  7. 유방암 위스콘신 데이터세트
  8. 온라인 쇼핑객 구매 의도
  9. 은행 마케팅
  10. 아보카도 가격
  11. 2009년부터 2019년까지 Amazon 상위 50대 베스트셀러 도서
  12. 피파 월드컵
  13. 뉴욕시 에어비앤비 공개 데이터
  14. 세계행복보고서
  15. 주가

1. 대형마트 판매

Superstore Sales 데이터는 제품, 주문 및 고객에 대한 정보를 포함하여 가상의 소매 회사에 대한 판매 데이터를 제공합니다. 데이터 분석을 연습하는 데 자주 사용됩니다.


이 Excel 데이터 세트에는 다음 변수가 포함되어 있습니다.


  • 주문 ID - 각 주문의 고유 식별자입니다.
  • 고객 ID - 각 고객의 고유 식별자입니다.
  • 주문 날짜 - 주문한 날짜입니다.
  • 배송 날짜 - 주문이 배송된 날짜입니다.
  • 배송 모드 - 주문의 배송 모드입니다(예: 표준, 당일).
  • 세그먼트 - 고객 세그먼트(예: 소비자, 기업, 홈 오피스)입니다.
  • 지역 - 고객이 위치한 지역(예: 서부, 중부, 동부)입니다.
  • 카테고리 - 구매한 제품의 카테고리(예: 가구, 기술, 사무용품)입니다.
  • 하위 카테고리 - 구매한 제품의 하위 카테고리(예: 의자, 데스크탑, 종이).
  • 제품명 - 구매한 제품의 이름입니다.
  • 매출 - 구매한 제품의 판매 수익입니다.
  • 수량 - 구매한 제품의 단위 수입니다.
  • 할인 - 구매한 상품에 적용되는 할인입니다.
  • 이익 - 구매한 제품으로 인해 발생하는 이익입니다.


2. 아이리스

이 데이터세트에는 세토사(setosa), 베르시컬러(versicolor), 버지니아(Virginica) 등 3가지 종에 속하는 붓꽃 150개의 꽃받침 길이, 꽃받침 너비, 꽃잎 길이 및 꽃잎 너비에 대한 측정값이 포함되어 있습니다. 붓꽃 데이터세트에는 150개의 행과 5개의 열이 있으며, 각 꽃의 종에 대한 열을 포함하여 데이터프레임으로 저장됩니다.


해당 변수에 대한 설명은 다음과 같습니다.


  • Sepal.Length - sepal.length는 꽃받침의 길이를 센티미터 단위로 나타냅니다.
  • Sepal.Width - sepal.width는 꽃받침의 너비를 센티미터 단위로 나타냅니다.
  • Petal.Length - 꽃잎.길이는 꽃잎의 길이를 센티미터 단위로 나타냅니다.
  • 종(Species) - 종 변수는 붓꽃의 종을 나타내며, setosa, versicolor 및 virginica의 세 가지 가능한 값을 갖습니다.


Excel의 Iris 데이터 세트의 한 가지 사용 사례는 Iris 꽃의 다양한 특징 간의 관계를 분석하고 특징 값을 기준으로 꽃 종을 분류하는 것입니다. 이는 상관 분석, 추론 통계, 예측 모델링과 같은 기술을 사용하여 수행할 수 있습니다.


다음을 클릭하여 Kaggle에서 이 Excel 데이터세트를 다운로드할 수도 있습니다. 여기 .

삼. 거대한

이 인기 있는 오픈 소스 데이터 세트는 1912년 4월 15일 침몰한 타이타닉 선박에 탑승한 승객에 대한 정보를 제공합니다. 이는 데이터 정리 및 전처리, 기술 통계, 데이터 시각화 및 예측 모델링에 관심이 있는 데이터 분석 초보자가 사용할 수 있습니다.

데이터 세트에 포함된 일부 변수는 다음과 같습니다.


  • PassengerId - 각 승객의 고유 식별자입니다.
  • 생존 - 승객의 생존 여부를 표시합니다(0 = 아니요, 1 = 예).
  • P클래스 - 승객의 클래스(1 = 1등, 2 = 2등, 3 = 3등).
  • 이름 - 승객의 이름입니다.
  • 성별 - 승객의 성별입니다.
  • 나이 - 승객의 나이.
  • SibSp - 탑승한 형제자매/배우자의 수입니다.
  • Parch - 탑승한 부모/자녀의 수입니다.
  • 티켓 - 티켓 번호입니다.
  • 운임 - 항공권에 대해 지불된 운임입니다.
  • 객실 - 객실 번호입니다.
  • Embarked - 승선 항구(C = Cherbourg, Q = Queenstown, S = Southampton).

4. 와인 품질

와인 품질 데이터세트에는 적포도주와 백포도주 샘플에 대한 정보가 포함되어 있습니다. 이 데이터 세트는 pH, 밀도, 알코올 함량, 구연산 함량과 같은 화학적 특성을 기준으로 와인의 품질을 분류하는 것을 목표로 합니다.


이 Excel 데이터 세트에 포함된 공통 변수는 다음과 같습니다.


  • 고정 산도(Fixed Acidity) – 와인의 고정 산도(g/dm^3)로 표현됩니다.
  • 휘발성 산도(Volatile Acidity) – 와인에 들어 있는 휘발성 산의 양으로 g/dm^3으로 표시됩니다.
  • 구연산 - 와인에 함유된 구연산의 양으로 g/dm^3으로 표시됩니다.
  • 잔류 설탕 - 와인에 남아 있는 설탕의 양으로, g/dm^3으로 표시됩니다.
  • 염화물 - 와인에 함유된 염화물의 양으로, g/dm^3으로 표시됩니다.
  • 유리 이산화황 - 와인에 함유된 유리 이산화황의 양으로 mg/dm^3으로 표시됩니다.
  • 총 이산화황 - 와인에 함유된 총 이산화황의 양으로, mg/dm^3 단위로 표시됩니다.
  • 밀도 - g/cm^3으로 표시되는 와인의 밀도입니다.
  • pH - 와인의 pH 수준.
  • 황산염 - 와인에 함유된 황산염의 양으로 g/dm^3으로 표시됩니다.
  • 알코올 - 와인의 알코올 함량을 % vol로 표시합니다.
  • 품질(Quality) - 와인의 품질 등급(0~10점)입니다.

5. 성인 인구 조사 소득

이 Excel 데이터 세트는 1994년 인구 조사 데이터베이스에서 추출한 미국에 거주하는 개인에 대한 정보 모음입니다. 여기에는 각 개인의 다양한 인구통계학적, 사회적, 경제적 속성이 포함되어 있습니다.


이 데이터 세트에 포함된 일부 속성은 다음과 같습니다.


  • 나이

  • 작업 클래스 - 개인, 자영업 비증가, 자영업, 연방정부, 지방정부, 주정부, 무급, 일한 적 없음.

  • fnlwgt

  • 교육 - 학사, 일부 대학, 11학년, HS-grad, Prof-school, Assoc-acdm, Assoc-voc, 9학년, 7-8학년, 12학년, 석사, 1-4학년, 10학년, 박사, 5학년-6학년, 유치원.

  • 학력번호

  • 결혼 상태 - 기혼-시민-배우자, 이혼, 미혼, 별거, 사별, 기혼-배우자-부재, 기혼-AF-배우자.

  • 직업 - 기술 지원, 기술 수리, 기타 서비스, 판매, 임원, 전문 교수, 취급자-청소부, 기계 작업 검사, 관리 사무, 농업-낚시, 운송-이사, 개인 주택- 서비스, 보호 서비스, 군대.

  • 관계 - 아내, 친자녀, 남편, 가족 외, 기타 친척, 미혼.

  • 인종 - 백인, 아시아인-태평양 섬인, 아메리카인디언-에스키모인, 기타, 흑인.

  • 성별 - 남성 또는 여성.


"소득" 속성은 목표 변수이며 데이터 세트는 데이터 분석 초보자에게 매우 유용합니다.


6. 보스턴 하우징

Boston Housing 데이터세트는 매사추세츠주 보스턴 지역의 주택에 대한 정보로 구성됩니다. 여기에는 약 506개의 행과 14개의 열이 있습니다.


데이터 세트의 일부 변수는 다음과 같습니다.


  • CRIM - 도시별 1인당 범죄율입니다.
  • ZN - 25,000평방피트가 넘는 부지에 대해 구역화된 주거용 토지의 비율입니다.
  • INDUS - 도시당 비소매 사업 면적의 비율입니다.
  • CHAS - Charles River 더미 변수(= 지역 경계가 강인 경우 1, 그렇지 않은 경우 0).
  • NOX - 산화질소 농도(1,000만분의 1)입니다.
  • RM - 주거지당 평균 방 수입니다.
  • AGE - 1940년 이전에 건축된 자가 거주 주택의 비율입니다.
  • DIS - 보스턴 고용 센터 5곳까지의 가중치 거리.
  • RAD - 방사형 고속도로에 대한 접근성 지수입니다.
  • 세금 - $10,000당 전체 재산세율입니다.
  • PTRATIO - 도시별 학생-교사 비율입니다.
  • B - 1000(Bk - 0.63)^2 여기서 -Bk는 마을별 흑인 비율입니다.
  • LSTAT - 모집단의 낮은 상태 비율입니다.
  • MEDV - 소유자가 거주하는 주택의 평균 가치($1000).


이 데이터 세트는 데이터 분석에 활용되어 주택 가격과 주택 시장의 다양한 특징 간의 관계를 분석하고, 데이터 분석을 수행하고 통찰력을 생성할 수 있습니다.

7. 유방암 위스콘신 데이터세트

이 Excel 데이터세트는 유방암 종양에 대한 정보로 구성되어 있으며 처음에는 William H. Wolberg 박사가 만들었습니다. 이 데이터 세트는 연구원과 기계 학습 실무자가 종양을 악성(암성) 또는 양성(비암성)으로 분류하는 데 도움을 주기 위해 만들어졌습니다.


이 데이터 세트에 포함된 일부 변수는 다음과 같습니다.


  • ID 번호
  • 진단(M = 악성, B = 양성).
  • 반경(중심에서 둘레의 점까지 거리의 평균).
  • 질감(회색조 값의 표준 편차)입니다.
  • 둘레
  • 영역
  • 매끄러움(반지름 길이의 지역적 변화)
  • 컴팩트함(둘레^2/면적 - 1.0).
  • 오목함(윤곽의 오목한 부분의 심각도).
  • 오목점(윤곽선의 오목한 부분 수).
  • 대칭
  • 프랙탈 차원("해안선 근사" - 1).

8. 온라인 쇼핑객 구매 의도

온라인 쇼핑객 구매 의도 데이터 세트는 온라인 쇼핑 맥락에서 구매 패턴 및 소비자 행동과 관련된 데이터 모음입니다. 이는 온라인 쇼핑객을 대상으로 설문조사를 실시하고 그들의 응답에서 데이터를 수집하여 만들어졌습니다.


이 데이터 세트의 일부 변수는 다음과 같습니다.


  • 관리 - 사용자가 관리 목적으로 방문한 웹사이트 페이지 수
  • Administrative_Duration - 사용자가 웹사이트의 관리 페이지에서 보낸 총 시간
  • 정보 제공 - 사용자가 정보 제공 목적으로 방문한 웹사이트의 페이지 수
  • Informational_Duration - 사용자가 웹사이트의 정보 페이지에서 보낸 총 시간
  • ProductRelated - 사용자가 제품 관련 목적으로 방문한 웹사이트의 페이지 수
  • ProductRelated_Duration - 사용자가 웹사이트의 제품 관련 페이지에서 보낸 총 시간입니다.
  • BounceRates - 웹사이트에 들어왔다가 다른 페이지를 보지 않고 떠나는 방문자의 비율
  • ExitRates - 특정 페이지를 방문한 후 웹사이트를 종료하는 방문자의 비율
  • PageValues - 거래 전에 사용자가 본 페이지의 평균 값
  • SpecialDay - 방문이 특별한 날(예: 어머니날, 발렌타인데이 등)에 근접한 날짜입니다.


이 Excel 데이터세트는 전자상거래 및 온라인 마케팅과 관련된 연구 및 분석에 사용됩니다. 이는 기업이 고객 행동을 유도하는 요인을 이해하는 데 도움이 될 수 있으며 데이터 분석 초보자에게도 유용합니다.

9. 은행 마케팅

이 인기 있는 데이터 세트는 포르투갈 은행 기관의 마케팅 캠페인을 연구하기 위한 것입니다. 여기에는 은행의 마케팅 캠페인 정보는 물론 고객 인구통계 및 경제 지표에 대한 정보가 포함되어 있습니다.


이 데이터 세트에 포함된 일부 변수는 다음과 같습니다.


  • 연령 - 고객의 연령(숫자)
  • 직업 - 직업의 종류
  • 결혼 - 결혼 상태
  • 교육 - 교육 수준
  • 불이행 - 불이행에 신용이 있습니까?
  • 잔액 - 연간 평균 잔액(유로)입니다.
  • 주택 - 주택 대출이 있습니까?
  • 대출 - 개인 대출이 있나요?
  • 연락처 - 연락처 통신 유형입니다.
  • 일 - 연락한 달의 날짜입니다.
  • 출력변수는 고객이 은행으로부터 연락을 받은 후 정기예금에 가입했는지 여부를 나타냅니다.

10. 아보카도 가격

아보카도 가격 데이터세트는 미국의 아보카도 가격과 관련된 데이터로 구성됩니다. 데이터는 Hass Avocado Board 및 미국 농무부(USDA)와 같은 다양한 소스에서 수집됩니다.


이 데이터 세트의 일부 변수는 다음과 같습니다.


  • 날짜 - 관찰 날짜입니다.
  • 평균 가격 - 단일 아보카도의 평균 가격입니다.
  • 총량 - 판매된 아보카도의 총 수량입니다.
  • PLU(Price Look-Up) 코드 - 특정 유형의 아보카도를 식별하는 데 사용되는 코드입니다.
  • 유형 - 기존 또는 유기농
  • 지역(Region) - 관찰 대상 도시 또는 지역입니다.


또한 식품 산업 기업이 아보카도 구매 및 판매에 대한 전략적 결정을 내리는 데 사용할 수도 있습니다.

11. 2009년 - 2019년 Amazon 상위 50대 베스트셀러 도서

이 Excel 데이터세트는 2009년부터 2019년까지 매년 Amazon에서 가장 많이 팔린 도서 상위 50권과 관련된 데이터 모음입니다.


데이터 세트에는 다음 변수가 포함됩니다.


  • 이름 - 책의 제목입니다.
  • 저자 - 책 저자의 이름입니다.
  • 사용자 평가 - Amazon 사용자가 제공한 도서의 평균 평가입니다.
  • 리뷰 - 책이 Amazon에서 받은 총 리뷰 수입니다.
  • 가격 - 미국 달러로 표시된 책 가격입니다.
  • 연도 - 책이 출판된 연도입니다.
  • 장르 - 책의 장르입니다.


Amazon Top 50 Best Selling Books는 지난 10년간 Amazon 도서 판매 동향을 탐색하는 데 사용할 수 있으며 데이터 분석 초보자에게 유용합니다.


12. 피파 월드컵

FIFA 월드컵 데이터세트는 4년마다 개최되는 FIFA 월드컵과 관련된 데이터를 모아 놓은 것이다. 1930년부터 2014년까지의 모든 월드컵 토너먼트에 대한 정보가 포함되어 있습니다.


이 데이터 세트의 일부 변수는 다음과 같습니다.


  • 연도 - 토너먼트의 연도입니다.
  • 국가 - 토너먼트의 개최 국가입니다.
  • 우승자 - 토너먼트에서 우승한 팀입니다.
  • 준우승 - 준우승으로 마친 팀입니다.
  • 세 번째 – 3위를 차지한 팀입니다.
  • 4위 - 4위를 차지한 팀입니다.
  • GoalsScored - 토너먼트에서 득점한 총 골 수입니다.
  • QualifiedTeams - 토너먼트에 참가할 자격을 얻은 총 팀 수입니다.
  • 출석 - 경기에 참석한 총 관중 수입니다.


데이터 세트를 사용하면 참가 팀 수나 득점 수의 변화 등 시간에 따른 월드컵 동향을 분석할 수 있습니다.

13. 뉴욕시 에어비앤비 공개 데이터

이 Excel 데이터 세트는 뉴욕시의 Airbnb 목록 및 지표에 대한 공개 정보로 구성됩니다. 2019년 뉴욕시 Airbnb 공개 데이터에는 도시 내 약 50,000개의 Airbnb 목록에 대한 정보가 포함되어 있으며, 임대가 도시에 미치는 영향에 대한 투명성과 이해를 증진하기 위해 뉴욕시 정부에서 대중에게 공개합니다.


데이터 세트의 일부 변수는 다음과 같습니다.


  • ID - 각 Airbnb 목록의 고유 식별자입니다.
  • 이름 - 에어비앤비 숙소의 이름입니다.
  • Host_id - Airbnb 호스트의 고유 식별자입니다.
  • Host_name - 에어비앤비 호스트의 이름입니다.
  • Neighbourhood_group - 에어비앤비 목록의 자치구입니다.
  • 동네 - 에어비앤비 목록에 등록된 동네입니다.
  • 위도 - 에어비앤비 목록의 위도입니다.
  • 경도 - 에어비앤비 숙소의 경도입니다.
  • Room_type - 임대할 수 있는 방 유형(예: 개인실, 집/아파트 전체, 공유실).
  • 가격 - 에어비앤비 숙소를 임대하는 1박당 가격입니다.

14. 세계행복보고서

이 데이터세트에는 행복에 기여하는 경제, 사회, 건강 요인 등 150여 개국의 행복 수준에 대한 정보가 포함되어 있습니다. 데이터 탐색, 시각화, 회귀 분석을 연습하는 데 데이터 분석 초보자에게 유용합니다.


이 데이터 세트의 일부 변수는 다음과 같습니다.


  • 국가 이름 - 국가의 이름입니다.
  • 연도 - 설문 조사의 연도입니다.
  • Life Ladder - 0~10점을 기준으로 한 평균 생활 만족도 점수입니다.
  • 1인당 로그 GDP - 2017년 고정 국제 달러 기준 구매력 평가(PPP)에 맞게 조정된 1인당 GDP의 자연 로그입니다.
  • 출생 시 건강한 기대 수명 - 완전한 건강 상태로 살아갈 것으로 예상되는 연수를 나쁜 건강 상태로 보낸 연수를 조정한 것입니다.

15. 주가

이 데이터세트에는 Apple, Google, Amazon 등 다양한 회사의 일일 주가가 포함되어 있습니다. 시계열 분석을 연습하고 미래 주가를 예측하는 데 유용합니다.


이 데이터세트의 변수는 다음과 같습니다.


  • 날짜 - 주가가 기록된 날짜입니다.
  • 공개 - 주식의 시가입니다.
  • 고가 - 거래일 동안 주식의 최고 가격입니다.
  • 저가 - 거래일 동안 주식의 최저 가격입니다.
  • 마감 - 주식의 마감 가격입니다.
  • 조정 마감 - 주식의 조정 마감 가격입니다.
  • 거래량 - 하루 동안 거래된 주식 수입니다.


이러한 Excel 데이터 세트에 대한 일반적인 연습 문제

대형마트 판매

  • 매장에서 발생한 총 수익은 얼마인가요?
  • 어떤 카테고리의 제품이 매출에 가장 많이 기여합니까?
  • 지난 1년간 매출 동향은 어땠나요?
  • 매출이 가장 높은 지역과 가장 낮은 지역은 어디입니까?
  • 해당 매장의 평균 이익률은 얼마입니까?

아이리스

  • 데이터세트에 있는 각 붓꽃 종의 분포는 어떻게 되나요?
  • 꽃잎 길이와 꽃잎 너비 사이에는 어떤 상관 관계가 있습니까?
  • 각 붓꽃 종의 평균 꽃받침 길이는 얼마입니까?
  • 꽃잎 면적이 가장 큰 붓꽃 종은 무엇입니까?
  • 붓꽃의 각 종에 대해 몇 개의 관측치가 있습니까?

거대한

  • 승객들의 생존율은 얼마나 됩니까?
  • 승객의 평균 연령은 몇 세입니까?
  • 승객의 남성과 여성 비율은 어떻게 되나요?
  • 어떤 클래스의 승객이 가장 높은 생존율을 보였습니까?
  • 승객이 지불한 운임은 어떻게 분배되나요?

와인 품질

  • pH와 알코올 함량의 상관관계는 무엇입니까?
  • 중간 품질 등급이 더 높은 와인 유형(레드 또는 화이트)은 무엇입니까?
  • 각 와인 종류의 평균 휘발성 산도는 얼마입니까?
  • 데이터 세트에서 각 와인 유형의 비율은 얼마입니까?
  • 와인 종류별 구연산 분포는 어떻게 되나요?

성인 인구 조사 소득

  • 50,000달러 이상을 버는 사람의 비율은 얼마나 됩니까?
  • 50,000달러 이상 버는 사람들의 평균 연령은 몇 살입니까?
  • 연령과 교육 수준 사이에는 어떤 상관 관계가 있습니까?
  • 50,000달러 이상을 버는 남성과 여성의 비율은 얼마입니까?
  • $50,000 이상을 버는 사람들의 주당 평균 근무 시간은 얼마입니까?

보스턴 하우징

  • 방 수와 자가 거주 주택의 중간 가치 사이에는 어떤 상관 관계가 있습니까?
  • 자가 거주 주택의 중간 가치와 가장 높은 상관 관계를 갖는 변수는 무엇입니까?
  • 집의 평균 연령은 몇 세입니까?
  • 도시별 학생-교사 비율 분포는 어떻습니까?
  • 자가 거주 주택의 평균 가치가 가장 높은 도시는 어디입니까?

유방암 위스콘신 데이터세트

  • 양성종양과 악성종양의 비율은 어떻게 되나요?
  • 종양 반경과 둘레 사이의 상관 관계는 무엇입니까?
  • 종양의 평균 부드러움은 어느 정도입니까?
  • 종양의 오목함 분포는 어떻습니까?
  • 종양의 중앙 면적은 얼마입니까?

온라인 쇼핑객 구매 의도

  • 구매한 방문자의 비율은 얼마나 됩니까?
  • 방문자가 방문한 페이지 수의 분포는 어떻게 되나요?
  • 방문자가 웹사이트에서 보낸 평균 시간은 얼마입니까?
  • 이탈률과 수익 사이에는 어떤 상관관계가 있나요?
  • 방문객들이 사용하는 운영체제의 분포는 어떻게 됩니까?

은행 마케팅

  • 정기예금에 가입한 사람의 비율은 얼마나 됩니까?
  • 나이와 균형 사이에는 어떤 상관 관계가 있습니까?
  • 고객의 직업 유형 분포는 어떻습니까?
  • 평균 통화 시간은 얼마나 됩니까?
  • 매달 통화한 비율은 얼마나 됩니까?

2009년부터 2019년까지 Amazon 상위 50대 베스트셀러 도서

  • 책의 평균 평점은 얼마입니까?
  • 해당 도서에 대한 리뷰 수의 분포는 어떻게 되나요?
  • 어떤 책의 가격이 가장 높나요?
  • 책의 평점과 가격 사이에는 어떤 상관관계가 있나요?
  • 책의 장르 분포는 어떻게 되나요?

피파 월드컵

  • 경기당 평균 득점 수는 얼마입니까?
  • 무승부로 끝난 게임의 비율은 얼마나 됩니까?
  • 월드컵 타이틀을 가장 많이 획득한 국가는 어디인가요?
  • 토너먼트에 참가하는 선수들의 평균 연령은 어떻게 되나요?
  • 경기별 출석률은 어떻게 되나요?

뉴욕시 에어비앤비 공개 데이터

  • 목록의 평균 가격은 얼마입니까?
  • 목록에 사용할 수 있는 객실 유형은 어떻게 분포되어 있나요?
  • 매물이 가장 많은 동네는 어디인가요?
  • 리뷰 수와 목록 가격 사이에는 어떤 상관관계가 있나요?
  • 숙소 취소 정책은 어떻게 배포되나요?

세계행복보고서

  • 국가별 행복지수 분포는 어떻게 되나요?
  • 행복지수가 가장 높은 나라는 어디일까요?
  • 1인당 GDP와 행복지수 사이에는 어떤 상관관계가 있나요?
  • 행복에 기여하는 요소의 분포는 어떻게 됩니까?
  • 세계에서 평균 행복 점수가 가장 높은 지역은 어디인가요?

주가

  • 해당 주식의 일일 평균 수익률은 얼마입니까?
  • 일일 거래량 분포는 어떻게 되나요? 아보카도 가격
  • 아보카도의 평균 가격은 얼마입니까?
  • 지역별 평균 가격 분포는 어떻게 되나요?
  • 평균 가격이 가장 높은 지역과 가장 낮은 지역은 어디인가요?
  • 총 거래량과 평균 가격 사이에는 어떤 상관관계가 있나요?
  • 연도별 총량 분포는 어떻게 되나요?

마지막 생각들

Excel은 데이터 분석 초보자를 위한 다양한 도구를 제공하며 이 문서에 나열된 Excel 데이터 세트를 사용하여 기술을 향상시킬 수 있습니다.


위의 질문에 답하기 위해 선 차트, 막대 차트, 산점도, 히스토그램, 원형 차트 등 다양한 유형의 시각화를 만들 수도 있습니다.


이 기사의 리드 이미지는 프롬프트 'Excel 데이터 세트'를 사용하여HackerNoon의 AI Stable Diffusion 모델을 통해 생성되었습니다.


더 많은 데이터 세트 목록:

  1. Tableau 데이터세트
  2. Power BI 데이터 세트
  3. 케라스 데이터세트