Excel はデータ分析に不可欠なツールであり、適切なデータセットとテクニックを使用すれば、初心者でも洞察を明らかにし、情報に基づいた意思決定を行うことができます。その直感的なインターフェースと強力な機能により、ユーザーはデータ操作、データの視覚化、統計分析などの幅広いプロセスを実行できます。
Excel データセットは、Excel スプレッドシートに保存および整理されたデータのコレクションです。Excel スプレッドシートは、ユーザーが構造化された形式でデータを作成、操作、および分析できるようにする一般的に使用されるソフトウェアです。これらのデータセットには、Excel (.xlsx) とカンマ区切り値 (CSV) の 2 つの主な形式があります。 Excel 形式は、数式や視覚化の使用など、複雑なデータを整理および分析するためのより高度な機能を提供します。一方、CSV は、幅広いソフトウェア アプリケーションと互換性のある単純な形式を提供し、共有を容易にします。異なるプログラム間のデータ。
この記事では、データ分析初心者向けの 15 個の Excel データセットのリストをまとめました。財務分析、市場分析、時系列分析などのトピックをカバーするこれらの Excel データセットを使用すると、初心者でもデータ クリーニング、ピボット テーブル、グラフなどのデータ分析手法を実践しながら、現実世界のシナリオに関する洞察を得ることができます。
Superstore Sales データは、製品、注文、および顧客に関する情報を含む、架空の小売会社の売上データを提供します。データ分析の練習によく使用されます。
この Excel データセットには、次の変数が含まれています。
このデータセットには、setosa、versicolor、virginica の 3 つの異なる種に属する 150 個のアヤメの花のがく片の長さ、がく片の幅、花弁の長さ、および花弁の幅の測定値が含まれています。アイリス データセットには 150 行と 5 列があり、各花の種の列を含むデータ フレームとして格納されます。
その変数の説明は次のとおりです。
Excel でのアイリス データセットの使用例の 1 つは、アイリスの花のさまざまな特徴間の関係を分析し、特徴値に基づいて花の種を分類することです。これは、相関分析、推論統計、予測モデリングなどの手法を使用して行うことができます。
をクリックして、Kaggle でこの Excel データセットをダウンロードすることもできます。
この人気のあるオープンソース データセットは、1912 年 4 月 15 日に沈没したタイタニック号の乗客に関する情報を提供します。データのクリーニングと前処理、記述統計、データの視覚化、予測モデリングに関心のあるデータ分析の初心者が使用できます。
データセットに含まれる変数の一部:
Wine Quality データセットには、赤ワインと白ワインのサンプルに関する情報が含まれています。このデータセットは、pH、密度、アルコール含有量、クエン酸含有量などの化学的特性に基づいてワインの品質を分類することを目的としています。
この Excel データセットに含まれる一般的な変数:
この Excel データセットは、1994 年の国勢調査データベースから抽出された、米国に住む個人に関する情報のコレクションです。これには、各個人に関するさまざまな人口統計学的、社会的、経済的属性が含まれています。
このデータセットに含まれる属性の一部:
年
ワーククラス - 私立、非営利の自営業者、株式会社自営業者、連邦政府、地方政府、州政府、無給、無職。
fnlwgt
学歴 - 学士号、一部の大学、11 番目、HS 卒業生、専門学校、Assoc-acdm、Assoc-voc、9 番目、7 番目から 8 番目、12 番目、修士号、1 番目から 4 番目、10 番目、博士号、5 番目から 6 番目、幼稚園。
教育番号
婚姻状況 - 既婚市民配偶者、離婚、未婚、別居、未亡人、既婚配偶者不在、既婚 AF 配偶者。
職業 - 技術サポート、クラフト修理、その他のサービス、販売、エグゼクティブ マネージャー、専門教授、ハンドラー クリーナー、マシン オペレーション インスペクト、アドム事務、農業漁業、輸送移動、プライベート ハウスサーブ、保護サーブ、軍隊。
関係 - 妻、実子、夫、家族以外、その他の親戚、未婚。
人種 - 白人、アジア太平洋諸島人、アメリカ インド人エスキモー、その他、黒人。
性別 - 男性または女性。
「収入」属性はターゲット変数であり、データセットはデータ分析の初心者にとって非常に役立ちます。
ボストン住宅データセットは、マサチューセッツ州ボストン地域の住宅に関する情報で構成されています。約 506 行と 14 列のデータがあります。
データセット内の変数には次のものがあります。
このデータセットをデータ分析に利用して、住宅価格のさまざまな特徴と住宅市場との関係を分析し、データ分析を実行して洞察を得ることができます。
この Excel データセットは、乳がんの腫瘍に関する情報で構成されており、ウィリアム H. ウォルバーグ博士によって最初に作成されました。このデータセットは、研究者や機械学習の専門家が腫瘍を悪性 (癌性) または良性 (非癌性) に分類するのを支援するために作成されました。
このデータセットに含まれる変数の一部:
オンライン ショッパーの購買意向データセットは、オンライン ショッピングのコンテキストにおける購入パターンと消費者行動に関連するデータのコレクションです。これは、オンラインの買い物客を対象に調査を実施し、その回答からデータを収集することによって作成されました。
このデータセットの変数には次のものがあります。
この Excel データセットは、e コマースとオンライン マーケティングに関連する調査と分析に使用されます。企業が顧客の行動を促進する要因を理解するのに役立ち、データ分析の初心者にも役立ちます。
この人気のあるデータセットは、ポルトガルの銀行機関のマーケティング キャンペーンを研究するためのものです。これには、銀行のマーケティング キャンペーンのほか、顧客の人口統計や経済指標に関する情報が含まれています。
このデータセットに含まれる変数の一部:
Avocado Prices データセットは、米国におけるアボカドの価格に関連するデータで構成されています。データは、Hass Avocado Board や米国農務省 (USDA) などのさまざまなソースから収集されます。
このデータセットの変数には次のものがあります。
また、食品業界の企業がアボカドの売買に関する戦略的決定を下すためにも使用できます。
この Excel データセットは、2009 年から 2019 年までの各年の Amazon でのベストセラー本トップ 50 に関連するデータのコレクションです。
データセットには次の変数が含まれます。
Amazon Top 50 Bestselling Books は、10 年以上にわたる Amazon での書籍販売の傾向を調査するために使用でき、データ分析の初心者に役立ちます。
FIFA ワールド カップ データセットは、4 年ごとに開催される FIFA ワールド カップに関するデータのコレクションです。 1930 年から 2014 年までのすべてのワールドカップ トーナメントに関する情報が含まれています。
このデータセットの変数には次のものがあります。
データセットは、参加チーム数や得点数の変化など、時間の経過に伴うワールド カップの傾向を分析するために使用できます。
この Excel データセットは、ニューヨーク市の Airbnb のリスティングと指標に関する公開情報で構成されています。 2019年ニューヨーク市Airbnbオープンデータには、市内の約50,000件のAirbnbリスティングに関する情報が含まれており、賃貸物件が市に与える影響の透明性と理解を促進するために、ニューヨーク市政府によって一般に公開されています。
データセット内の変数には次のものがあります。
このデータセットには、幸福に寄与する経済的、社会的、健康的要因など、150 を超える国の幸福度に関する情報が含まれています。データ分析の初心者にとって、データの探索、視覚化、および回帰分析を実践するのに役立ちます。
このデータセットの変数には次のものがあります。
このデータセットには、Apple、Google、Amazon など、さまざまな企業の毎日の株価が含まれています。時系列分析の練習や将来の株価の予測に役立ちます。
このデータセットの変数:
Excel には、データ分析の初心者向けの幅広いツールが用意されており、この記事に記載されている Excel データセットを使用してスキルを向上させることができます。
上記の質問に答えるために、折れ線グラフ、棒グラフ、散布図、ヒストグラム、円グラフなど、さまざまな種類の視覚化を作成することもできます。
この記事の冒頭の画像は、プロンプト「Excel データセット」を使用して、HackerNoon の AI Stable Diffusionモデルによって生成されました。
その他のデータセット リスト: