paint-brush
機械学習モデルの構築に最適な 16 の Sklearn データセットby@datasets
27,148
27,148

機械学習モデルの構築に最適な 16 の Sklearn データセット

Sklearn は、SciPy の上に構築された機械学習用の Python モジュールです。幅広いアルゴリズムと使いやすさが特徴です。データは、機械学習アルゴリズムと scikit-learn を強化します。 Sklearn は、研究者、実務家、愛好家によって広く使用されている高品質のデータセットを提供します。
featured image - 機械学習モデルの構築に最適な 16 の Sklearn データセット
Open Datasets Compiled by HackerNoon HackerNoon profile picture

データは機械学習アルゴリズムと scikit-learn またはsklearn研究者、実務家、愛好家によって広く使用されている高品質のデータセットを提供します。 scikit-learn (sklearn) は、SciPy の上に構築された機械学習用の Python モジュールです。幅広いアルゴリズム、使いやすさ、他の Python ライブラリとの統合が特徴です。

「Sklearn データセット」とは何ですか?

Sklearn データセットは、scikit-learn ( sklearn ) ライブラリなので、ライブラリにプリインストールされています。このため、これらのデータセットを個別にダウンロードしなくても、簡単にアクセスして読み込むことができます。


特定のデータセットを使用するには、sklearn.datasets モジュールからインポートし、適切な関数を呼び出してデータをプログラムにロードするだけです。


これらのデータセットは通常、前処理されてすぐに使用できるため、さまざまな機械学習モデルやアルゴリズムを試す必要があるデータ担当者の時間と労力を節約できます。

Sklearn ライブラリのデータセットの完全なリスト

  1. 虹彩
  2. 糖尿病
  3. 数字
  4. リネルド
  5. ワイン
  6. 乳癌ウィスコンシン
  7. ボストン ハウジング
  8. オリベッティの顔
  9. カリフォルニア州の住宅
  10. MNIST
  11. ファッション-MNIST
  12. make_classification
  13. make_regression
  14. make_blobs
  15. make_moons と make_circles
  16. Make_sparse_coded_signal

プリインストールされた(おもちゃの)Sklearnデータセット

1.虹彩

このデータセットには、setosa、versicolor、virginica の 3 つの異なる種に属する 150 個のアヤメの花のがく片の長さ、がく片の幅、花弁の長さ、および花弁の幅の測定値が含まれています。アイリス データセットには 150 行と 5 列があり、各花の種の列を含むデータ フレームとして格納されます。


変数には次のものがあります。


  • Sepal.Length - sepal.length はがく片の長さをセンチメートル単位で表します。
  • Sepal.Width - sepal.width は、がく片の幅をセンチメートル単位で表します。
  • Petal.Length - petal.length は、花びらの長さをセンチメートル単位で表します。
  • Species - 種変数は、アヤメの花の種を表し、可能な値は setosa、versicolor、virginica の 3 つです。


sklearn.datasets モジュールのload_iris関数を使用して、sklearn から直接アイリス データセットを読み込むことができます。


 # To install sklearn pip install scikit-learn # To import sklearn from sklearn.datasets import load_iris # Load the iris dataset iris = load_iris() # Print the dataset description print(iris.describe())


sklearn を使用して Iris データセットをロードするためのコード。から取得https://scikit-learn.org/stable/modules/generated/sklearn.datasets.load_iris.html 2023 年 3 月 27 日。

2.糖尿病

この sklearn データセットには、糖尿病患者 442 人に関する情報が含まれており、人口統計学的および臨床的測定値が含まれています。

  • セックス
  • 体格指数 (BMI)
  • 平均血圧
  • 6回の血清測定(総コレステロール、低密度リポタンパク質(LDL)コレステロール、高密度リポタンパク質(HDL)コレステロールなど)。
  • 糖尿病疾患の進行 (HbA1c) の定量的尺度。


Diabetes データセットは、sklearn.datasets モジュールのload_diabetes()関数を使用してロードできます。


 from sklearn.datasets import load_diabetes # Load the diabetes dataset diabetes = load_diabetes() # Print some information about the dataset print(diabetes.describe())


sklearn を使用して糖尿病データセットをロードするためのコード。から取得https://scikit-learn.org/stable/datasets/toy_dataset.html#diabetes-dataset 2023 年 3 月 28 日。

3.数字

この sklearn データセットは、0 から 9 までの手書きの数字のコレクションであり、グレースケール イメージとして保存されます。合計 1797 個のサンプルが含まれており、各サンプルは形状 (8,8) の 2D 配列です。数字 sklearn データセットには、各数字画像の 64 ピクセルに対応する 64 個の変数 (または特徴) があります。


Digits データセットは、sklearn.datasets モジュールのload_digits()関数を使用してロードできます。


 from sklearn.datasets import load_digits # Load the digits dataset digits = load_digits() # Print the features and target data print(digits.data) print(digits.target)


sklearn を使用して Digits データセットをロードするためのコード。から取得https://scikit-learn.org/stable/datasets/toy_dataset.html#optical-recognition-of-handwritten-digits-dataset 2023 年 3 月 29 日。


4. リネルド

Linnerud データセットには、20 人のプロのアスリートの身体的および生理学的測定値が含まれています。


データセットには次の変数が含まれます。


  • 3 つの身体運動変数 - チンアップ、シットアップ、ジャンピング ジャック。
  • 3 つの生理学的測定変数 - 脈拍、収縮期血圧、および拡張期血圧。


sklearn を使用して Python で Linnerud データセットを読み込むには:


 from sklearn.datasets import load_linnerud linnerud = load_linnerud()


sklearn を使用して linnerud データセットをロードするためのコード。から取得https://scikit-learn.org/stable/modules/generated/sklearn.datasets.load_linnerud.html#sklearn.datasets.load_linnerud 2023 年 3 月 27 日。

5.ワイン

この sklearn データセットには、ワインを正しい品種に分類するために、イタリアの特定の地域で栽培されたワインの化学分析の結果が含まれています。


データセット内の変数の一部:


  • アルコール
  • リンゴ酸
  • 灰のアルカリ度
  • マグネシウム
  • 総フェノール
  • フラボノイド


Wine データセットは、sklearn.datasets モジュールのload_wine()関数を使用してロードできます。


 from sklearn.datasets import load_wine # Load the Wine dataset wine_data = load_wine() # Access the features and targets of the dataset X = wine_data.data # Features y = wine_data.target # Targets # Access the feature names and target names of the dataset feature_names = wine_data.feature_names target_names = wine_data.target_names


sklearn を使用して Wine Quality データセットをロードするためのコード。から取得https://scikit-learn.org/stable/datasets/toy_dataset.html#wine-recognition-dataset 2023 年 3 月 28 日。

6. 乳癌ウィスコンシン データセット

この sklearn データセットは、乳がんの腫瘍に関する情報で構成されており、最初は William H. Wolberg 博士によって作成されました。このデータセットは、研究者や機械学習の専門家が腫瘍を悪性 (癌性) または良性 (非癌性) に分類するのを支援するために作成されました。


このデータセットに含まれる変数の一部:


  • ID番号
  • 診断 (M = 悪性、B = 良性)。
  • 半径 (中心から周囲の点までの距離の平均)。
  • テクスチャ (グレースケール値の標準偏差)。
  • 周長
  • エリア
  • 滑らかさ (半径の長さの局所的な変化)。
  • コンパクトさ (周囲^2 / 面積 - 1.0)。
  • 凹み (輪郭の凹み部分の程度)。
  • 凹点(輪郭の凹みの数)。
  • 対称
  • フラクタル次元 (「海岸線近似」 - 1)。


sklearn.datasets モジュールのload_breast_cancer関数を使用して、sklearn から乳がんウィスコンシン データセットを直接読み込むことができます。


 from sklearn.datasets import load_breast_cancer # Load the Breast Cancer Wisconsin dataset cancer = load_breast_cancer() # Print the dataset description print(cancer.describe())


sklearn を使用して乳がんウィスコンシン データセットを読み込むためのコード。から取得https://scikit-learn.org/stable/modules/generated/sklearn.datasets.load_breast_cancer.html 2023 年 3 月 28 日。


ウィスコンシン州乳がんデータセット

実世界の Sklearn データセット

実世界の sklearn データセットは、実世界の問題に基づいており、Python の sklearn ライブラリを使用して機械学習アルゴリズムと手法を実践および実験するために一般的に使用されます。

7。 ボストン ハウジング

ボストン住宅データセットは、マサチューセッツ州ボストン地域の住宅に関する情報で構成されています。約 506 行と 14 列のデータがあります。


データセット内の変数には次のものがあります。


  • CRIM - 町ごとの一人当たりの犯罪率。
  • ZN - 25,000 平方フィートを超える区画に区画された住宅地の割合。
  • INDUS - 町ごとの非小売業エーカーの割合。
  • CHAS - チャールズ リバーのダミー変数 (トラクトが川に接している場合は = 1、それ以外の場合は 0)。
  • NOX - 一酸化窒素濃度 (1000 万分の 1)。
  • RM - 住居あたりの平均部屋数。
  • AGE - 1940 年以前に建てられた個人所有のユニットの割合。
  • DIS - ボストンの 5 つの雇用センターまでの加重距離。
  • RAD - 放射状高速道路へのアクセシビリティのインデックス。
  • TAX - $10,000 あたりの固定資産税の全額。
  • PTRATIO - 町ごとの生徒と教師の比率。
  • B - 1000(Bk - 0.63)^2 ここで、-Bk は町ごとの黒人の割合です。
  • LSTAT - 母集団の低いステータスのパーセンテージ。
  • MEDV - 1,000 ドル単位の持ち家住宅の中央値。


sklearn.datasets モジュールのload_boston関数を使用して、scikit-learn からボストン ハウジング データセットを直接読み込むことができます。


 from sklearn.datasets import load_boston # Load the Boston Housing dataset boston = load_boston() # Print the dataset description print(boston.describe())


sklearn を使用してボストン住宅データセットを読み込むためのコード。から取得https://scikit-learn.org/0.15/modules/generated/sklearn.datasets.load_boston.html 2023 年 3 月 29 日。

8. オリベッティの顔

Olivetti Faces データセットは、AT&T Laboratories で 1992 年 4 月から 1994 年 4 月の間に撮影された人間の顔のグレースケール画像のコレクションです。 10 人の個人の 400 枚の画像が含まれており、各個人は異なる角度と異なる照明条件で撮影された 40 枚の画像を持っています。


データセット モジュールのfetch_olivetti_faces関数を使用して、sklearn に Olivetti Faces データセットを読み込むことができます。


 from sklearn.datasets import fetch_olivetti_faces # Load the dataset faces = fetch_olivetti_faces() # Get the data and target labels X = faces.data y = faces.target


sklearn を使用して Olivetti Faces データセットをロードするためのコード。から取得https://scikit-learn.org/stable/modules/generated/sklearn.datasets.fetch_olivetti_faces.html 2023 年 3 月 29 日。

9. カリフォルニア州の住宅

この sklearn データセットには、住宅の中央値に関する情報と、カリフォルニア州の国勢調査区の属性が含まれています。また、20,640 のインスタンスと 8 つの機能も含まれています。


データセット内の変数の一部:


  • MedInc - ブロック内の収入の中央値。
  • HouseAge - ブロック内の住宅の築年数の中央値。
  • AveRooms - 1 世帯あたりの部屋の平均数。
  • AveBedrms - 世帯あたりの寝室の平均数。
  • 人口 - ブロックの人口。
  • AveOccup - 世帯の平均占有率。
  • 緯度 - ブロックの緯度 (10 進度)。
  • 経度 - ブロックの経度 (10 進度)。


sklearn のfetch_california_housing関数を使用して、カリフォルニア州住宅データセットを読み込むことができます。


 from sklearn.datasets import fetch_california_housing # Load the dataset california_housing = fetch_california_housing() # Get the features and target variable X = california_housing.data y = california_housing.target


sklearn を使用して California Housing データセットをロードするためのコード。から取得https://scikit-learn.org/stable/modules/generated/sklearn.datasets.fetch_california_housing.html 2023 年 3 月 29 日。

10. MNIST

MNIST データセットは人気があり、機械学習とコンピューター ビジョンの分野で広く使用されています。これは、手書きの数字 0 ~ 9 の 70,000 枚のグレースケール画像で構成され、トレーニング用に 60,000 枚の画像、テスト用に 10,000 枚の画像が含まれます。各画像のサイズは 28x28 ピクセルで、対応するラベルで、それが表す数字を示します。


次のコードを使用して、sklearn から MNIST データセットを読み込むことができます。


 from sklearn.datasets import fetch_openml mnist = fetch_openml('mnist_784')


注: MNIST データセットは Digits データセットのサブセットです。


sklearn を使用して MNIST データセットを読み込むためのコード。から取得https://scikit-learn.org/stable/modules/generated/sklearn.datasets.fetch_openml.html#sklearn.datasets.fetch_openml 2023 年 3 月 30 日。


11.ファッション-MNIST

Fashion MNIST データセットは、元の MNIST データセットの代わりとして Zalando Research によって作成されました。 Fashion MNIST データセットは、衣料品の 70,000 のグレースケール画像 (60,000 のトレーニング セットと 10,000 のテスト セット) で構成されています。


画像のサイズは 28x28 ピクセルで、T シャツ/トップス、ズボン、プルオーバー、ドレス、コート、サンダル、シャツ、スニーカー、バッグ、アンクル ブーツなど、10 種類の衣料品を表しています。これは元の MNIST データセットに似ていますが、衣類のアイテムがより複雑で多様であるため、分類タスクがより困難になっています。


fetch_openml 関数を使用して、この sklearn データセットをロードできます。


 from sklearn.datasets import fetch_openml fmnist = fetch_openml(name='Fashion-MNIST')


sklearn を使用して Fashion MNIST データセットをロードするためのコード。 2023 年 3 月 30 日に __ https://scikit-learn.org/stable/modules/generated/sklearn.datasets.fetch_openml.html#sklearn.datasets.fetch_openml __ から取得。

生成された Sklearn データセット

生成された sklearn データセットは、Python の sklearn ライブラリを使用して生成された合成データセットです。それらは、機械学習アルゴリズム/モデルのテスト、ベンチマーク、および開発に使用されます。

12. make_classification

この関数は、指定された数のサンプル、特徴、および有益な特徴を持つランダムな n クラス分類データセットを生成します。


100 個のサンプル、5 つの機能、および 3 つのクラスを含むこの sklearn データセットを生成するコード例を次に示します。


 from sklearn.datasets import make_classification X, y = make_classification(n_samples=100, n_features=5, n_informative=3, n_classes=3, random_state=42)


このコードは、100 個のサンプルと 5 つの特徴、3 つのクラスと 3 つの有益な特徴を含むデータセットを生成します。残りの機能は冗長またはノイズになります。


sklearn を使用して make_classification データセットをロードするためのコード。から取得https://scikit-learn.org/stable/modules/generated/sklearn.datasets.make_classification.html#sklearn.datasets.make_classification 2023 年 3 月 30 日。

13. make_regression

この関数は、指定された数のサンプル、特徴、およびノイズを使用して、ランダムな回帰データセットを生成します。


100 個のサンプル、5 つの特徴、および 0.1 のノイズ レベルでこの sklearn データセットを生成するコード例を次に示します。


 from sklearn.datasets import make_regression X, y = make_regression(n_samples=100, n_features=5, noise=0.1, random_state=42)


このコードは、ノイズ レベル 0.1 で、100 個のサンプルと 5 個の特徴を含むデータセットを生成します。ターゲット変数 y は連続変数になります。


sklearn を使用して make_regression データセットをロードするためのコード。から取得https://scikit-learn.org/stable/modules/generated/sklearn.datasets.make_regression.html#sklearn.datasets.make_regression 2023 年 3 月 30 日。

14. make_blobs

この関数は、指定された数のサンプルとクラスターを持つランダム データセットを生成します。


100 個のサンプルと 3 つのクラスターでこの sklearn データセットを生成するコード例を次に示します。


 from sklearn.datasets import make_blobs X, y = make_blobs(n_samples=100, centers=3, random_state=42)


このコードは、100 個のサンプルと 2 つの特徴 (x 座標と y 座標) を持つデータセットを生成します。3 つのクラスターはランダムな位置に集中し、ノイズはありません。


sklearn を使用して make_blobs データセットをロードするためのコード。から取得https://scikit-learn.org/stable/modules/generated/sklearn.datasets.make_blobs.html#sklearn.datasets.make_blobs 2023 年 3 月 30 日。

15. make_moonsメイクサークル

これらの関数は、非線形分類アルゴリズムのテストに役立つ非線形境界を持つデータセットを生成します。


make_moons データセットをロードするコードの例を次に示します。


sklearn.datasets import make_moons から

X, y = make_moons(n_samples=1000, ノイズ=0.2, random_state=42)


このコードは、1000 個のサンプルと 2 つの特徴 (x 座標と y 座標) を持つデータセットを生成し、2 つのクラス間に非線形境界があり、0.2 標準偏差のガウス ノイズがデータに追加されます。


sklearn を使用して make_moons データセットをロードするためのコード。から取得https://scikit-learn.org/stable/modules/generated/sklearn.datasets.make_moons.html#sklearn.datasets.make_moons 2023 年 3 月 30 日。


make_circles データセットを生成して読み込むコードの例を次に示します。


 from sklearn.datasets import make_circles X, y = make_circles(n_samples=1000, noise=0.05, random_state=42)


sklearn を使用して make_circles データセットをロードするためのコード。から取得https://scikit-learn.org/stable/modules/generated/sklearn.datasets.make_circles.html#sklearn.datasets.make_circles 2023 年 3 月 30 日。

16. make_sparse_coded_signal

この関数は、圧縮センシング アルゴリズムのテストに役立つスパース コード信号データセットを生成します。


この sklearn データセットをロードするためのコード例を次に示します。


 from sklearn.datasets import make_sparse_coded_signal X, y, w = make_sparse_coded_signal(n_samples=100, n_components=10, n_features=50, n_nonzero_coefs=3, random_state=42)


このコードは、100 個のサンプル、50 個の特徴、および 10 個の原子を含むスパース コード信号データセットを生成します。


sklearn を使用して make_sparse_coded_signal データセットをロードするためのコード。から取得https://scikit-learn.org/stable/modules/generated/sklearn.datasets.make_sparse_coded_signal.html#sklearn-datasets-make-sparse-coded-signal 2023 年 3 月 30 日。


Sklearn データセットの一般的な使用例

プリインストールされた(おもちゃの)Sklearnデータセット

虹彩- この sklearn データセットは、分類タスクに一般的に使用され、分類アルゴリズムをテストするためのベンチマーク データセットとして使用されます。


糖尿病- このデータセットには、糖尿病患者に関する医療情報が含まれており、医療分析の分類および回帰タスクに使用されます。


数字- この sklearn データセットには、手書き数字の画像が含まれており、画像分類やパターン認識タスクに一般的に使用されます。


リネルド- このデータセットには、20 人のアスリートの体力と医療データが含まれており、多変量回帰分析によく使用されます。


ワイン- この sklearn データセットには、ワインの化学分析が含まれており、一般的に分類およびクラスタリング タスクに使用されます。


乳癌ウィスコンシン- このデータセットには、乳がん患者に関する医療情報が含まれており、医療分析の分類タスクに一般的に使用されます。

実世界の Sklearn データセット

ボストン ハウジング- この sklearn データセットには、ボストンの住宅に関する情報が含まれており、一般的に回帰タスクに使用されます。


オリベッティの顔- このデータセットには顔のグレースケール画像が含まれており、画像分類や顔認識タスクによく使用されます。


カリフォルニア州の住宅- この sklearn データセットには、カリフォルニア州の住宅に関する情報が含まれており、一般的に回帰タスクに使用されます。


MNIST - このデータセットには、手書きの数字の画像が含まれており、画像分類やパターン認識タスクによく使用されます。


ファッション-MNIST - この sklearn データセットには衣料品の画像が含まれており、一般的に画像分類やパターン認識タスクに使用されます。

生成された Sklearn データセット

make_classification - このデータセットは、バイナリおよびマルチクラス分類タスク用にランダムに生成されたデータセットです。


make_regression - このデータセットは、回帰タスク用にランダムに生成されたデータセットです。


make_blobs - この sklearn データセットは、クラスタリング タスク用にランダムに生成されたデータセットです。


make_moonsメイクサークル- これらのデータセットは、分類タスク用にランダムに生成されたデータセットであり、一般に非線形分類器のテストに使用されます。


make_sparse_coded_signal - このデータセットは、信号処理におけるスパース コーディング タスク用にランダムに生成されたデータセットです。

最終的な考え

Sklearn データセットは、データを手動で収集して前処理することなく、開発者や研究者が機械学習モデルをテストおよび評価するための便利な方法を提供します。


また、どなたでも自由にダウンロードしてご利用いただけます。


この記事のリード画像は、プロンプト「アイリス データセット」を使用して、 HackerNoon の AI Stable Diffusionモデルによって生成されました。


その他のデータセット リスト:

  1. Excel データセット
  2. Keras データセット
  3. R データセット