機械学習のためのデータ準備: ステップバイステップガイド

数年前、Spotify がレコメンデーション エンジンに取り組んでいたとき、ML アルゴリズムのトレーニングに使用されるデータの品質に関連する課題に直面しました。 彼らがデータの準備段階に戻って、データのクリーニング、正規化、および変換に追加の労力を費やすことを決定していなければ、私たちのリスニング体験はそれほど楽しいものではなかったでしょう. 機械学習用のデータを徹底的に準備することで、ストリーミング プラットフォームは、ユーザーのリスニングの好みを正確に予測し、高度にパーソナライズされた音楽のレコメンデーションを提供する強力な ML エンジンをトレーニングすることができました。 Spotify は、企業が機械学習用のデータを準備する際に犯す重大な過ちを回避しました。つまり、十分な労力を費やしたり、段階をスキップしたりしませんでした。 多くの企業は、大量のデータを ML エンジンにフィードするだけで正確な予測を生成できると考えています。実際には、 やスケーラビリティの制限など、多くの問題が発生する可能性があります。 アルゴリズムの偏り 機械学習の成功は、データに大きく依存します。 そして悲しいことに、すべてのデータセットに欠陥があります。そのため、機械学習ではデータの準備が重要です。生データに内在する不正確さや偏りを排除するのに役立ち、結果として得られる ML モデルがより信頼性が高く正確な予測を生成します。 このブログ投稿では、機械学習用のデータを準備することの重要性を強調し、データの収集、クリーニング、および変換へのアプローチを共有します。したがって、ML の初心者で、イニシアチブを確実に成功させたい場合は、読み続けてください。 機械学習用のデータを準備する方法 を成功させるための最初のステップは、ビジネス上の問題を明確に定式化することです。構築している ML モデルがビジネス ニーズに確実に適合するようにするだけでなく、関連性のないデータを準備するための時間と費用を節約することもできます。 ML の導入 さらに、明確な問題ステートメントにより (つまり、ユーザーは、ML モデルがどのように意思決定を行うかを理解できます)。これは、機械学習が人々の生活に大きな影響を与える医療や金融などの分野で特に重要です。 、ML モデルが説明可能になります ビジネス上の問題が明確になったので、データ作業を開始します。 全体として、機械学習用のデータを準備するプロセスは、次の段階に分けることができます。 データ収集 データクリーニング データ変換 データ分割 それぞれを詳しく見てみましょう。 データ収集 機械学習のデータ準備は、データ収集から始まります。データ収集段階では、将来の ML モデルのトレーニングと調整のためにデータを収集します。その際、 に留意してください。これらの要因によって、最適なデータ準備戦略が決まります。 データの種類、量、品質 機械学習では、構造化、 、半構造化の 3 種類のデータを使用します。 非構造化 は特定の方法で編成され、通常は表またはスプレッドシート形式です。構造化データの例は、データベースまたはトランザクション システムから収集された情報に及びます。 構造化データ 画像、ビデオ、オーディオ録音、および従来のデータ モデルに従わないその他の情報が含まれます。 非構造化データには、 表形式のデータ モデルの形式に従っていません。それでも、解釈を容易にするタグやメタデータなどの構造要素が含まれているため、完全にまとまりがないわけではありません。例には、XML または JSON 形式のデータが含まれています。 半構造化データは、 データの構造によって、機械学習用のデータを準備するための最適なアプローチが決まります。たとえば、構造化されたデータは、テーブルに簡単に整理し、重複排除、欠損値の補完、またはデータ形式の標準化によってクリーンアップできます。 対照的に、非構造化データから関連する特徴を抽出するには、 や などのより複雑な手法が必要です。 自然言語処理 コンピューター ビジョン 機械学習用のデータ準備の最適なアプローチは、トレーニング データの量にも影響されます。大規模なデータセットでは、サンプリングが必要になる場合があります。これには、計算上の制限により、モデルをトレーニングするためにデータのサブセットを選択することが含まれます。小規模なものでは、 、既存のデータ ポイントに基づいてより多くのデータを生成するために追加の手順を実行する必要があります (詳細は後述)。 データ サイエンティストは 収集されたデータの品質も重要です。不正確または偏ったデータを使用すると、ML 出力に影響を与える可能性があり、特に金融、 、刑事司法などの分野で重大な結果をもたらす可能性があります。データのエラーとバイアスを修正できる手法があります。ただし、本質的に歪んだデータセットでは機能しない場合があります。何が「良い」データであるかがわかったら、そのデータを収集する方法とその場所を決定する必要があります。そのためのいくつかの戦略があります。 医療 : に情報が保存されている場合は、それを ML アルゴリズムのトレーニングに使用できます。このデータには、販売取引、顧客とのやり取り、ソーシャル メディア プラットフォームからのデータ、およびその他のソースが含まれる場合があります。 内部ソースからのデータの収集 エンタープライズ データ ウェアハウス : 政府のデータ ポータル、学術データ リポジトリ、Kaggle、UCI Machine Learning Repository、Google Dataset Search などのデータ共有コミュニティなど、公開されているデータ ソースを利用できます。 外部ソースからのデータ収集 : この手法では、自動ツールを使用して Web サイトからデータを抽出します。このアプローチは、製品レビュー、ニュース記事、ソーシャル メディアなど、他の手段ではアクセスできないソースからデータを収集する場合に役立ちます。 Web スクレイピング : このアプローチを使用して、特定のターゲット ユーザーから特定のデータ ポイントを収集できます。これは、ユーザーの好みや行動に関する情報を収集するのに特に役立ちます。 調査 ただし、これらの戦略では十分なデータが得られない場合があります。次の手法を使用して、データ ポイントの不足を補うことができます。 。回転、平行移動、スケーリングなどのさまざまな方法で既存のサンプルを変換することにより、既存のサンプルからより多くのデータを生成できます。 データ拡張 人間の専門家によるラベル付け用に最も有益なデータ サンプルを選択できる 。 アクティブ ラーニング 。これには、関連するタスクを解決するために適用される 新しい ML モデルのトレーニングの開始点として使用した後、新しいデータで新しいモデルを微調整することが含まれます。 転移学習 事前トレーニング済みの ML アルゴリズムを、 。他の研究者や組織と協力して、共通の目標のためにデータを収集および共有します。 共同データ共有 データクリーニング 機械学習用のデータを準備するための次のステップは、データのクリーニングです。データのクリーニングには、エラー、不一致、欠損値を見つけて修正することが含まれます。これを行うには、いくつかの方法があります。 欠損データの処理 欠損値は、機械学習における一般的な問題です。これは、代入 (欠損値を予測データまたは推定データで埋めることを考えてください)、補間 (周囲のデータ ポイントから欠損値を導き出す)、または削除 (データセットから欠損値のある行または列を単純に削除すること) によって処理できます。 外れ値の処理 外れ値は、残りのデータセットと大きく異なるデータ ポイントです。外れ値は、測定エラー、データ入力エラー、または単に異常または極端な観測値を表しているために発生する可能性があります。たとえば、従業員の給与のデータセットでは、外れ値は、他の従業員よりも大幅に多いまたは少ない収入の従業員である可能性があります。異常値は、削除、変換して影響を軽減する、ウィンザー処理 (極端な値を通常の分布範囲内にある最も近い値に置き換える)、または別のデータ クラスとして扱うことで処理できます。 重複の削除 機械学習用のデータを準備するプロセスのもう 1 つのステップは、重複を取り除くことです。重複は、ML 予測をゆがめるだけでなく、特に大規模なデータセットでは、ストレージ スペースを浪費し、処理時間を増加させます。重複を削除するために、データ サイエンティストはさまざまな重複識別手法 (完全一致、あいまい一致、ハッシュ、レコード リンケージなど) に頼っています。識別されると、それらはドロップまたはマージされます。ただし、不均衡なデータセットでは、正規分布を達成するために実際に重複を歓迎できます。 無関係なデータの処理 無関係なデータとは、問題の解決に役立たない、または適用できないデータを指します。無関係なデータを処理することで、ノイズを減らし、予測精度を向上させることができます。無関係なデータを特定するために、データ チームは主成分分析や相関分析などの手法を利用するか、単にドメインの知識に頼っています。識別されると、そのようなデータ ポイントはデータセットから削除されます。 誤ったデータの処理 機械学習のためのデータ準備には、不正確なデータや誤ったデータの処理も含まれている必要があります。このようなデータを処理する一般的な手法には、データ変換 (設定された基準を満たすようにデータを変更すること) や、正しくないデータ ポイントを完全に削除することが含まれます。 不均衡なデータの処理 不均衡なデータセットは、あるクラスのデータ ポイントの数が別のクラスのデータ ポイントの数よりも大幅に少ないデータセットです。これにより、多数派クラスを優先し、少数派クラスを無視する偏ったモデルになる可能性があります。この問題に対処するために、データ チームはリサンプリング (マイノリティ クラスをオーバーサンプリングするか、マジョリティ クラスをアンダーサンプリングしてデータの分布のバランスをとる)、合成データ生成 (マイノリティ クラスの追加データ ポイントを合成的に生成する)、コストなどの手法に頼ることがあります。 -敏感な学習 (トレーニング中にマイノリティ クラスにより高い重みを割り当てる)、アンサンブル学習 (異なるアルゴリズムを使用して異なるデータ サブセットでトレーニングされた複数のモデルを組み合わせる) など。 これらのアクティビティは、トレーニング データが正確で、完全で、一貫性があることを保証するのに役立ちます。大きな成果ではありますが、信頼できる ML モデルを作成するにはまだ十分ではありません。そのため、機械学習用のデータを準備する旅の次のステップでは、トレーニング データ セット内のデータ ポイントが特定のルールと標準に準拠していることを確認します。そして、 プロセスのその段階は、データ変換と呼ばれます。 データ管理 データ変換 データ変換段階では、生データを機械学習アルゴリズムに適した形式に変換します。これにより、アルゴリズムのパフォーマンスと精度が向上します。 機械学習用のデータを準備する当社の専門家は、次の一般的なデータ変換手法を挙げています。 スケーリング データセットでは、さまざまなフィーチャがさまざまな測定単位を使用する場合があります。たとえば、不動産データセットには、各物件の部屋数 (1 ～ 10 の範囲) と価格 ($50,000 ～ $1,000,000 の範囲) に関する情報が含まれる場合があります。スケーリングがなければ、両方の機能の重要性をバランスさせることは困難です。アルゴリズムは、より大きな値 (この場合は価格) を持つ機能を重要視しすぎて、一見小さな値を持つ機能に十分な重要性を与えない可能性があります。スケーリングは、指定された範囲 (通常は 0 ～ 1) に収まるようにすべてのデータ ポイントを変換することで、この問題を解決するのに役立ちます。これで、さまざまな変数を対等な立場で比較できます。 正規化 機械学習のデータ準備に使用されるもう 1 つの手法は、正規化です。スケーリングに似ています。ただし、スケーリングはデータセットの範囲を変更しますが、正規化はその分布を変更します。 エンコーディング カテゴリ データには、色、車のモデル、動物種など、限定された数の値があります。機械学習アルゴリズムは通常、数値データで機能するため、カテゴリ データを入力として使用するには、エンコードする必要があります。したがって、エンコーディングは、カテゴリデータを数値形式に変換することを表します。ワンホット エンコーディング、序数エンコーディング、ラベル エンコーディングなど、いくつかのエンコーディング手法から選択できます。 離散化 離散化は、機械学習用のデータを準備するアプローチであり、時間、温度、重量などの連続変数を離散変数に変換できます。人の身長に関する情報を含むデータセットを考えてみましょう。各人の身長は、フィートまたはセンチメートル単位の連続変数として測定できます。ただし、特定の ML アルゴリズムでは、このデータを「短い」、「中程度」、「高い」などのカテゴリに離散化する必要がある場合があります。これはまさに離散化が行うことです。これは、トレーニング データセットを簡素化し、問題の複雑さを軽減するのに役立ちます。離散化への一般的なアプローチは、クラスタリング ベースの離散化と決定木ベースの離散化に及びます。 次元削減 次元削減は、データセット内の機能または変数の数を制限し、問題の解決に関連する情報のみを保持することを意味します。顧客の購入履歴に関する情報を含むデータセットを考えてみましょう。購入日、購入したアイテム、アイテムの価格、および購入が行われた場所が特徴です。このデータセットの次元を減らすため、最も重要な特徴 (購入したアイテムとその価格など) 以外はすべて省略します。次元削減は、主成分分析、線形判別分析、t 分布確率近傍埋め込みなど、さまざまな手法で行うことができます。 ログ変換 機械学習用のデータを準備するもう 1 つの方法である対数変換は、対数関数をデータセット内の変数の値に適用することを指します。これは、トレーニング データが非常に歪んでいるか、値の範囲が広い場合によく使用されます。対数関数を適用すると、データの分布をより対称にすることができます。 データ変換といえば、 も言及する必要があります。これはデータ変換の一形態ですが、機械学習用のデータを準備するプロセスのテクニックやステップ以上のものです。これは、データセット内のフィーチャの選択、変換、および作成を表します。特徴量エンジニアリングには、ML モデルの使用を含む、統計的、数学的、および計算技術の組み合わせが含まれ、データ内の最も関連性の高い情報をキャプチャする特徴を作成します。 特徴エンジニアリングについて これは通常、問題を解決するための最良のアプローチを考え出すために、さまざまな手法や機能の組み合わせを および評価する必要がある反復プロセスです。 テスト データ分割 機械学習用のデータを準備するプロセスの次のステップでは、収集したすべてのデータをサブセットに分割します。これは、データ分割と呼ばれるプロセスです。通常、データはトレーニング、検証、およびテストのデータセットに分割されます。 入力変数とターゲット変数の間のパターンと関係を認識するように機械学習モデルに実際に学習させるために使用されます。通常、このデータセットは最大です。 トレーニング データセットは、 トレーニング中にモデルのパフォーマンスを評価するために使用されるデータのサブセットです。ハイパーパラメーターを調整してモデルを微調整するのに役立ちます (学習率、正則化強度、隠れ層の数など、トレーニング前に手動で設定されるトレーニング プロセスのパラメーターを考えてください)。検証データセットは、トレーニング データへの過剰適合を防ぐのにも役立ちます。 検証データセットは、 トレーニング済みモデルのパフォーマンスを評価するために使用されるデータのサブセットです。その目標は、新しい目に見えないデータでモデルの精度を評価することです。テスト データセットは、トレーニング データセットと検証データセットでモデルがトレーニングされ、微調整された後、1 回だけ使用されます。 テスト データセットは、 データを分割することで、機械学習モデルがこれまでに見たことのないデータに対してどの程度うまく機能するかを評価できます。分割しないと、新しいデータに対するモデルのパフォーマンスが低下する可能性があります。これは、モデルがパターンを学習して新しいデータに一般化するのではなく、データ ポイントを記憶しただけである可能性があるために発生する可能性があります。 データ分割にはいくつかの方法があり、最適な方法の選択は、解決する問題とデータセットのプロパティによって異なります。機械学習用のデータを準備する当社の専門家は、最も効果的な分割戦略を決定するには、データ チームによる実験が必要になることが多いと述べています。最も一般的なものは次のとおりです。 。名前が示すように、データがランダムに分割されます。このアプローチは、モデル化されている母集団を代表する大規模なデータセットに適用されることがよくあります。または、より専門的なアプローチを必要とする既知の関係がデータにない場合に使用されます。 ランダム サンプリング 。クラス ラベルまたはその他の特性に基づいてデータがサブセットに分割され、その後、これらのサブセットがランダムにサンプリングされます。この戦略は、あるクラスの値の数が他のクラスの値の数を大幅に超える不均衡なデータセットに適用されます。その場合、層化サンプリングは、トレーニング データセットとテスト データセットが各クラスの値の分布が類似していることを確認するのに役立ちます。 層化サンプリング 。特定の時点までに収集されたデータがトレーニング データセットを作成し、設定ポイントの後に収集されたデータがテスト データセットに形成されます。このアプローチは、データが長期間にわたって収集された場合 (たとえば、金融データセットや医療データセットなど) に使用されます。これにより、モデルが将来のデータに対して正確な予測を行うことができるようになります。 時間ベースのサンプリング データが複数のサブセットまたはフォールドに分割される 。一部のフォールドはモデルのトレーニングに使用され、残りはパフォーマンス評価に使用されます。このプロセスは複数回繰り返され、各フォールドが少なくとも 1 回はテスト データとして機能します。いくつかの交差検証手法があります。たとえば、k-fold 交差検証や leave-one-out 交差検証です。通常、交差検証は、単一のテスト データセットでの評価よりもモデルのパフォーマンスのより正確な推定値を提供します。 クロス検証 最後に 機械学習用のデータを適切に準備することは、正確で信頼性の高い機械学習ソリューションを開発するために不可欠です。 ITRex では、データ準備の課題と、機械学習プロセスを成功させるための高品質のデータセットを持つことの重要性を理解しています。 機械学習を通じてデータの可能性を最大限に引き出したい場合は、 。当社の専門家が、データの収集、クリーニング、および変換を支援します。 ITRex チームにお問い合わせください にも掲載されています。 ここ