人工知能と機械学習の分野における「モデルベース」と「インスタンスベース」の学習の基本原則と違いを説明する前置き記事。 目次 はじめに 「一般化」と「暗記」の背後にある本能的な考え 「モデルベース」学習のコンセプト 「インスタンスベース」学習のコンセプト まとめ 参考文献 はじめに 「インスタンスベース」と「モデルベース」は、タスクを実行するためにさまざまな機械学習アルゴリズムで使用される 2 種類の学習アプローチです。 予測モデルの最終的な目的は、データ内の隠れたパターンを学習し、学習した知識に基づいて妥当な精度で値を予測することです。アルゴリズムがデータについて学習するために使用する 2 つの異なるアプローチがあります。 一般化 暗記 「一般化」と「暗記」の背後にある本能的な考え 数学的概念に移る前に、簡単な話を見てみましょう。ジョンとジョセフは試験でいつも良い点を取る親友です。彼らの学校には、ケビンという名前の別の生徒がいました。ケビンは勉強が少し苦手なので、試験で良い点数を取れるように、二人に勉強を手伝ってほしいと頼みました。ジョンもジョセフも、彼に教科を教えることに同意した。 初日、ケビンは数学を学ぶためにジョンの家に行きました。 John は、すべての詳細な概念を Kevin に説明し、さまざまな種類の問題を解決するためのさまざまなシナリオとアプローチについて彼に教えました。彼はまた、多くのサンプル問題を解くようにケビンを訓練し、試験で内容や重みが似ているトピックや問題を彼に理解させました。ケビンはとても自信を持って幸せに感じました。また、彼はジョンにお礼を言って家を出ました。 トラ・グエン による写真 2日目、ケビンは科学を学ぶためにジョセフの家に行きました。ジョセフは彼に、主題に関するすべての詳細な概念と理論を理解したいのか、それとも問題用紙に表示される問題のリストだけが欲しいのかと尋ねました。それぞれの答えの背後にある概念を理解していなくても。ケビンは本質的に怠け者でした。だから彼は、概念を学ぶことに力を入れたくない、答えを暗記できるように重要な質問のリストが必要なだけだと言いました。ジョセフは 50 の重要な質問と回答のリストを提示し、内容全体を暗記するように求めました。 ドミトリー・ラトゥシュニー による写真 ついに試験の日がやってきました。最初の試験は数学でした。問題用紙には難しい質問がたくさんありましたが、ケビンはジョンから学んだ概念をよく理解していました。彼はほとんどすべての問題を解き、90% の点数を取る自信がありました。 二次試験は理科でした。ケビンが問題用紙を受け取ったとき、問題の大部分は彼がすでに覚えていた質問と回答のリストからのものだったので、彼は驚きました。彼はすべての答えを思い出し、きちんと書いた.したがって、科学でも、彼は 90% の点数を取ることに非常に自信を持っていました。彼は概念的には何もしませんでしたが、記憶したことをすべて書き、目的を達成しました。 Unsplashの Green Chameleon による 写真 数学の学習パターンは と呼ばれ、理科の学習パターンは と呼ばれます。あなたが物語を気に入ってくれたことを願っています。機械学習の説明に移ります。 「一般化」 「暗記」 「モデルベース」学習のコンセプト 一般化では、モデルは常に問題の固有のパターン、動作、および全体的な概念について学習しようとします。 例えば、 の式は誰もが知っています。それは次のように表されます- 「線形回帰」 Y = m1x1 + m2x2 +... mnxn + c どこ、 Y = 従属変数 x1,x2 ..xn は独立変数 m1、m2 ...mn は、対応する独立変数の勾配です。 cは切片です 人の年齢、身長、および親の身長に基づいて人の体重を予測できる線形回帰モデルを開発したと仮定しましょう。モデルの数学的表現は次のようになります。 体重 = 0.3*(身長) + 0.2*(年齢) + 0.4*(父の身長) + 0.1*(母の身長) + 2 ここで、0.3、0.2、0.4、および 0.1 は、大規模なハイパーパラメーター調整プロセスの後に導き出した勾配の値です。同様に、2 は回帰平面の切片の値です。 視覚的な表現は、次のようになります- 作者が描いた画像 ここでは、各フィーチャがディメンションになり、データ ポイントがこの多次元空間に投影されます。このプロセスの後、これらの次元を通過できる回帰平面を導出します。特定の「身長」「年齢」「父の身長」「母の身長」の予測値(体重)は、特徴次元の軸座標に対応するこの回帰平面の値に他なりません。 別の側面では、このモデルは、年齢、身長などの変数間の線形関係を理解しようとし、線形性、等分散性、自己相関など、この空間における多くの自然な設計形成に基づいて予測値を近似的に示すことができる仮想超平面を導き出しました。など モデルは、予測の全体的な誤差が小さくなるように、つまりデータ ポイントと回帰平面の間の距離ができるだけ小さくなるように、一般化された方法で超平面を作成しようとします。この一般化された超平面を導き出すことができたのは、ML トレーニング アクティビティの一環として、空間内のさまざまなパターンを見つけるためにデータについて学習したためです。 という名前の別のアルゴリズムを使用して、もう 1 つの例を見てみましょう。 「サポート ベクター マシン」 サポート ベクター マシンは、ラベル付けされたデータ ポイントのカテゴリを予測するために広く使用されている教師あり機械学習アルゴリズムです。 例えば- 人が男性か女性かを予測する 果物がリンゴかオレンジかを予測する 学生が試験に合格するか不合格になるかなどを予測します。 SVM は、予測目的で複数の次元を移動できる仮想平面を使用します。多次元を移動できるこれらの架空の平面は、超平面と呼ばれます。私たちの脳は自然に 3 次元までしか視覚化できないため、人間の脳を使用してより高い次元を想像することは非常に困難です。 このシナリオを理解するために、簡単な例を見てみましょう。 学生が試験に合格するか不合格になるかを予測する分類問題があります。独立変数として次の機能があります- 社内試験の点数 プロジェクトのマーク 出席率 したがって、これらの 3 つの独立変数は、次のような空間の 3 次元になります。 作者が描いた画像 データポイントが次のようになっていると考えてみましょう。 緑色は試験に合格した学生を表します 赤い色は試験に落ちた学生を表します 作者が描いた画像 ここで、SVM は、失敗した学生と合格した学生を区別するために、これらの 3 つの次元を移動する超平面を作成します。 作者が描いた画像 したがって、技術的には、モデルは、超平面の片側にあるすべてのデータポイントが試験に合格した学生に属し、その逆もまた同様であることを理解しています。線形回帰で見たように、SVM ハイパープレーンも、複雑なハイパーパラメーター調整の最終結果として作成され、トレーニング アクティビティの一部として ML モデルによって行われます。 上記の 2 つのアルゴリズムの学習アプローチに類似点はありますか? 両者は、空間全体の性質、データポイント間の隠れたパターン、およびエラーを最小限に抑えるためのさまざまな最適化手法について学習しようとしました。これにより、問題を解決するための一般化された数学関数が導き出されました。このアプローチは と呼ばれます。 「モデルベース学習」 予測目的で一般化手順に従うモデルの学習アプローチは、モデルベースの学習と呼ばれます。 「インスタンスベース」学習のコンセプト ここで、 アルゴリズムを実装する必要がある別の例に移りましょう。 「K 最近傍」 SVM の例で想定したのと同じシナリオを考えることができます。ここでも、学生が試験に合格するか不合格になるかを予測する必要があります。私たちのデータは次のようになります- 作者が描いた画像 ここで、KNN アルゴリズムに従って、 値を決定し、ラベル付けされていない各データ ポイントの「K」個の最近傍のクラスに注意する必要があります。ラベル付けされていないデータ ポイントの予測値は、「K'」個の最近傍の中で過半数を占めるクラスになります。 「K」(近傍数) の K = 3 の値を割り当てたとします。また、データ ポイント「a」、「b」、および「c」は、このモデルを使用してクラスを予測する必要があるラベルのないデータ ポイントです。 作者が描いた画像 データポイント「a」の場合、3 つの隣接点はすべて「赤」です。したがって、この学生はおそらく試験に落ちるだろうと予測できます。 データ ポイント「b」では、3 つの隣接点のうち 2 つが「赤」で、1 つの隣接点が「緑」です。 「K」個の最近隣の大部分は、「不合格」クラスに属しています。したがって、この学生はおそらく試験に落ちるだろうと予測できます。隣人の 3 人のうち少なくとも 2 人が「緑色」だった場合、大多数が「合格」クラスを支持するため、この学生は試験に合格すると予測できます。 データ ポイント「c」の場合、3 つの隣接点はすべて「緑」です。したがって、この学生はおそらく試験に合格するだろうと予測できます。 KNN と前述の他の 2 つのアルゴリズムの作業手順に大きな違いはありましたか? 実際、KNN はトレーニング プロセスを経ていません。データ ポイント間のパターンや空間に関する数学的仮定については学習しませんでした。また、独立変数と従属変数をマッピングするための数学関数を導出しようとさえしませんでした。研究者が慎重に最適化する必要がある唯一の変数は、「K」の値です。隣接クラスの中から多数派クラスを選び、それを予測値として主張する手順を記憶しているだけです。数学関数の一部として一般化手法を使用しません。代わりに、投票の原則を覚えて、ラベルのないデータ ポイントごとにそのタスクを繰り返します。このプロセスは と呼ばれます。 「暗記」 予測目的で記憶手順に従うモデルの学習アプローチは、インスタンスベースの学習と呼ばれます。 まとめ モデルベースの学習は、データ ポイント間の隠れたパターンを発見するプロセスに焦点を当て、 を通じてパラメーターを最適化します。インスタンス ベースの学習では、データセット全体をトレーニングするわけではありません。代わりに、研究者によって構成されたいくつかの単純なルールに従って、特定のラベルのないデータ ポイントの予測のみを行います。 データセット全体のトレーニング モデルベースの学習では、モデルがそのデータセットからすべてのパターンを既に学習しているため、システムから できます。ただし、インスタンスベースの学習では、モデルが予測目的でトレーニング サンプルの全部または一部のラベルを使用するため、トレーニング データはそのまま保持する必要があります。 トレーニング データを削除 モデルベースの学習では、予測は になります。ただし、インスタンスベースの学習では、入力値をすばやく渡して出力を導出するための数学関数がないため、予測は比較的遅くなります。代わりに、さまざまなトレーニング サンプルと比較して、ラベル付けされていない各データ ポイントの比較とルール ベースの意思決定に時間を費やす必要があります。つまり、これらのモデルは、新しいインスタンスを分類する必要があるまで処理を遅らせます。このため、怠惰な学習者とも呼ばれます。 高速なプロセス インスタンスベースの学習者は、 を提供することで簡単にだまされる可能性があります。ただし、モデルベースの学習では、さまざまな最適化手法を使用しているため、モデルはさまざまな機能の重要性を知るようになります。 無関係な機能 インスタンスベースの学習者は、 が得意で、情報を失うことはありません。ただし、モデルベースの学習者は、ノイズの多いデータ ポイントをうまく管理できません。通常、外れ値と異常は、この課題に対処するために、モデリング前の段階でデータセットから削除されます。ただし、外れ値を排除すると、モデルの予測能力に影響を与える可能性のあるデータセットの全体的な特性に関する情報の一部が失われる可能性があることに注意してください。 ノイズの多いデータの処理 参考文献 ウォルター・デレマンズ ; アンタル・ヴァン・デン・ボッシュ (2005)。メモリベースの言語処理。ケンブリッジ大学出版局。 ラッセル、スチュアート J .; Norvig、Peter (2003)、 Artificial Intelligence: A Modern Approach (第 2 版)、Upper Saddle River、ニュージャージー: Prentice Hall、p. 260、 ISBN 0-13-790395-2 D.ランドール・ウィルソン;トニー・R・マルティネス (2000)。 「インスタンスベースの学習アルゴリズムの削減手法」。 機械学習 。 ニュートン S. リー (1990)。 「ルールベースとモデルベースの推論をエキスパートシステムに統合する計算パラダイム」.インテリジェント システムの国際ジャーナル。ワイリー。 5 (2): 135–151. ドイ : 10.1002/int.4550050202 .