人工知能と機械学習の分野における「モデルベース」と「インスタンスベース」の学習の基本原則と違いを説明する前置き記事。
「インスタンスベース」と「モデルベース」は、タスクを実行するためにさまざまな機械学習アルゴリズムで使用される 2 種類の学習アプローチです。
予測モデルの最終的な目的は、データ内の隠れたパターンを学習し、学習した知識に基づいて妥当な精度で値を予測することです。アルゴリズムがデータについて学習するために使用する 2 つの異なるアプローチがあります。
数学的概念に移る前に、簡単な話を見てみましょう。ジョンとジョセフは試験でいつも良い点を取る親友です。彼らの学校には、ケビンという名前の別の生徒がいました。ケビンは勉強が少し苦手なので、試験で良い点数を取れるように、二人に勉強を手伝ってほしいと頼みました。ジョンもジョセフも、彼に教科を教えることに同意した。
初日、ケビンは数学を学ぶためにジョンの家に行きました。 John は、すべての詳細な概念を Kevin に説明し、さまざまな種類の問題を解決するためのさまざまなシナリオとアプローチについて彼に教えました。彼はまた、多くのサンプル問題を解くようにケビンを訓練し、試験で内容や重みが似ているトピックや問題を彼に理解させました。ケビンはとても自信を持って幸せに感じました。また、彼はジョンにお礼を言って家を出ました。
トラ・グエンによる写真
2日目、ケビンは科学を学ぶためにジョセフの家に行きました。ジョセフは彼に、主題に関するすべての詳細な概念と理論を理解したいのか、それとも問題用紙に表示される問題のリストだけが欲しいのかと尋ねました。それぞれの答えの背後にある概念を理解していなくても。ケビンは本質的に怠け者でした。だから彼は、概念を学ぶことに力を入れたくない、答えを暗記できるように重要な質問のリストが必要なだけだと言いました。ジョセフは 50 の重要な質問と回答のリストを提示し、内容全体を暗記するように求めました。
ドミトリー・ラトゥシュニーによる写真
ついに試験の日がやってきました。最初の試験は数学でした。問題用紙には難しい質問がたくさんありましたが、ケビンはジョンから学んだ概念をよく理解していました。彼はほとんどすべての問題を解き、90% の点数を取る自信がありました。
二次試験は理科でした。ケビンが問題用紙を受け取ったとき、問題の大部分は彼がすでに覚えていた質問と回答のリストからのものだったので、彼は驚きました。彼はすべての答えを思い出し、きちんと書いた.したがって、科学でも、彼は 90% の点数を取ることに非常に自信を持っていました。彼は概念的には何もしませんでしたが、記憶したことをすべて書き、目的を達成しました。
数学の学習パターンは「一般化」と呼ばれ、理科の学習パターンは「暗記」と呼ばれます。あなたが物語を気に入ってくれたことを願っています。機械学習の説明に移ります。
一般化では、モデルは常に問題の固有のパターン、動作、および全体的な概念について学習しようとします。
例えば、
「線形回帰」の式は誰もが知っています。それは次のように表されます-
Y = m1x1 + m2x2 +... mnxn + c
どこ、
人の年齢、身長、および親の身長に基づいて人の体重を予測できる線形回帰モデルを開発したと仮定しましょう。モデルの数学的表現は次のようになります。
体重 = 0.3*(身長) + 0.2*(年齢) + 0.4*(父の身長) + 0.1*(母の身長) + 2
ここで、0.3、0.2、0.4、および 0.1 は、大規模なハイパーパラメーター調整プロセスの後に導き出した勾配の値です。同様に、2 は回帰平面の切片の値です。
視覚的な表現は、次のようになります-
作者が描いた画像
ここでは、各フィーチャがディメンションになり、データ ポイントがこの多次元空間に投影されます。このプロセスの後、これらの次元を通過できる回帰平面を導出します。特定の「身長」「年齢」「父の身長」「母の身長」の予測値(体重)は、特徴次元の軸座標に対応するこの回帰平面の値に他なりません。
別の側面では、このモデルは、年齢、身長などの変数間の線形関係を理解しようとし、線形性、等分散性、自己相関など、この空間における多くの自然な設計形成に基づいて予測値を近似的に示すことができる仮想超平面を導き出しました。など
モデルは、予測の全体的な誤差が小さくなるように、つまりデータ ポイントと回帰平面の間の距離ができるだけ小さくなるように、一般化された方法で超平面を作成しようとします。この一般化された超平面を導き出すことができたのは、ML トレーニング アクティビティの一環として、空間内のさまざまなパターンを見つけるためにデータについて学習したためです。
「サポート ベクター マシン」という名前の別のアルゴリズムを使用して、もう 1 つの例を見てみましょう。
サポート ベクター マシンは、ラベル付けされたデータ ポイントのカテゴリを予測するために広く使用されている教師あり機械学習アルゴリズムです。
例えば-
SVM は、予測目的で複数の次元を移動できる仮想平面を使用します。多次元を移動できるこれらの架空の平面は、超平面と呼ばれます。私たちの脳は自然に 3 次元までしか視覚化できないため、人間の脳を使用してより高い次元を想像することは非常に困難です。
このシナリオを理解するために、簡単な例を見てみましょう。
学生が試験に合格するか不合格になるかを予測する分類問題があります。独立変数として次の機能があります-
したがって、これらの 3 つの独立変数は、次のような空間の 3 次元になります。
作者が描いた画像
データポイントが次のようになっていると考えてみましょう。
作者が描いた画像
ここで、SVM は、失敗した学生と合格した学生を区別するために、これらの 3 つの次元を移動する超平面を作成します。
作者が描いた画像
したがって、技術的には、モデルは、超平面の片側にあるすべてのデータポイントが試験に合格した学生に属し、その逆もまた同様であることを理解しています。線形回帰で見たように、SVM ハイパープレーンも、複雑なハイパーパラメーター調整の最終結果として作成され、トレーニング アクティビティの一部として ML モデルによって行われます。
上記の 2 つのアルゴリズムの学習アプローチに類似点はありますか?
両者は、空間全体の性質、データポイント間の隠れたパターン、およびエラーを最小限に抑えるためのさまざまな最適化手法について学習しようとしました。これにより、問題を解決するための一般化された数学関数が導き出されました。このアプローチは「モデルベース学習」と呼ばれます。
予測目的で一般化手順に従うモデルの学習アプローチは、モデルベースの学習と呼ばれます。
ここで、 「K 最近傍」アルゴリズムを実装する必要がある別の例に移りましょう。
SVM の例で想定したのと同じシナリオを考えることができます。ここでも、学生が試験に合格するか不合格になるかを予測する必要があります。私たちのデータは次のようになります-
作者が描いた画像
ここで、KNN アルゴリズムに従って、 「K」(近傍数) の値を決定し、ラベル付けされていない各データ ポイントの「K」個の最近傍のクラスに注意する必要があります。ラベル付けされていないデータ ポイントの予測値は、「K'」個の最近傍の中で過半数を占めるクラスになります。
K = 3 の値を割り当てたとします。また、データ ポイント「a」、「b」、および「c」は、このモデルを使用してクラスを予測する必要があるラベルのないデータ ポイントです。
作者が描いた画像
KNN と前述の他の 2 つのアルゴリズムの作業手順に大きな違いはありましたか?
実際、KNN はトレーニング プロセスを経ていません。データ ポイント間のパターンや空間に関する数学的仮定については学習しませんでした。また、独立変数と従属変数をマッピングするための数学関数を導出しようとさえしませんでした。研究者が慎重に最適化する必要がある唯一の変数は、「K」の値です。隣接クラスの中から多数派クラスを選び、それを予測値として主張する手順を記憶しているだけです。数学関数の一部として一般化手法を使用しません。代わりに、投票の原則を覚えて、ラベルのないデータ ポイントごとにそのタスクを繰り返します。このプロセスは「暗記」と呼ばれます。
予測目的で記憶手順に従うモデルの学習アプローチは、インスタンスベースの学習と呼ばれます。