キャリブレーション - 機械学習で最も重要な概念の 1 つですが、AI/ML 分野の初心者の間では十分に語られていません。キャリブレーションは、特に分類モデルにおいて、モデルの予測をどれだけ信頼できるかを示します。機械学習分類器の数値出力を有意義に解釈するには、キャリブレーションを十分に理解する必要があります。この記事では、機械学習モデルのキャリブレーションの背後にある理論とその重要性について、いくつかの簡単な実例を通して説明します。
機械学習モデルが較正された確率を生成する場合、そのモデルは較正されています。より具体的には、確率は、信頼度 p のクラスの予測が 100*p の確率で正しい場合に較正されます。
複雑に見えますか?
簡単な例で理解しましょう。
特定の日に雨が降るかどうかを予測する機械学習モデルを構築する必要があるとします。可能な結果は「雨」と「雨なし」の 2 つしかないため、これを 2 項分類モデルと見なすことができます。
ここで、「Rain」は 1 で表される正のクラスであり、「No Rain」は 0 で表される負のクラスです。
特定の日のモデルの予測が 1 の場合、その日は雨が降ると予想されると見なすことができます。
同様に、特定の日のモデルの予測が 0 の場合、その日は雨が降らないと予想していると見なすことができます。
リアルタイムでは、機械学習モデルは多くの場合、いくつかの確率値を表す数値ベクトルとして予測を表します。
したがって、常に 0 または 1 の値を取得する必要はありません。通常、予測値が 0.5 以上の場合は 1 と見なされ、予測値が 0.5 未満の場合は 0 と見なされます。 .
たとえば、特定の日のモデルの予測が 0.66 の場合、それを 1 と見なすことができます。同様に、特定の日のモデルの予測が 0.24 の場合、それを 0 と見なすことができます。
モデルが次の 10 日間の結果を次のように予測したとします。
確率値が 0.5 以上の場合、予測は「雨」であることがわかります。
同様に、確率値が 0.5 未満の場合、予測は「雨が降らない」であることがわかります。
さて、統計上の問題は -
「確率値は結果の実際の尤度値ですか?」
つまり、確率値が 0.8 の場合、その日が雨になる確率は 80% ということですか?
確率値が 0.2 の場合、その日が雨になる確率は 20% ということですか?
統計的に、自分のモデルが調整されていると主張している場合、答えは「はい」です。
確率値は、出力のクラスを決定するための単なるしきい値であってはなりません。代わりに、結果の実際の可能性を表す必要があります。
ここで、1 日目の確率値は 0.81 ですが、10 日目の確率値はわずか 0.76 です。これは、両方の日に雨が降る可能性がありますが、1 日目は 10 日目よりも雨が降る可能性が 5% 高いことを意味します。これは、結果の確率的予測の強さを示しています。優れた統計学者は、このようなモデルを持っていれば、これに似た多数の結果から多くのパターンを推測します。
統計学者がモデルのキャリブレーションをどのように解釈しているかをグラフで見てみましょう。
X 軸上で 0 から 1 までの値を均等に分割したこのようなグラフを考えてみましょう。
次に、各バケットで、確率値に従って結果をプロットします。
例えば、
バケット 0.6 ~ 0.8 には、4 日目、8 日目、9 日目、10 日目の 4 つのデータ ポイントがあります。
同様に、他のすべてのバケットについても同じ手順に従うことができます。
これまでは、予測値のみをプロットしてきました。
正のクラスは「Rain」なので、実際の値が「Rain」である各バケットの値を区別しましょう。
次に、各バケットの陽性クラスの割合を見つけます。
この段階に達したら、これらの小数値を Y 軸に沿った線としてプロットします。
線が適切な線形構造になっていません。これは、モデルが十分に調整されていないことを意味します。適切に調整されたモデルのチャートは、次のようになります。
理想的には、適切に調整されたモデルでは、3 番目のバケット (0.4 ~ 0.6) で約 40% ~ 60% の「雨」の確率が予想されます。ただし、私たちのモデルでは、結果が「雨」になる確率は 30% しかありません。これは重大な逸脱です。この種の偏差は、他のバケットでも見られます。
一部の統計学者は、較正曲線とモデルの確率曲線の間の領域を使用して、モデルのパフォーマンスを評価します。面積が小さくなると、モデル曲線が較正曲線に近づくため、パフォーマンスが向上します。
ML アプリケーションのエンド ユーザーが効果的で洞察力に富んだ意思決定を行うためにモデルのキャリブレーションに依存しているリアルタイム シナリオは多数あります。
e コマース プラットフォーム用のランキング ベースのモデルを構築しているとします。モデルが適切に調整されている場合、その確率値は推奨目的で信頼できます。たとえば、このモデルでは、ユーザーが製品 A を気に入る確率は 80%、製品 B を気に入る確率は 65% であるとしています。したがって、製品 A を第 1 の好みとして、製品 B をユーザーに推奨することができます。第二希望として。
臨床試験の場合、一部の医師が薬を開発していることを考慮してください。モデルが、2 つの薬剤 (薬剤 A と薬剤 B) が治療に非常に効果的であると予測している場合、医師はリストから利用可能な最良の選択肢を選択する必要があります。人間の生活。モデルが薬 A に 95%、薬 B に 90% の確率値を与えている場合、医師は明らかに薬 A を先に進めます。
この記事では、モデル キャリブレーションの理論的基礎を説明し、いくつかの単純な実際の例を通じて、分類器がキャリブレーションされているかどうかを理解することの重要性について説明しました。機械学習モデルの「信頼性」を構築することは、多くの場合、研究者にとって、それを開発またはサーバーにデプロイすることよりも大きな課題です。モデルのキャリブレーションは、予測される確率が重要な場合に非常に役立ちます。これにより、モデルの予測における不確実性についての洞察または理解が得られ、ひいては、特に重要なアプリケーションにおいてエンド ユーザーがモデルの信頼性を理解できるようになります。
この記事が、この概念の序文を理解し、その重要性を理解するのに役立つことを願っています.参照セクションに記載されている資料を参照して、同じことを深く理解することができます。