確率は常に私を魅了してきました。これは、機械学習と人工知能の隠れたバックボーンを形成します。学校や大学でそれを学ぶ機会がありました。しかし、ベイズ統計学のコースを受講するまで、自分の理解がいかに間違っていたかに気づきました。
「コインを投げて表が出る確率はどのくらいですか?」という質問に遭遇したことがあるかもしれません。答えが1/2
の場合は、もう一度考えてください。ここが興味深いところです。
数学は一般に「一貫性」という観点から見られます。私たちは、問題をどのように解決しても、常に同じ解決策があると想定しています。それは確率の場合を除いて真実です。
確率は、3 つの異なる定義またはフレームワークがあるという点で例外のようです。これらの定義を使用して同じ問題にアプローチすると、異なる (そして有効な) 答えが得られる可能性があります。
同じことを示すために、次の問題を考えてみましょう。確率の 3 つのフレームワークすべてを使用してこれを解決します。すべてのフレームワークに共通することの 1 つは、実験のすべての結果の合計確率が常に1
であるということです。
「友人のソビットが私にコインをくれました。彼はそのコインが公正かどうか私に教えてくれませんでした。このコインで表が出る確率はどれくらいですか?」
これは確率の最も単純なフレームワークです。それが一番分かりやすいとも言えます。
古典的な枠組みでは、「可能性が等しい結果は確率も等しい」と言われています。
上記の問題では、コインが公正かどうかはわかりません。表が出る確率と裏が出る確率が同じかどうかはわかりません。したがって、古典的なフレームワークを使用してこの問題を解決することはできません。
しかし、このフレームワークの使用法を示すために、コインが公正であると仮定しましょう。これは、表が出る可能性と裏が出る可能性が同じであることを意味します。考えられる結果はこれら 2 つだけであり、合計確率は1
であるため、表が出る確率は1/2
です。
古典的なフレームワークは初歩的に見えるかもしれませんが、最も乱用されているフレームワークでもあります。 「火星には生命が存在するか、存在しないかのどちらかであるため、火星に生命が存在する確率は1/2
である」のような議論は間違っています。なぜなら、古典的なフレームワークは、結果の可能性が等しい場合にのみ機能するからです。この場合、火星に生命が存在する可能性と存在しない可能性は同じではありません。
これは、確率の分野で最もよく使用されるフレームワークの 1 つです。確率の問題を解決したことがある場合は、頻度主義のフレームワークを使用した可能性があります。
頻度主義の枠組みでは、事象の確率を計算するには、実験を行って結果を観察する必要があるとしています。実験を無限に繰り返します。そして、イベントの確率はP(E) = Count(favorable outcomes) / Count(total outcomes)
です。
実際には、実験を無限に繰り返すことはできません。したがって、それを有限回繰り返します。この問題では、実験を10
回行ってみましょう。表が6
、裏が4
つあったと仮定します。したがって、表が出る確率は0.6
です。
頻度主義の枠組みにも限界があります。明日の雨の確率を求める問題を考えてみましょう。定義上、無限の数の並行世界が必要です。次に、これらの各宇宙の明日を観察し、雨が降っている宇宙を数えなければなりません。
しかし、それは不可能です。それに、明日観測できるのに、なぜ明日の降水確率を計算するのでしょうか?
これは、確率の分野で最もよく使用されるフレームワークの 1 つです。また、これは理解するのが最も簡単ですが、扱うのが難しいものでもあります。
ベイジアン フレームワークでは、イベントの確率は、あなたが考えているとおりであると言われます。それはあなたの個人的な視点に関するものです。あなたはクリケットを観戦していますが、サチン・テンドゥルカールは94
です。あなたは彼が100年を迎える可能性が90%
あると叫んでいます。それがイベントのベイズ確率です。
これまでのところ、上記の 2 つのフレームワークでは、問題内の他の重要な情報、つまり「友人のソビットがコインをくれました」に焦点を当てることができていませんでした。ソビットは私の友人であり、彼のことを知っています。彼は過去に私に他のコインをくれました。これらのコインが表になる確率が0.4
だったとしましょう。
それを「事前」情報といいます。上記 2 つのフレームワークにはそれを使用する方法がありません。ここでベイズ フレームワークが威力を発揮します。データのみに依存する頻度主義のフレームワークとは異なり、事前情報とデータの両方を使用することができます。
私たちは、過去のデータをどの程度信頼しているのか、またデータをどの程度信頼しているのかを想定する必要があります。両方の50%
(重みと呼ばれる) を信頼するとします。表の確率は、以前のデータとデータの加重平均になります: 0.5 * 0.4 + 0.5 * 0.6 = 0.5
。
ベイジアン フレームワークは、事前情報を利用することで、より現実的な答えを提供できます。ただし、重みについては仮定を立てる必要があります。ここが批判の核心点だ。仮定を行うため、バイアスに基づいて結果が歪む可能性があります。
したがって、公正なコインで表が出る確率が 1/2 であるという記述は真実ではありません。これは、古典的なフレームワークについて話している場合にのみ当てはまります。 10 回投げた実験で表が 6 回、裏が 4 回出たコインで表が出る確率を主張するのも間違っています。
これは、頻度主義の枠組みについて話している場合にのみ当てはまります。わかりますね。したがって、イベントの確率を述べる際に使用しているフレームワークを念頭に置くことが重要です。
それはすべて確率に関するものであり、異なる枠組みです。私と同じように、あなたの心に衝撃を与えた場合は、コメントで知らせてください。記事が気に入ったら拍手をお願いします。