A probabilidade sempre me fascinou. Ele é a espinha dorsal oculta do aprendizado de máquina e da inteligência artificial. Tive a oportunidade de estudá-lo na escola e na faculdade. Mas não foi até que fiz cursos de Estatística Bayesiana que percebi o quão errado estava meu entendimento sobre isso.
Você pode ter se deparado com a pergunta: “Qual é a probabilidade de dar cara no lançamento de uma moeda”? Se sua resposta for 1/2
, pense novamente. É onde fica interessante.
A matemática é geralmente vista à luz de ser “consistente”. Assumimos que um problema sempre terá a mesma solução, não importa como o resolvamos. É verdade, exceto quando se trata de probabilidade.
A probabilidade é uma exceção, pois possui três definições ou estruturas diferentes. Abordar o mesmo problema com essas definições pode gerar respostas diferentes (e válidas).
Para mostrar o mesmo, vamos considerar o seguinte problema. Vamos resolvê-lo usando todas as três estruturas de Probabilidade. Uma coisa comum em todas as estruturas é que a probabilidade total de todos os resultados de um experimento é sempre 1
.
“Meu amigo Sovit me deu uma moeda. Ele não me disse se a moeda é justa ou não. Qual é a probabilidade de dar cara nessa moeda?”
É a estrutura mais simples em probabilidade. É também o mais fácil de entender.
A estrutura clássica diz que “resultados igualmente prováveis têm probabilidade igual”.
No problema acima, não sabemos se a moeda é honesta. Não podemos dizer se obter cara é tão provável quanto obter coroa. Portanto, não podemos resolver esse problema usando a estrutura clássica.
Mas, para mostrar o uso dessa estrutura, vamos supor que a moeda seja honesta. Isso significa que obter cara é tão provável quanto obter coroa. Como esses são os dois únicos resultados possíveis e a probabilidade total é 1
, a probabilidade de obter cara é 1/2
.
A estrutura clássica pode parecer rudimentar, mas também é a estrutura mais abusada. Argumentos como “Ou há vida em Marte ou não há e, portanto, a probabilidade de existência de vida em Marte em 1/2
” estão errados. Porque a estrutura clássica só funciona quando os resultados são igualmente prováveis. Nesse caso, a existência e a inexistência de vida em Marte não são igualmente prováveis.
É um dos frameworks mais usados em probabilidade. Se você resolveu algum problema em probabilidade, provavelmente usou a estrutura frequentista para fazê-lo.
A estrutura frequentista diz que, para calcular a probabilidade de um evento, precisamos conduzir um experimento e observar o resultado. Repita o experimento um número infinito de vezes. E a probabilidade do evento é P(E) = Count(favorable outcomes) / Count(total outcomes)
.
Na prática, não podemos conduzir um experimento um número infinito de vezes. Então, fazemos isso um número finitamente grande de vezes. Para o nosso problema, vamos realizar o experimento 10
vezes. Vamos supor que obtivemos 6
caras e 4
coroas. Portanto, a probabilidade de obter cara é de 0.6
.
O quadro frequentista também tem limitações. Considere o problema para encontrar a probabilidade de chuva amanhã. Por definição, precisamos ter um número infinito de universos paralelos. Então precisaríamos observar o amanhã em cada um desses universos e contar aqueles onde está chovendo.
Mas, não é possível. Além disso, por que calcularíamos a probabilidade de chuva amanhã se podemos observar amanhã?
É um dos frameworks mais usados em probabilidade. É também o mais fácil de entender, mas difícil de trabalhar.
A estrutura Bayesiana diz que a probabilidade de um evento é o que você pensa que é. É mais sobre sua perspectiva pessoal. Você está assistindo críquete e Sachin Tendulkar está em 94
. Você exclama que há 90%
de chance de ele atingir um século. Essa é a sua probabilidade bayesiana do evento.
Até agora, nas duas estruturas acima, deixamos de focar em outras informações importantes do problema: “Meu amigo Sovit me deu a moeda”. Sovit é meu amigo e eu o conheço. Ele me deu outras moedas no passado. Digamos que essas moedas tenham uma probabilidade de 0.4
de dar cara.
Chama-se informação “prévia”. As duas estruturas acima não têm como usá-lo. É onde a estrutura bayesiana brilha. Permite-nos utilizar tanto a informação prévia como os dados, ao contrário do quadro frequentista que se baseia apenas em dados.
Teremos que assumir o quanto confiamos em nosso anterior e o quanto confiamos em nossos dados. Digamos que confiamos em ambos 50%
(chamados de pesos). A probabilidade de caras do que seria uma média ponderada de dados e anteriores: 0.5 * 0.4 + 0.5 * 0.6 = 0.5
.
A estrutura bayesiana pode fornecer respostas mais realistas utilizando informações anteriores. Mas, temos que fazer suposições sobre pesos. Este é o ponto crítico da crítica. Como fazemos suposições, é possível distorcer os resultados com base em nossos vieses.
Portanto, afirmar que a probabilidade de obter cara em uma moeda honesta é 1/2 não é verdade. É verdade apenas quando estamos falando sobre a estrutura clássica. Afirmar que a probabilidade de obter cara em uma moeda que deu 6 caras e 4 coroas em um experimento de 10 jogadas também está errado.
É verdade apenas quando estamos falando sobre o quadro frequentista. Você entendeu a ideia. Portanto, é importante ter em mente as estruturas que estamos usando ao declarar a probabilidade de um evento.
Isso é tudo sobre probabilidade e suas estruturas diferentes. Deixe-me saber nos comentários se isso impressionou sua mente como aconteceu comigo. Dê-me algumas palmas se você gostou do artigo.