それで、私はいろいろ試し始めました
(免責事項: 私はプロのデータ サイエンティストではありません。データを操作していくつかのことを探求することが私の主な焦点です。)
まず第一に、今のところはシンプルにしておきたいと思います。カーネマンが著書「ノイズ」で説明しているように、シンプルなモデルで十分うまく機能することがよくあります。
①したがって、私は高品質の世論調査会社のみを考慮しますが、世論調査を別々に重視することはありません。538 のデータセットには、 numeric_grade
≥ 2.5 (最高: 3) のデータ ポイントのみを含めます。
②私が重視するのは、選挙日が近いかどうかです。11月5日に近いほど、世論調査の関連性が高くなります。私は、最大90日(約3か月)前の世論調査を考慮し、線形に重み付けします。8月7日に終了する世論調査の重みは1/90、11月4日に終了する世論調査の重みは90/90です。
③最後に、私は全国的な世論調査を見ているわけではありません。私が注目しているのは、選挙の行方を決めるであろう 7 つの激戦州です。
これらすべてを踏まえると、9月24日現在の状況は次のようになる。ミシガン州、ネバダ州、ノースカロライナ州、ペンシルバニア州、ウィスコンシン州ではハリス氏がリードし、アリゾナ州とジョージア州ではトランプ氏がリードしている。
これらの確率に基づいて、各激戦州と選挙全体の予想選挙人票数(EV)を計算することもできます。
④ただし、これは世論調査の誤差を考慮していません。世論調査の誤差は 2016 年と 2020 年の両方で顕著でした。そのため、私はこれら 2 つについても ①~③ を実行しました。それ以前の選挙は考慮していません。トランプが登場して以来、選挙の動向は大きく変化したからです。古いルールはもう適用されません。2024 年は、それ以前のどの選挙よりも 2020 年と 2016 年に似ています。私の方法論の世論調査の誤差は次のようになります。
「シンプルに」というルールに従い、2024年の世論調査の誤差が2016/20年の平均であると仮定し、それを上記のマージンに適用し、世論調査の不確実性に世論調査の誤差の不確実性も加えてみましょう。
繰り返しになりますが、これらは確率に基づいて予想される EV です。
さて、世論調査員は教訓を学んだかもしれないし、今年の世論調査はより正確になるだろうと主張する人もいるかもしれない。しかし、これは2020年にすでに議論されていたことだ。さらに、問題の少なくとも一部は、信頼の問題から、一部のトランプ支持者が単に世論調査に参加したくないということにあるようだ(例えば、
明らかに、世論調査員は学習し、適応しようとしているが、今年の結果が過去2回の選挙よりも誤差が少ないかどうかは、11月5日にわかるだろう。今のところ、私は2022年の選挙の世論調査の誤差も考慮に入れていない。まずこれについてもっと読む必要があるが、大統領選挙は他の大統領選挙と最も似ていると私は想定している。
そこで、この最初の試みとして、私自身の小さな予測には、質の高い世論調査会社による加重世論調査のみに基づいた予測 1 つと、2024 年の世論調査の誤差が 2016 年と 2020 年の平均になると仮定した予測 1 つが含まれています。
ぜひ私の Github にアクセスしてください。そこではすべてを収集してアーカイブします。最新の Excel ファイルで完全なデータと計算を確認してください: https://github.com/maxspeicher/2024-us-presidential-election/