Alors, j'ai commencé à jouer avec
(Avertissement : je ne suis pas un data scientist professionnel. Jouer avec les données et explorer certaines choses est vraiment mon objectif principal.)
Tout d’abord, je souhaite que les choses restent simples pour l’instant. Comme l’explique Kahneman dans son livre Noise : les modèles simples font souvent très bien l’affaire.
① Par conséquent, je ne considère que les sondeurs de haute qualité, mais sans pondérer leurs sondages différemment. Je n'inclus que les points de données avec une numeric_grade
≥ 2,5 (meilleur : 3) dans l'ensemble de données de 538.
② Ce que je prends en compte, c'est la proximité du jour de l'élection. Plus le sondage est proche du 5 novembre, plus il est pertinent. Je prends en compte les sondages réalisés jusqu'à 90 jours (~3 mois) avant, pondérés de manière linéaire. Un sondage se terminant le 7 août a un poids de 1/90, et un sondage se terminant le 4 novembre a un poids de 90/90.
③ Enfin, je ne m'intéresse pas aux sondages nationaux. Je me concentre sur les sept États clés qui vont décider de l'issue de l'élection.
Avec tout cela, nous arrivons à l'image suivante au 24 septembre. Harris devant dans le MI, le NV, la NC, la PA, le WI ; Trump en AZ et en GA.
Sur la base de ces probabilités, nous pouvons également calculer les votes électoraux attendus (VE) pour chaque État pivot et la course dans son ensemble :
④ Cela ne tient cependant pas compte de l’erreur de sondage, qui était importante en 2016 et 2020. J’ai donc également fait ①–③ pour ces deux élections. Je ne prends pas en compte les élections antérieures à cette date, car depuis que Trump est entré en scène, la dynamique électorale a considérablement changé. Les anciennes règles ne s’appliquent plus. 2024 ressemblera beaucoup plus à 2020 et 2016 qu’à toute autre élection antérieure. L’erreur de sondage pour ma méthodologie ressemble à ceci :
En suivant la règle « keep it simple », supposons que l’erreur de sondage en 2024 sera la moyenne de 2016/20 et appliquons-la aux marges ci-dessus, en ajoutant également l’incertitude de l’erreur de sondage à l’incertitude des sondages :
Et, encore une fois, voici les EV attendus en fonction des probabilités :
On pourrait maintenant affirmer que les sondeurs ont peut-être retenu la leçon et que les sondages seront à nouveau plus précis cette année. C'était pourtant déjà un argument en 2020. De plus, au moins une partie du problème semble être que certains partisans de Trump ne veulent tout simplement plus participer aux sondages en raison de problèmes de confiance (voir, par exemple,
Bien sûr, les sondeurs essaient d'apprendre et de s'adapter, mais nous ne verrons pas si les résultats de cette année seront moins erronés que lors des deux élections précédentes. Pour l'instant, je ne prends pas non plus en compte les erreurs de sondage des élections de 2022. Je dois d'abord en savoir plus sur ce sujet, et je suppose qu'une élection présidentielle ressemble beaucoup à d'autres élections présidentielles.
Donc, pour ce premier essai, ma propre petite prévision comprend une prédiction purement basée sur des sondages pondérés provenant de sondeurs de haute qualité, et une prédiction supposant que l'erreur de sondage de 2024 sera la moyenne de 2016 et 2020.
N'hésitez pas à vous rendre sur mon Github, où je collecterai et archiverai tout, et à consulter les données et calculs complets dans le dernier fichier Excel : https://github.com/maxspeicher/2024-us-presidential-election/