paint-brush
Navigieren im Labyrinth des Testens mehrerer Hypothesenvon@vabars
178 Lesungen

Navigieren im Labyrinth des Testens mehrerer Hypothesen

von Viktoria7m2024/03/05
Read on Terminal Reader

Zu lang; Lesen

Erkunden Sie das Problem der Mehrfachvergleiche in der Statistik aus einer humorvollen Perspektive und verwenden Sie Python, um Konzepte wie Bonferroni- und Benjamin-Hochberg-Korrekturen, Nullhypothesen und Typ-I-Fehler zu erläutern. Erfahren Sie anhand unterhaltsamer Party-Metaphern, wie Sie Risiko und Nutzen in der statistischen Analyse abwägen und so zuverlässigere Schlussfolgerungen bei der Datenexploration erzielen
featured image - Navigieren im Labyrinth des Testens mehrerer Hypothesen
Viktoria HackerNoon profile picture
0-item
1-item

Wenn wir knietief in Daten stecken und nach verborgenen Erkenntnissen suchen, jonglieren wir oft mit einer Reihe von Hypothesen. Stellen Sie sich vor, Sie sind auf einer Party, auf der jeder Gast eine Maske trägt, und Sie versuchen herauszufinden, wer sich hinter jedem einzelnen verbirgt. Je mehr Personen Sie erraten, desto höher ist die Wahrscheinlichkeit, einen Fehler zu machen. Das ist die Schwierigkeit des Mehrfachvergleichsproblems in der Statistik: Für jede Hypothese, die Sie testen, taucht eine andere auf, was die Wahrscheinlichkeit erhöht, dass Sie mindestens einmal falsch liegen. Lassen Sie uns dieses Konzept mit etwas Python-Stil und etwas Humor aufschlüsseln, um die Sache locker zu halten.


Das Problem der Mehrfachvergleiche: Eine Kurzfassung

Stellen Sie sich Folgendes vor: Sie führen Experimente oder Umfragen durch und haben eine ganze Liste von Fragen (Hypothesen), die Sie zu beantworten versuchen. Der Haken daran ist: Je mehr Fragen Sie stellen, desto wahrscheinlicher ist es, dass Sie einige falsche Antworten erhalten (Hallo, Typ-I-Fehler !). Es handelt sich um ein statistisches Parteifoul, das als Mehrfachvergleichsproblem bekannt ist.

Unverzichtbarer Jargon für die Partei

  • Nullhypothese (H0): Die Nullhypothese ist Ihre Grundannahme, dass nichts Besonderes passiert. Es ist, als würde man einen Gast auf einer Party ansehen und sagen: „Du bist nur ein ganz normaler Mensch, kein Star mit Maske.“ Wenn wir mehrere Hypothesen testen, überprüfen wir grundsätzlich eine Gruppe von Gästen, um festzustellen, ob es sich bei ihnen um Prominente handelt.


  • Fehler vom Typ I: Ein Fehler vom Typ I liegt vor, wenn Sie fälschlicherweise glauben, Sie hätten eine Berühmtheit entdeckt, es sich jedoch nur um jemanden in einem wirklich guten Kostüm handelt. In der Welt der Statistik liegt das vor, wenn man die Nullhypothese fälschlicherweise ablehnt und glaubt, einen signifikanten Effekt oder Unterschied gefunden zu haben, obwohl es keinen gibt.


  • Family-Wise Error Rate (FWER): FWER bedeutet, dass man große Angst davor hat, auf der eigenen Party auch nur einen Stammgast fälschlicherweise als Berühmtheit zu identifizieren. Dabei handelt es sich um die Wahrscheinlichkeit, dass bei allen von Ihnen durchgeführten Tests mindestens ein Fehler vom Typ I auftritt. Wenn Sie 20 Hypothesen testen, legt FWER Wert darauf, bei allen 20 Tests keinen einzigen Fehler zu machen. Korrekturen wie die Bonferroni-Anpassung tragen zur Kontrolle von FWER bei, indem sie die Kriterien für die Signifikanz strenger gestalten. Sie verringern die Wahrscheinlichkeit, Fehler vom Typ I zu machen, und stellen sicher, dass Sie sich nicht dadurch blamieren, dass Sie die falsche „Berühmtheit“ nennen.


  • False Discovery Rate (FDR): Bei FDR geht es mehr um Ausgewogenheit. Es ist, als würde man sagen: „Okay, ich nenne ein paar Stammgäste vielleicht aus Versehen Berühmtheiten, aber ich möchte sicherstellen, dass ich so viele echte Berühmtheiten wie möglich erwische.“ FDR kontrolliert den erwarteten Anteil falscher Entdeckungen an allen von Ihnen gemachten Entdeckungen. Im Vergleich zu FWER ist es etwas entspannter, sodass Sie sich irren können, wenn Sie sagen, dass einige Gäste Berühmtheiten sind, solange Sie meistens recht haben. Dieser Ansatz ist hilfreich, wenn Sie damit einverstanden sind, Risiken einzugehen, um weitere potenzielle Erkenntnisse zu gewinnen, und dabei anerkennen, dass einige Fehlalarme Teil des Prozesses sind.


FWER: Bonferroni-Korrektur

Die Bonferroni-Korrektur ist Ihr äußerst vorsichtiger Freund auf einer Party und stellt sicher, dass Sie keine Fehler bei der Identifizierung von Prominenten in der Menge machen. Es erfordert, dass Sie bei jeder Entdeckung besonders sicher sind, wenn Sie viele Möglichkeiten gleichzeitig prüfen.


Wie es funktioniert:

  • Szenario: Sie testen mehrere Hypothesen, beispielsweise versuchen Sie, Prominente in einer Menschenmenge zu erkennen.
  • Bonferronis Regel: Damit jeder Befund als wahr gilt, muss er einem viel strengeren Standard entsprechen. Wenn Sie 10 Hypothesen testen und Ihr Standardsicherheitsniveau 0,05 beträgt, passt Bonferroni diesen für jeden Test auf 0,005 an.


Die Formel:





Dabei ist α Ihr anfänglicher Grad an Sicherheit (normalerweise 0,05) und n die Anzahl der Hypothesen, die Sie testen.


Auswirkungen:

Diese Methode verringert die Wahrscheinlichkeit falscher Entdeckungen (Fehler vom Typ I) erheblich, indem die Messlatte für das, was als signifikantes Ergebnis gilt, höher gelegt wird. Seine Strenge kann Sie jedoch auch daran hindern, wahre Erkenntnisse zu erkennen, so wie Sie eine Berühmtheit nicht erkennen, weil Sie sich zu sehr darauf konzentrieren, keinen Fehler zu machen.


Im Wesentlichen legt die Bonferroni-Korrektur Wert darauf, falsch-positive Ergebnisse zu vermeiden, auf die Gefahr hin, echte Entdeckungen zu verpassen, was sie zu einer konservativen Wahl beim Testen von Hypothesen macht.


Python zur Rettung: Umgang mit Vergleichen

Machen wir uns mit etwas Python-Code die Hände schmutzig, um durch dieses Labyrinth aus mehreren Hypothesen zu navigieren, ohne unseren Verstand zu verlieren.


Stellen Sie zunächst sicher, dass Sie über die richtigen Werkzeuge für den Job verfügen:

 pip install numpy statsmodels

und mach weiter

 from statsmodels.stats.multitest import multipletests import numpy as np # Imagine these are your p-values from testing various hypotheses p_values = [0.005, 0.0335, 0.098543, 0.00123] # Let's say we did 4 tests # Applying Bonferroni correction bonf_rejected, bonf_corrected, _, _ = multipletests(p_values, alpha=0.05, method='bonferroni') print("Bonferroni Approach") print(f"Rejected: {bonf_rejected}") print(f"Adjusted p-values: {bonf_corrected}\n")


Lassen Sie uns aufschlüsseln, was wir nach der Anwendung der Bonferroni-Korrektur auf Ihre p-Werte haben:

  • Abgelehnte Hypothesen : Die Bonferroni-Korrektur sagt uns, welche Hypothesen basierend auf dem korrigierten Schwellenwert abgelehnt werden sollten. Hier werden die erste ( True ) und die letzte ( True ) Hypothese verworfen, was bedeutet, dass sie auch nach Anpassung an mehrere Vergleiche statistisch signifikante Ergebnisse zeigen.


  • Angepasste p-Werte : Die angepassten p-Werte sind [0.02, 0.134, 0.394172, 0.00492] . Durch die Anpassung werden die p-Werte erhöht, um das erhöhte Risiko von Typ-I-Fehlern (falsch-positiven Ergebnissen) zu berücksichtigen, die mit mehreren Tests einhergehen.


  • Interpretation: Für p-Werte [0.005, 0.00123] (Original): Nach der Korrektur sind diese [0.02, 0.00492] . Sie bleiben unter dem Schwellenwert von 0,05, was darauf hinweist, dass die Ergebnisse statistisch signifikant sind


FDR: Die Benjamin-Hochberg-Korrektur

Die Benjamin-Hochberg-Korrektur fungiert als ausgeglichener Gatekeeper auf einer Party und meistert das Risiko, Stammgäste mit Prominenten zu verwechseln, geschickt, ohne zu streng zu sein. Es findet einen Mittelweg, der es Ihnen ermöglicht, echte Entdeckungen sicher zu erkennen und gleichzeitig ein überschaubares Risiko in Kauf zu nehmen.


Wie es funktioniert:

  • Szenario: Sie werten mehrere Ergebnisse aus, ähnlich wie beim Erkennen von Prominenten unter Partygängern.

  • Benjamin-Hochbergs Strategie: Diese Methode passt die Signifikanzniveaus basierend auf dem Rang jedes p-Werts an und ermöglicht so einen flexibleren Ansatz im Vergleich zur starren Bonferroni-Korrektur. Es steuert die False Discovery Rate (FDR), also den erwarteten Anteil falscher Entdeckungen an allen gemachten Entdeckungen.


Der Prozess:

  1. Rang-P-Werte: Vom kleinsten zum größten.

  2. Signifikanzniveaus anpassen: Für jede Hypothese wird ein anderer Schwellenwert berechnet, der für Hypothesen mit kleineren p-Werten milder wird. Dies basiert auf ihrem Rang und der Gesamtzahl der Tests.


Auswirkungen:

Durch die Fokussierung auf die Kontrolle des FDR ermöglicht die Benjamin-Hochberg-Korrektur, dass mehr Entdeckungen als signifikant anerkannt werden, wobei akzeptiert wird, dass es sich bei einigen möglicherweise um falsch positive Ergebnisse handelt, aber sichergestellt wird, dass die Gesamtrate dieser Fehler unter Kontrolle bleibt. Dieser Ansatz ist besonders nützlich, wenn Sie viele Hypothesen untersuchen und bereit sind, ein gewisses Maß an Fehlentdeckungen zu tolerieren, um wichtige Erkenntnisse nicht zu verpassen.


Zusammenfassend lässt sich sagen, dass die Benjamin-Hochberg-Korrektur ein praktisches Gleichgewicht zwischen der Entdeckung wahrer Effekte und der Kontrolle der Rate falsch positiver Ergebnisse bietet, was sie zu einem wertvollen Werkzeug für Forscher macht, die mit mehreren Vergleichen arbeiten.


Python zur Rettung:

 # Benjamini-Hochberg correction for the brave from statsmodels.stats.multitest import multipletests import numpy as np # Imagine these are your p-values from testing various hypotheses p_values = [0.005, 0.0335, 0.098543, 0.00123] # Let's say we did 4 tests # Applying BH correction bh_rejected, bh_corrected, _, _ = multipletests(p_values, alpha=0.05, method='fdr_bh') print("Benjamini-Hochberg Approach") print(f"Rejected: {bh_rejected}") print(f"Adjusted p-values: {bh_corrected}")


  • Abgelehnte Hypothesen : [True, True, False, True] gibt an, welche Hypothesen basierend auf den angepassten p-Werten abgelehnt wurden. In diesem Fall wurden die 1., 2. und 4. Hypothese abgelehnt, was auf signifikante Ergebnisse in diesen Fällen schließen lässt.

  • Angepasste p-Werte : [0.01, 0.04466667, 0.098543, 0.00492] entsprechen den angepassten Signifikanzniveaus jeder Hypothese nach der Korrektur. Diese Werte werden mit dem Alpha-Wert (in diesem Fall 0,05) verglichen, um zu bestimmen, welche Hypothesen abgelehnt werden.

  • Interpretation: Für p-Werte [0.005, 0.0335, 0.00123] (Original): Nach der Korrektur sind dies [0.01, 0.04466667, 0.00492] . Sie bleiben unter dem Schwellenwert von 0,05, was darauf hinweist, dass die Ergebnisse statistisch signifikant sind



Interpretation der Ergebnisse in Promi-Begriffen:

  • Erste und vierte Hypothese (von beiden anerkannt): Dies sind wie die unverkennbaren Berühmtheiten, die jeder erkennt, unabhängig davon, wie vorsichtig oder abenteuerlustig Sie sind. Beide Methoden stimmen darin überein, dass diese Ergebnisse von Bedeutung sind, beispielsweise um Prominente aus der A-Liste zu erkennen, die nicht übersehen werden dürfen.


  • Zweite Hypothese (von BH anerkannt, aber nicht von Bonferroni): Dies stellt eine eher Nischen- oder aufstrebende Berühmtheit dar, auf die die BH-Methode mit ihrer Mischung aus Vorsicht und Optimismus bereit ist, zu wetten. Allerdings ist der ultrakonservative Bonferroni lieber vorsichtig und lässt die Chance aus Angst vor einem falsch positiven Ergebnis aus.


Diese Metapher verdeutlicht die inhärenten Kompromisse zwischen Sensitivität und Spezifität bei statistischen Korrekturen und wie wichtig es ist, den richtigen Ansatz basierend auf dem Kontext Ihrer Forschung oder, in unserer spielerischen Analogie, der Art der Party, an der Sie teilnehmen, zu wählen.


Fazit: Das Mitnehmen

Die Betrachtung vieler Hypothesen ist ein bisschen so, als würde man sich durch ein Minenfeld statistischer Fehler bewegen. Aber mit den richtigen Tools (Danke, Python!) und Strategien (Hallo Bonferroni und Benjamin-Hochberg) können Sie damit umgehen und gleichzeitig Ihre wissenschaftliche Integrität wahren. Denken Sie daran, es geht vor allem darum, Risiko und Ertrag in Einklang zu bringen. Unabhängig davon, ob Sie sich rückversichern oder auf der Jagd nach Gold sind, werden Ihre Schlussfolgerungen durch das Verstehen und Korrigieren mehrerer Vergleiche wesentlich zuverlässiger. Viel Spaß bei der Datensuche!