Kalibrierung – Obwohl sie eines der wichtigsten Konzepte im maschinellen Lernen ist, wird unter Einsteigern im KI/ML-Bereich nicht genug darüber gesprochen. Die Kalibrierung sagt uns, wie sehr wir einer Modellvorhersage vertrauen können, insbesondere bei Klassifizierungsmodellen. Für die sinnvolle Interpretation der numerischen Ergebnisse von Klassifikatoren für maschinelles Lernen ist ein gutes Verständnis der Kalibrierung erforderlich. In diesem Artikel diskutieren wir die Theorie hinter der Modellkalibrierung für maschinelles Lernen und ihre Bedeutung anhand einiger einfacher Beispiele aus der Praxis.
Ein maschinelles Lernmodell ist kalibriert, wenn es kalibrierte Wahrscheinlichkeiten erzeugt. Genauer gesagt werden Wahrscheinlichkeiten kalibriert, bei denen eine Vorhersage einer Klasse mit Konfidenz p in 100*p-Prozentsätzen korrekt ist
Sieht kompliziert aus?
Lassen Sie uns anhand eines einfachen Beispiels verstehen:
Nehmen wir an, wir müssen ein maschinelles Lernmodell erstellen, um vorherzusagen, ob es an einem bestimmten Tag regnen wird oder nicht. Da es nur zwei mögliche Ergebnisse gibt – „Regen“ und „Kein Regen“, können wir dies als binäres Klassifizierungsmodell betrachten.
Hier ist „Regen“ eine positive Klasse, die als 1 dargestellt wird, und „Kein Regen“ ist eine negative Klasse, die als 0 dargestellt wird.
Wenn die Vorhersage des Modells für einen bestimmten Tag 1 ist, können wir davon ausgehen, dass der Tag voraussichtlich regnerisch sein wird.
Wenn die Vorhersage des Modells für einen bestimmten Tag gleich 0 ist, können wir davon ausgehen, dass es davon ausgeht, dass es an diesem Tag nicht regnen wird.
In Echtzeit stellen die Modelle des maschinellen Lernens die Vorhersage häufig als numerischen Vektor dar, der einige Wahrscheinlichkeitswerte darstellt.
Daher ist es nicht notwendig, dass wir immer einen Wert von 0 oder 1 erhalten. Wenn der vorhergesagte Wert größer oder gleich 0,5 ist, wird er normalerweise als 1 betrachtet, und wenn der vorhergesagte Wert kleiner als 0,5 ist, wird er als 0 betrachtet .
Wenn beispielsweise die Vorhersage des Modells für einen bestimmten Tag 0,66 beträgt, können wir sie als 1 betrachten. Wenn die Vorhersage des Modells für einen bestimmten Tag beispielsweise 0,24 beträgt, können wir sie als 0 betrachten.
Nehmen wir an, dass unser Modell das Ergebnis für die kommenden 10 Tage wie folgt vorhersagt:
Wir können sehen, dass die Vorhersage „Regen“ lautet, wenn der Wahrscheinlichkeitswert größer oder gleich 0,5 ist.
Ebenso können wir sehen, dass die Vorhersage „Kein Regen“ lautet, wenn der Wahrscheinlichkeitswert kleiner als 0,5 ist.
Die statistische Frage lautet nun:
„Sind die Wahrscheinlichkeitswerte echte Wahrscheinlichkeitswerte für das Ergebnis?“
Mit anderen Worten: Wenn ich einen Wahrscheinlichkeitswert von 0,8 habe, bedeutet das dann, dass die Wahrscheinlichkeit, dass es an dem Tag regnen wird, bei 80 % liegt?
Wenn ich einen Wahrscheinlichkeitswert von 0,2 habe, bedeutet das dann, dass die Wahrscheinlichkeit, dass es an dem Tag regnen wird, bei 20 % liegt?
Wenn ich behaupte, dass mein Modell kalibriert ist, sollte die Antwort statistisch gesehen „Ja“ lauten.
Die Wahrscheinlichkeitswerte sollten keine bloßen Schwellenwerte zur Entscheidung über die Ausgabeklasse sein. Stattdessen sollte es die tatsächliche Wahrscheinlichkeit des Ergebnisses darstellen.
Hier hat Tag 1 einen Wahrscheinlichkeitswert von 0,81, Tag 10 jedoch nur einen Wahrscheinlichkeitswert von 0,76. Dies bedeutet, dass die Wahrscheinlichkeit, dass es an beiden Tagen regnen kann, am ersten Tag um 5 % höher ist als am zehnten Tag. Dies zeigt die Stärke der probabilistischen Vorhersage des Ergebnisses. Ein guter Statistiker wird aus einer großen Anzahl ähnlicher Ergebnisse viele Muster ableiten, wenn er über ein solches Modell verfügt.
Sehen wir uns an, wie Statistiker die Modellkalibrierung grafisch interpretieren.
Stellen Sie sich ein Diagramm wie dieses vor, bei dem die Werte von 0 bis 1 gleichmäßig auf der X-Achse verteilt sind.
Zeichnen Sie nun in jedem Bucket das Ergebnis entsprechend seinen Wahrscheinlichkeitswerten auf.
Zum Beispiel,
In den Buckets 0,6–0,8 haben wir 4 Datenpunkte – Tag 4, Tag 8, Tag 9 und Tag 10.
Ebenso können wir das gleiche Verfahren für alle anderen Buckets anwenden.
Bisher haben wir nur vorhergesagte Werte aufgezeichnet.
Da unsere positive Klasse „Regen“ ist, differenzieren wir die Werte in jedem Eimer, dessen tatsächlicher Wert „Regen“ ist.
Ermitteln Sie nun den Anteil der positiven Klasse in jedem Bucket:
Sobald dieses Stadium erreicht ist, zeichnen Sie diese Bruchwerte einfach als Linie entlang der Y-Achse ein.
Die Linie hat keine richtige lineare Struktur. Das bedeutet, dass unser Modell nicht gut kalibriert ist. Das Diagramm eines gut kalibrierten Modells hätte so ausgesehen:
Im Idealfall erwartet ein gut kalibriertes Modell, dass die Wahrscheinlichkeit von „Regen“ im 3. Bereich (0,4–0,6) etwa 40–60 % beträgt. Unser Modell gibt jedoch nur eine 30-prozentige Wahrscheinlichkeit an, dass es sich um „Regen“ handelt. Dies ist eine erhebliche Abweichung. Solche Abweichungen sind auch in anderen Buckets zu beobachten.
Einige Statistiker verwenden die Fläche zwischen der kalibrierten Kurve und der Wahrscheinlichkeitskurve des Modells, um die Leistung des Modells zu bewerten. Wenn die Fläche kleiner wird, ist die Leistung größer, da die Modellkurve näher an einer kalibrierten Kurve liegt.
Es gibt viele Echtzeitszenarien, in denen die Endbenutzer von ML-Anwendungen für eine effektive und aufschlussreiche Entscheidungsfindung auf die Modellkalibrierung angewiesen sind, wie z.
Nehmen wir an, wir bauen ein Ranking-basiertes Modell für eine E-Commerce-Plattform. Wenn ein Modell gut kalibriert ist, können seine Wahrscheinlichkeitswerte für Empfehlungszwecke als vertrauenswürdig eingestuft werden. Das Modell besagt beispielsweise, dass die Wahrscheinlichkeit, dass der Benutzer Produkt A mag, bei 80 % liegt und dass die Wahrscheinlichkeit, dass dem Benutzer Produkt B gefällt, bei 65 % liegt. Daher können wir dem Benutzer Produkt A als erste Präferenz und Produkt B empfehlen als zweite Präferenz.
Bedenken Sie bei klinischen Studien, dass einige Ärzte Medikamente entwickeln. Wenn das Modell vorhersagt, dass zwei Medikamente für die Behandlung sehr wirksam sind – Medikament A und Medikament B –, sollten Ärzte nun die beste verfügbare Option aus der Liste auswählen, da sie kein Risiko eingehen können, da es sich um eine hochriskante Studie handelt Menschenleben. Wenn das Modell einen Wahrscheinlichkeitswert von 95 % für Medikament A und 90 % für Medikament B angibt, werden die Ärzte offensichtlich mit Medikament A fortfahren.
In diesem Artikel haben wir die theoretischen Grundlagen der Modellkalibrierung erläutert und anhand einiger einfacher Beispiele aus der Praxis erörtert, wie wichtig es ist, zu verstehen, ob ein Klassifikator kalibriert ist oder nicht. Der Aufbau der „Zuverlässigkeit“ für maschinelle Lernmodelle ist für die Forscher oft eine größere Herausforderung als die Entwicklung oder Bereitstellung auf den Servern. Die Modellkalibrierung ist in Fällen, in denen die vorhergesagte Wahrscheinlichkeit von Interesse ist, äußerst wertvoll. Es gibt Einblicke oder Verständnis für die Unsicherheit bei der Vorhersage des Modells und damit wiederum für die Zuverlässigkeit des Modells, die der Endbenutzer verstehen muss, insbesondere bei kritischen Anwendungen.
Ich hoffe, dieser Artikel hat Ihnen geholfen, eine Einleitung zu diesem Konzept zu erhalten und seine Bedeutung zu verstehen. Sie können auf die im Referenzabschnitt genannten Materialien zurückgreifen, um ein tieferes Verständnis davon zu erlangen.