In der heutigen Welt haben wir dank leistungsstarker KI-Modelle wie ChatGPT sowie Vision-Modellen und anderen ähnlichen Technologien Zugriff auf eine enorme Datenmenge. Allerdings kommt es bei diesen Modellen nicht nur auf die Menge der Daten an, sondern auch auf deren Qualität. Die schnelle und maßstabsgetreue Erstellung eines guten Datensatzes kann eine herausfordernde und kostspielige Aufgabe sein.
Vereinfacht ausgedrückt zielt aktives Lernen darauf ab, die Annotation Ihres Datensatzes zu optimieren und das bestmögliche Modell mit der geringsten Menge an Trainingsdaten zu trainieren.
Es handelt sich um einen überwachten Lernansatz, der einen iterativen Prozess zwischen den Vorhersagen Ihres Modells und Ihren Daten beinhaltet. Anstatt auf einen vollständigen Datensatz zu warten, können Sie mit einem kleinen Stapel kuratierter annotierter Daten beginnen und Ihr Modell damit trainieren.
Mithilfe von aktivem Lernen können Sie dann Ihr Modell nutzen, um unsichtbare Daten zu kennzeichnen, die Genauigkeit von Vorhersagen zu bewerten und den nächsten Datensatz auszuwählen, der anhand von Erfassungsfunktionen mit Anmerkungen versehen werden soll.
Ein Vorteil des aktiven Lernens besteht darin, dass Sie das Konfidenzniveau der Vorhersagen Ihres Modells analysieren können.
Wenn eine Vorhersage ein geringes Vertrauen aufweist, fordert das Modell die Beschriftung zusätzlicher Bilder dieses Typs an. Andererseits erfordern Vorhersagen mit hoher Zuverlässigkeit nicht mehr Daten. Indem Sie insgesamt weniger Bilder mit Anmerkungen versehen, sparen Sie Zeit und Geld und erhalten gleichzeitig ein optimiertes Modell. Aktives Lernen ist ein vielversprechender Ansatz für die Arbeit mit großen Datensätzen.
Erstens beinhaltet es menschliche Anmerkungen, die Ihnen die Kontrolle über die Qualität der Vorhersagen Ihres Modells geben. Es ist keine Blackbox, die auf Millionen von Bildern trainiert wird. Sie beteiligen sich aktiv an seiner Entwicklung und helfen bei der Verbesserung seiner Leistung. Dieser Aspekt macht aktives Lernen wichtig und interessant, auch wenn dadurch die Kosten im Vergleich zu unbeaufsichtigten Ansätzen steigen können. Allerdings übersteigt die Zeitersparnis beim Training und Einsatz des Modells diese Kosten oft.
Darüber hinaus können Sie automatische Anmerkungstools verwenden und diese manuell korrigieren, was die Kosten weiter senkt.
Beim aktiven Lernen verfügen Sie über einen beschrifteten Datensatz, auf dem Ihr Modell trainiert wird, während der unbeschriftete Satz potenzielle Daten enthält, die noch nicht mit Anmerkungen versehen wurden. Ein entscheidendes Konzept sind die Abfragestrategien, die bestimmen, welche Daten gekennzeichnet werden sollen. Es gibt verschiedene Ansätze, um im großen Pool unbeschrifteter Daten die aussagekräftigsten Teilmengen zu finden. Bei der Unsicherheitsstichprobe geht es beispielsweise darum, Ihr Modell anhand unbeschrifteter Daten zu testen und die am wenigsten zuverlässig klassifizierten Beispiele für die Annotation auszuwählen.
Eine weitere Technik des aktiven Lernens ist Query by Committee (QBC) , bei der mehrere Modelle, die jeweils auf einer anderen Teilmenge gekennzeichneter Daten trainiert werden, ein Komitee bilden. Diese Modelle haben unterschiedliche Perspektiven auf das Klassifizierungsproblem, ebenso wie Menschen mit unterschiedlichen Erfahrungen ein unterschiedliches Verständnis bestimmter Konzepte haben. Die zu kommentierenden Daten werden auf der Grundlage der Meinungsverschiedenheiten zwischen den Ausschussmodellen ausgewählt, was auf Komplexität hinweist. Dieser iterative Prozess wird fortgesetzt, während die ausgewählten Daten kontinuierlich mit Anmerkungen versehen werden.
Bei Interesse kann ich weitere Informationen oder Videos zu anderen maschinellen Lernstrategien bereitstellen. Ein reales Beispiel für aktives Lernen ist das Beantworten von Captchas bei Google. Auf diese Weise helfen Sie ihnen, komplexe Bilder zu identifizieren und Datensätze mit dem gemeinsamen Input mehrerer Benutzer zu erstellen und so sowohl die Qualität der Datensätze als auch die Überprüfung durch den Menschen sicherzustellen. Wenn Sie also das nächste Mal auf ein Captcha stoßen, denken Sie daran, dass Sie zum Fortschritt von KI-Modellen beitragen!