Machen Sie sich bereit für ein KI-Erdbeben! Ein Team von UCLA-Forschern ( @zxche n, @Yihe__Deng , @HuizhuoY , @Kaixuan_Ji_19, @QuanquanGu ) hat einige wichtige Schlüssel zu AGI veröffentlicht. Es ist nicht nur der Code für eine wirklich menschlich klingende KI, sondern sie haben auch das Ganze als Open-Source-Lösung bereitgestellt.
Jetzt können Sie bessere LLMs entwickeln, ohne Unmengen neuer, von Menschen kommentierter Daten einspeisen zu müssen.
Konzentrieren wir uns zunächst auf den Game-Changer hier: ein selbstlernendes Sprachmodell.
Diese Methode ermöglicht es einem Sprachmodell , sich selbst beizubringen und ohne große Mengen neuer, extern kuratierter Daten immer besser zu werden.
Ich bin in den Deep-Dive-Modus gegangen – habe ihren Artikel gelesen („ Self-Play Fine-Tuning Converts Weak Language Models to Strong Language Models “), habe die Erkenntnisse in Foren wie HackerNews , X und Reddit mit Google Gemini Ultra und GPT-4 durchforstet Turbo – und das Kernkonzept von SPIN hat meine technikbegeisterten metaphorischen Socken umgehauen:
Stellen Sie sich vor, Sie beginnen mit einem Sprachmodell, das grundlegende Fähigkeiten beherrscht (sagen wir die Konversationsetikette). Mit SPIN generiert das Modell interne „Gespräche“ und erstellt einen Datensatz aus dem, was es bereits weiß.
Sofortige Wissenserweiterung!
Schritt zwei besteht darin, ein neues Modell zu entfesseln und ihm eine Aufgabe zu geben: den Unterschied zwischen maschinell generierten Chats und echter menschlicher Kommunikation zu erkennen. Dies zwingt das ursprüngliche Modell dazu, sein Spiel zu verbessern und mit jeder Reaktion immer menschlicher zu werden, um nicht entdeckt zu werden.
Hier wird es interessant. Sie begannen mit zephyr-7b-sft-full (bereits mit UltraChat-Korpus verfeinert). SPIN hat mit diesem Basismodell ein iteratives Trainingssystem eingeführt und es exponentiell verbessert, ohne auf Unmengen neuer, extern erstellter Daten angewiesen zu sein.
Wir gehen normalerweise davon aus, dass maschinelles Lernen, insbesondere für diese riesigen Sprachmodelle, Unmengen sorgfältig kuratierter und gekennzeichneter Daten erfordert. Bei den Methoden der direkten Präferenzoptimierung (Direct Preference Optimization, DPO) bewerten Menschen die KI-Reaktionen für das Training sorgfältig miteinander. Dies ist nicht nur arbeitsintensiv, sondern erhöht auch die Kosten, wenn ein Datensatz wächst.
Direct Preference Optimization (DTO) ist eine Trainingsmethode, bei der ein Modell mithilfe eines Datensatzes von Präferenzen verfeinert wird, wobei häufig menschliche Urteile einbezogen werden, die entscheiden, welche der modellgenerierten Antworten bevorzugt werden. Diese Methode erfordert das Sammeln neuer Daten, bei denen jedes Teil anhand dieser Präferenzen gekennzeichnet wird, was ressourcenintensiv sein kann.
Im Gegensatz dazu nutzt SPIN iteratives Selbstspiel , wodurch der Bedarf an neuen Daten deutlich reduziert wird.
Bereits bei der ersten Iteration übertrifft die Leistung von SPIN in den meisten Fällen die von DPO , was seine Effizienz und Effektivität bei der Nutzung vorhandener Daten zur Verbesserung der Modellleistung unterstreicht.
SPIN stellt seine Stärke unter Beweis, indem es eine gleichwertige Leistung mit Modellen erzielt, die auf umfangreicheren Datensätzen trainiert wurden . Der Prozess des iterativen Trainings verbessert methodisch die Leistung des Modells über mehrere Iterationen hinweg und zeigt erhebliche Verbesserungen , insbesondere bei anspruchsvollen Benchmarks wie TruthfulQA und GSM8k.
Daher übertrifft SPIN herkömmliche Trainingsmethoden, einschließlich DPO, durch die effiziente Nutzung synthetischer Datensätze, die im Selbstspiel generiert werden, ohne dass zusätzliche, von Menschen kommentierte Daten erforderlich sind.
SPIN sorgt mit seiner Eigenspieldynamik für Aufsehen.
Stellen Sie es sich wie ein Sprachmodell vor, das in einem sprachlichen Boxring mit sich selbst kämpft und ihm in jeder Runde neue Tricks beibringt.
Die Dateneffizienz von SPIN umgeht die Notwendigkeit neuer, von Menschen kommentierter Datensätze.
Noch wichtiger ist jedoch, dass dadurch die Verbesserungsschleife beschleunigt wird , sodass das Modell immer besser in der Lage ist, menschenähnlichen Text zu generieren .
SPIN scheint nicht nur mit Modellen übereinzustimmen, die auf größeren externen Datensätzen trainiert wurden, sondern seine iterative Leistung bedeutet auch konsistente Gewinne, da es im Wesentlichen seine eigene Ausgabe untersucht.
Überwältigend, oder?
Der Mitbegründer von Nous Research @Teknium1 hat Recht. Diese großen alten Sprachmodelle werden nicht umsonst intelligenter. Das iterative Neutraining mit SPIN erfordert jedes Mal den teuren Prozess des Supervised Fine-Tuning (SFT).
Allerdings erwähnt er auch: „Ich denke, es lohnt sich!“. Außerdem überwiegen die langfristigen Vorteile einer schnelleren Entwicklung und möglicherweise einer geringeren Abhängigkeit von von Menschen kommentierten Daten die Anfangsinvestition? Das ist die spannende Frage!
Erst gestern gab Quanquan Gu , außerordentlicher Professor für Informatik an der UCLA und Direktor für KI-Forschung bei ByteDance, bekannt, dass jetzt jeder das SPIN-Modell und den Datensatz verwenden kann . Damit sind nicht nur Code und Datensätze gemeint, sondern vorab trainierte Modelle, mit denen Sie Ihre eigene KI-Reise anstoßen können.
SPIN spiegelt menschliche Denkprozesse wider.
Durch die Generierung von Texten, die sich menschlich anfühlen, weist SPIN auf die grundlegenden Elemente des Denkens hin, die zukünftige KI leisten könnte. Sie wissen, wie sich manche LLM-Ausgaben roboterhaft anfühlen, oder? Nun, SPIN ist anders. Es spiegelt tatsächlich die Art und Weise wider, wie Menschen denken. Die Art und Weise, wie es geschrieben wird, fühlt sich so natürlich an, es ist wie ein Blick darauf, wie zukünftige KI in der Lage sein könnte, für sich selbst zu argumentieren.
Dabei geht es nicht nur darum, Chatbots schöner klingen zu lassen.
Es geht darum, eine Art digitales Denken zu schaffen, das wie unseres funktioniert. Diese Art von KI wäre viel flexibler und in der Lage, wirklich zu verstehen.
Während SPIN einen großen Schritt nach vorn darstellt, wenn es darum geht, Sprachmodelle natürlicher klingen zu lassen, ist es leicht, aufgeregt zu sein und zu überschätzen, was es bedeutet .
Der Text, den es produziert, ist beeindruckend (Sie können einen Blick in die Datenbank werfen), aber es ist wichtig zu bedenken, dass KI noch nicht über die Fähigkeit verfügt, wirklich unabhängig zu argumentieren.
Auch wenn SPIN keine echte AGI ist, zeigt die Art und Weise, wie es menschenähnliches Schreiben nachahmt, beeindruckende Fortschritte bei der Art und Weise, wie KI in Zukunft Sprache verarbeiten und verwenden könnte.
Dennoch deutet es auf erstaunliche Möglichkeiten hin, wie sich KI und Sprache in der Zukunft entwickeln könnten (wenn Sie bedenken, dass wir am Anfang des Hockeyschlägers stehen, ist die Zukunft nicht mehr weit von heute entfernt ...)
Die Auswirkungen werden enorm sein und hier ist Ihr Zugangspass:
Zusammenfassend lässt sich sagen, dass die iterative, sich selbst verbessernde Methodik einen bedeutenden Fortschritt auf dem Weg zur Schaffung von LLM darstellt, das eine wirklich menschenähnliche Kommunikation ermöglichen kann.
Ursprünglich auf meinem X-Konto geteilt.