Machen Sie sich bereit für ein KI-Erdbeben! Ein Team von UCLA-Forschern ( n, , , ) hat einige wichtige Schlüssel zu AGI veröffentlicht. Es ist nicht nur der Code für eine wirklich menschlich klingende KI, sondern sie haben auch das Ganze als Open-Source-Lösung bereitgestellt. @zxche @Yihe__Deng @HuizhuoY @Kaixuan_Ji_19, @QuanquanGu Jetzt können Sie bessere LLMs entwickeln, ohne Unmengen neuer, von Menschen kommentierter Daten einspeisen zu müssen. Konzentrieren wir uns zunächst auf den Game-Changer hier: ein selbstlernendes Sprachmodell. Diese Methode ermöglicht es einem Sprachmodell ohne große Mengen neuer, extern kuratierter Daten immer besser zu werden. , sich selbst beizubringen und Einführung von SPIN: Self-Play Fine-Tuning konvertiert schwache Sprachmodelle in starke Sprachmodelle Ich bin in den Deep-Dive-Modus gegangen – habe ihren Artikel gelesen („ “), habe die Erkenntnisse in Foren wie , und mit Google Gemini Ultra und GPT-4 durchforstet Turbo – und das Kernkonzept von SPIN hat meine technikbegeisterten metaphorischen Socken umgehauen: Self-Play Fine-Tuning Converts Weak Language Models to Strong Language Models HackerNews X Reddit Der „Gesprächspartner“-Trick Stellen Sie sich vor, Sie beginnen mit einem Sprachmodell, das grundlegende Fähigkeiten beherrscht (sagen wir die Konversationsetikette). Mit SPIN erstellt einen Datensatz aus dem, was es bereits weiß. generiert das Modell interne „Gespräche“ und Sofortige Wissenserweiterung! Schritt zwei besteht darin, ein neues Modell zu entfesseln und ihm eine Aufgabe zu geben: den Unterschied zwischen und echter menschlicher Kommunikation zu erkennen. Dies zwingt das ursprüngliche Modell dazu, sein Spiel zu verbessern und mit jeder Reaktion immer zu werden, um nicht entdeckt zu werden. maschinell generierten Chats menschlicher Hier wird es interessant. Sie begannen mit (bereits mit verfeinert). SPIN hat mit diesem Basismodell ein iteratives Trainingssystem eingeführt und es exponentiell verbessert, ohne auf Unmengen neuer, extern erstellter Daten angewiesen zu sein. zephyr-7b-sft-full UltraChat-Korpus SPIN vs. traditionelles KI-Training (DPO): Ein neuer Champion? Wir gehen normalerweise davon aus, dass maschinelles Lernen, insbesondere für diese riesigen Sprachmodelle, Unmengen sorgfältig kuratierter und gekennzeichneter Daten erfordert. Bei den Methoden bewerten Menschen die KI-Reaktionen für das Training sorgfältig miteinander. Dies ist nicht nur arbeitsintensiv, sondern erhöht auch die Kosten, wenn ein Datensatz wächst. der direkten Präferenzoptimierung (Direct Preference Optimization, DPO) Direct Preference Optimization (DTO) ist eine Trainingsmethode, bei der ein Modell mithilfe eines Datensatzes von Präferenzen verfeinert wird, wobei häufig menschliche Urteile einbezogen werden, die entscheiden, welche der modellgenerierten Antworten bevorzugt werden. Diese Methode erfordert das Sammeln neuer Daten, bei denen jedes Teil anhand dieser Präferenzen gekennzeichnet wird, was ressourcenintensiv sein kann. Im Gegensatz dazu nutzt SPIN , wodurch der Bedarf an neuen Daten deutlich reduziert wird. iteratives Selbstspiel , was seine Effizienz und Effektivität bei der Nutzung vorhandener Daten zur Verbesserung der Modellleistung unterstreicht. Bereits bei der ersten Iteration übertrifft die Leistung von SPIN in den meisten Fällen die von DPO SPIN stellt seine Stärke unter Beweis, indem . Der Prozess des verbessert methodisch die Leistung des Modells über mehrere Iterationen hinweg und , insbesondere bei anspruchsvollen Benchmarks wie TruthfulQA und GSM8k. es eine gleichwertige Leistung mit Modellen erzielt, die auf umfangreicheren Datensätzen trainiert wurden iterativen Trainings zeigt erhebliche Verbesserungen Daher übertrifft SPIN herkömmliche Trainingsmethoden, einschließlich DPO, durch die effiziente Nutzung synthetischer Datensätze, die im Selbstspiel generiert werden, ohne dass zusätzliche, von Menschen kommentierte Daten erforderlich sind. Was sind die Stärken und Kosten von SPIN? SPIN sorgt mit seiner Eigenspieldynamik für Aufsehen. Stellen Sie es sich wie ein Sprachmodell vor, das in einem sprachlichen Boxring mit sich selbst kämpft und ihm in jeder Runde neue Tricks beibringt. Die Dateneffizienz von SPIN umgeht die Notwendigkeit neuer, von Menschen kommentierter Datensätze. Noch wichtiger ist jedoch, dass dadurch , . die Verbesserungsschleife beschleunigt wird sodass das Modell immer besser in der Lage ist, menschenähnlichen Text zu generieren SPIN scheint nicht nur mit Modellen übereinzustimmen, die auf größeren externen Datensätzen trainiert wurden, sondern seine iterative Leistung bedeutet auch konsistente Gewinne, da es im Wesentlichen seine eigene Ausgabe untersucht. Überwältigend, oder? Okay, reden wir über den Elefanten im Raum – COST Der Mitbegründer von Nous Research hat Recht. Diese großen alten Sprachmodelle werden nicht umsonst intelligenter. Das iterative Neutraining mit SPIN erfordert jedes Mal den teuren Prozess des Supervised Fine-Tuning (SFT). @Teknium1 Allerdings erwähnt er auch: „Ich denke, es lohnt sich!“. Außerdem überwiegen die langfristigen Vorteile einer schnelleren Entwicklung und möglicherweise einer geringeren Abhängigkeit von von Menschen kommentierten Daten die Anfangsinvestition? Das ist die spannende Frage! BOOM! Es ist Zeit für Open-Source-KI Erst gestern gab , außerordentlicher Professor für Informatik an der UCLA und Direktor für KI-Forschung bei ByteDance, bekannt, dass . Damit sind nicht nur Code und Datensätze gemeint, sondern vorab trainierte Modelle, mit denen Sie Ihre eigene KI-Reise anstoßen können. Quanquan Gu jetzt jeder das SPIN-Modell und den Datensatz verwenden kann SPIN spiegelt menschliche Denkprozesse wider. Durch die Generierung von Texten, die sich menschlich anfühlen, weist SPIN auf die grundlegenden Elemente des Denkens hin, die zukünftige KI leisten könnte. Sie wissen, wie sich manche LLM-Ausgaben roboterhaft anfühlen, oder? Nun, SPIN ist anders. Es spiegelt tatsächlich die Art und Weise wider, wie Menschen denken. Die Art und Weise, wie es geschrieben wird, fühlt sich so natürlich an, es ist wie ein Blick darauf, wie zukünftige KI in der Lage sein könnte, für sich selbst zu argumentieren. Dabei geht es nicht nur darum, Chatbots schöner klingen zu lassen. Es geht darum, eine Art digitales Denken zu schaffen, das wie unseres funktioniert. Diese Art von KI wäre viel flexibler und in der Lage, wirklich zu verstehen. Während SPIN einen großen Schritt nach vorn darstellt, wenn es darum geht, Sprachmodelle natürlicher klingen zu lassen, . ist es leicht, aufgeregt zu sein und zu überschätzen, was es bedeutet Der Text, den es produziert, ist beeindruckend (Sie können einen Blick in die Datenbank werfen), aber es ist wichtig zu bedenken, dass KI noch nicht über die Fähigkeit verfügt, wirklich unabhängig zu argumentieren. Auch wenn SPIN keine echte ist, zeigt die Art und Weise, wie es menschenähnliches Schreiben nachahmt, beeindruckende Fortschritte bei der Art und Weise, wie KI in Zukunft Sprache verarbeiten und verwenden könnte. AGI Dennoch deutet es auf erstaunliche Möglichkeiten hin, wie sich KI und Sprache in der Zukunft entwickeln könnten (wenn Sie bedenken, dass wir am Anfang des Hockeyschlägers stehen, ist die Zukunft nicht mehr weit von heute entfernt ...) Die Auswirkungen werden enorm sein und hier ist Ihr Zugangspass: Code: Verfügbar auf : GitHub https://github.com/uclaml/SPIN Daten: Der auf gehostete Datensatz ist für diejenigen, die SPIN-Methoden anwenden möchten, leicht zugänglich: Hugging Face https://huggingface.co/collections/UCLA-AGI/datasets-spin-65c3624e98d4b589bbc76f3a… Modelle: Es sind auch vorab trainierte Modelle verfügbar, die einen Vorsprung beim Experimentieren mit SPIN-erweiterten Sprachmodellen bieten: https://huggingface.co/collections/UCLA-AGI/zephyr-7b-sft-full-spin-65c361dfca65637272a02c40… Projektseite: Für umfassende Einblicke und weitere Informationen ist die Projektseite eine unschätzbare Ressource: https://uclaml.github.io/SPIN/ Zusammenfassend lässt sich sagen, dass die iterative, sich selbst verbessernde Methodik einen bedeutenden Fortschritt auf dem Weg zur Schaffung von LLM darstellt, das eine wirklich menschenähnliche Kommunikation ermöglichen kann. Ursprünglich auf meinem geteilt. X-Konto