paint-brush
Das revolutionäre Potenzial von 1-Bit-Sprachmodellen (LLMs)von@thebojda
6,811 Lesungen
6,811 Lesungen

Das revolutionäre Potenzial von 1-Bit-Sprachmodellen (LLMs)

von Laszlo Fazekas4m2024/03/03
Read on Terminal Reader

Zu lang; Lesen

1-Bit-LLMs sind eine potenzielle Möglichkeit, wesentlich effizientere neuronale Netze aufzubauen, die biologisch plausibler sind und auf spezieller Hardware effizienter laufen. Zu untersuchen, wie effektiv 1-Bit-Netzwerke mit Gradienten-freien Methoden trainiert werden können, könnte ein sehr interessantes Forschungsthema sein.
featured image - Das revolutionäre Potenzial von 1-Bit-Sprachmodellen (LLMs)
Laszlo Fazekas HackerNoon profile picture
0-item
1-item

Jeder, der sich für die Entwicklung der Technologie der künstlichen Intelligenz interessiert, weiß, dass es bei den heutigen Lösungen ausschließlich um Large Language Models (LLMs) und Transformatoren geht. Kurz gesagt handelt es sich bei LLMs um neuronale Netze, die anhand der Eingabe-Tokens den nächsten Token vorhersagen können. Typischerweise handelt es sich bei diesen Token um Wörter (das ist nicht ganz korrekt, lässt sich aber auf diese Weise leichter konzeptualisieren), und auch die Ausgabe des Netzwerks ist ein Wort. So funktioniert ChatGPT. Sie geben eine Frage ein und das Netzwerk generiert ein Wort. Dann werden die Frage und das Wort zusammen zur Netzwerkeingabe, wodurch ein weiteres Wort generiert wird usw., bis eine vollständige Antwort entsteht.


Allerdings können Token mehr als nur Worte sein. Fortgeschrittene Sprachmodelle wie GPT-4 oder Gemini sind jetzt multimodal, was bedeutet, dass ihre Eingabe Bilder und Wörter umfassen kann. So wie ein Satz in Wörter zerlegt werden kann, kann ein Bild in kleine Teile unterteilt werden, die dann von derselben Transformatorarchitektur verarbeitet werden können. Beispielsweise kann ein multimodales Netzwerk gebeten werden, zu beschreiben, was in einem Bild enthalten ist, oder die im Bild sichtbare Benutzeroberfläche zu codieren.

Quelle: https://produktion-media.paperswithcode.com/methods/Screen_Shot_2021-01-26_at_9.43.31_PM_uI4jjMq.png



Diese Architektur ist noch allgemeiner. Das Gato-System von DeepMind ist ein Paradebeispiel, bei dem ein einzelnes Transformatornetzwerk gleichzeitig Fragen beantworten, Videospiele spielen oder einen Roboter steuern kann, und Roboter wurden sogar mit ChatGPT gesteuert . Da ein LLM mit Tokens arbeitet und jede Aufgabe tokenisiert werden kann, bietet ein LLM eine universelle Lösung für jede Aufgabe.


Quelle: https://deepmind.google/discover/blog/a-generalist-agent/



In einer der am meisten gehypten Tech-Nachrichten der letzten Zeit ging es um die Entwicklung eines ASIC (Application-Specific Integrated Circuit) durch das Unternehmen Groq , mit dem LLMs viel effizienter und mit weniger Energie betrieben werden können als herkömmliche GPUs. Dies zeigt deutlich, dass die LLM-Architektur so grundlegend geworden ist, dass es sich mittlerweile lohnt, spezielle Hardware dafür zu entwickeln.


Ebenfalls kürzlich erschien eine Veröffentlichung mit dem Titel „ The Era of 1-bit LLMs: All Large Language Models are in 1.58 Bits “. Die Quantisierung neuronaler Netze ist eine gängige Methode zur Reduzierung der Größe und des Rechenaufwands. Der Kern der Lösung besteht darin, das Training auf großen GPU-Clustern mithilfe von Gleitkommazahlen durchzuführen und dann die Gewichte des fertigen Netzwerks in ein weniger präzises Format umzuwandeln, wodurch die Prozessoren der Benutzergeräte effizienter arbeiten können. Das Training erfolgt beispielsweise mit 16- oder 32-Bit-Gleitkommazahlen, die dann für schnelle clientseitige Operationen in 8- oder 4-Bit-Festkommazahlen umgewandelt werden. Auf diese Weise kann das Modell auch auf Mobil- oder IoT-Geräten gut funktionieren. Eine extreme Form dieser Quantisierung ist die Umwandlung der Gewichte in 1-Bit-Zahlen. Dies kann eine vollständige binäre Konvertierung sein oder, wie in der Veröffentlichung vorgeschlagen, die Verwendung der Werte {-1,0,1} (daher die 1,58 Bits) sein. Man könnte meinen, dass eine solche extreme Quantisierung das Netzwerk völlig unbrauchbar machen würde, aber in Wirklichkeit ist das Gegenteil der Fall; Diese 1-Bit-Netzwerke funktionieren außergewöhnlich gut.


Warum ist das so eine große Sache?

Wenn diese drei Werte ausreichen, um die Gewichte darzustellen, ist die Multiplikation, die derzeit am häufigsten verwendete Operation in neuronalen Netzen, nicht mehr erforderlich. Aus diesem Grund werden GPU-Cluster für neuronale Netze verwendet, da GPUs Multiplikationen sehr effizient durchführen können. Ohne die Notwendigkeit von Multiplikationen sind keine GPUs erforderlich, und die Modelle können sogar auf CPUs effizient ausgeführt werden, oder es ist möglich, spezielle Hardware (ASIC) zu bauen, die diese 1-Bit-Netzwerke (sogar auf analoge Weise) ausführen kann.


Derzeit ist die Quantisierung ein Vorgang nach dem Training. Daher beschleunigt die Verwendung von 1-Bit-Netzwerken den Trainingsprozess nicht. Dennoch sind sie immer noch nützlich, da das Training ein einmaliger Vorgang ist, das neuronale Netzwerk dann jedoch unzählige Male ausgeführt wird. Folglich stellt der Betrieb der Netzwerke einen deutlich höheren Energieverbrauch dar als das Training. Daher könnten wir auch im Rahmen der Ausbildung von dieser Technologie profitieren.


Da Gradienten-basiertes Training nicht mit 1-Bit- oder binarisierten Netzwerken funktioniert, werden nicht-Gradienten-basierte Technologien relevant (siehe Nevergrad und PyGAD ), wie genetische Algorithmen oder andere Gradienten-freie Technologien. Obwohl Backpropagation in den meisten Fällen viel effizienter ist als Lösungen ohne Gradienten, können 1-Bit-Netzwerke viel effizienter betrieben werden als ihre Gleitkomma-Gegenstücke. Es könnte also sein, dass wir mit Backpropagation das optimale Netzwerk mithilfe von Gleitkommazahlen zehnmal schneller finden als beispielsweise mit genetischen Algorithmen. Wenn das 1-Bit-Netzwerk jedoch 20-mal schneller läuft, ist das Training mithilfe genetischer Algorithmen immer noch doppelt so schnell. Zu untersuchen, wie effektiv 1-Bit-Netzwerke mit Gradienten-freien Methoden trainiert werden können, könnte ein sehr interessantes Forschungsthema sein.


Ein weiterer Grund, warum dieses Thema so faszinierend ist, besteht darin, dass diese Netzwerke eher den neuronalen Netzwerken ähneln, die im natürlichen Gehirn vorkommen (biologisch plausibel). Daher glaube ich, dass wir durch die Auswahl eines guten Gradienten-freien Trainingsalgorithmus und die Anwendung dieser 1-Bit-Netzwerke Systeme aufbauen können, die dem menschlichen Gehirn viel ähnlicher sind. Darüber hinaus eröffnet dies die Möglichkeit für technologische Lösungen über ASICs hinaus, die bisher nicht realisierbar waren, wie etwa analoge, lichtbasierte oder sogar biologisch basierte Prozessoren.


Es ist möglich, dass sich diese Richtung auf lange Sicht als Sackgasse erweist, aber im Moment ist ihr revolutionäres Potenzial offensichtlich, was sie zu einem vielversprechenden Forschungsweg für alle macht, die sich mit künstlicher Intelligenz befassen.