paint-brush
Stand des LLM im Jahr 2023: Eine kurze Zusammenfassung der neuesten Fortschrittevon@vndee
620 Lesungen
620 Lesungen

Stand des LLM im Jahr 2023: Eine kurze Zusammenfassung der neuesten Fortschritte

von Duy Huynh8m2024/01/26
Read on Terminal Reader

Zu lang; Lesen

Das Jahr 2023 markierte eine Zeit erheblichen Wachstums und Innovationen im Bereich der großen Sprachmodelle (LLMs).
featured image - Stand des LLM im Jahr 2023: Eine kurze Zusammenfassung der neuesten Fortschritte
Duy Huynh HackerNoon profile picture
0-item

Okay, es ist mehr als ein Jahr her, seit ChatGPT veröffentlicht wurde. Vor diesem Wendepunkt arbeiteten die Forschungsgemeinschaft und Branchenführer bereits aktiv an generativer KI, insbesondere im Bereich der Computer Vision, mit einer Reihe stabiler Verbreitungsergebnisse und Anwendungen. Um es kurz zusammenzufassen: 2022 könnte als das Jahr der stabilen Verbreitung und 2023 als das Jahr der großen Sprachmodelle (LLMs) angesehen werden.


Lama-Bande kam in die Stadt – Bild von DALL-E 3.


Der Beginn des Jahres 2023 markierte die Dominanz von LLMs, wobei ChatGPT bei weit verbreiteter Akzeptanz und Innovation führend war. In diesem Jahr verbreiteten sich LLMs in verschiedenen Sektoren und überbrückten effektiv die Lücke zwischen theoretischer Forschung und praktischen Industrieanwendungen. Lassen Sie uns die wichtigsten Meilensteine und Trends erkunden, die die LLM-Landschaft im Jahr 2023 geprägt haben, und einen Einblick in die Art und Weise erhalten, wie sie unseren Umgang mit Technologie revolutioniert haben.

Jahr des Open-Source-LLM

Im Jahr 2023 erlebten wir ein bemerkenswertes Jahr für Open-Source-Large-Language-Modelle (LLMs). Die bedeutendste Veröffentlichung war die LLaMa-Serie von Meta, die einen Präzedenzfall für die häufigen Veröffentlichungen danach darstellte, wobei jeden Monat, jede Woche und manchmal täglich neue Modelle auf den Markt kamen. Wichtige Akteure wie Meta, EleutherAI, MosaicML, TIIUAE und StabilityAI führten eine Vielzahl von Modellen ein, die auf öffentlichen Datensätzen trainiert wurden und den unterschiedlichen Bedürfnissen innerhalb der KI-Community gerecht wurden. Bei den meisten dieser Modelle handelte es sich um reine Decoder-Transformer, was den von ChatGPT etablierten Trend fortsetzte. Hier sind einige der bemerkenswertesten Modelle, die dieses Jahr veröffentlicht wurden:

  • LLaMa von Meta: Die LLaMa-Familie umfasst Modelle unterschiedlicher Größe, wobei das größte Modell 65 Milliarden Parameter aufweist, die auf 1,4 Billionen Token trainiert wurden. Bemerkenswert ist, dass die kleineren Modelle, insbesondere das mit 13 Milliarden Parametern, die auf 1 Billion Token trainiert wurden, eine überlegene Leistung zeigten, indem sie längere Trainingsperioden auf mehr Daten nutzten, und in einigen Benchmarks sogar größere Modelle übertrafen. Das 13B LLaMa-Modell übertraf GPT-3 in den meisten Benchmarks, und das größte Modell setzte bei seiner Veröffentlichung neue Leistungsmaßstäbe auf dem neuesten Stand der Technik.

  • Pythia von Eleuther AI: Pythia umfasst eine Suite von 16 Modellen mit 154 teilweise trainierten Kontrollpunkten, die darauf ausgelegt sind, kontrollierte wissenschaftliche Forschung an offen zugänglichen und transparent trainierten LLMs zu ermöglichen. Diese Reihe ist eine große Hilfe für Forscher, indem sie detaillierte Dokumente und eine umfassende Codebasis für die Ausbildung von LLMs bereitstellt.

  • MPT von MosaikML Und Falcon-Serie von TIIUAE: Beide wurden mit einer Vielzahl von Datenquellen trainiert, von 1T- bis 1,5T-Tokens, und erstellten Versionen mit 7B- und 30B-Parametern. Bemerkenswert ist, dass TIIUAE später im Jahr ein 180B-Modell veröffentlichte, das bisher größte Open-Source-Modell.

  • Mistral , Phi Und Orca : Diese Modelle verdeutlichen einen weiteren Trend im Jahr 2023 und konzentrieren sich auf das Training kleinerer und effizienterer Modelle, die für begrenzte Hardware- und Budgetbeschränkungen geeignet sind, was einen deutlichen Wandel hin zu Zugänglichkeit und Praktikabilität bei der Entwicklung von KI-Modellen markiert.


Llama 2 wird anhand öffentlich verfügbarer Online-Daten vorab trainiert. Mithilfe einer überwachten Feinabstimmung wird dann eine erste Version von Llama Chat erstellt. Als nächstes wird Llama Chat mithilfe von Reinforcement Learning from Human Feedback (RLHF) iterativ verfeinert, was Ablehnungsstichproben und proximale Richtlinienoptimierung (PPO) umfasst. - Llama 2: Open Source, kostenlos für Forschung und kommerzielle Nutzung

Kleines und effizientes Modell

Auch im Jahr 2023 haben wir die Veröffentlichung zahlreicher kleiner und effizienter Modelle erlebt. Der Hauptgrund für diesen Trend sind die unerschwinglich hohen Kosten für das Training großer Modelle für die meisten Forschungsgruppen. Darüber hinaus sind große Modelle aufgrund ihrer hohen Schulungs- und Bereitstellungskosten sowie ihres erheblichen Speicher- und Rechenleistungsbedarfs häufig für viele reale Anwendungen ungeeignet. Daher haben sich kleine und effiziente Modelle zu einem der Haupttrends des Jahres entwickelt. Wie bereits erwähnt, waren die Serien Mistral und Orca maßgeblich an diesem Trend beteiligt. Mistral überraschte die Community mit einem 7B-Modell, das seine größeren Pendants in den meisten Benchmarks übertraf, während die Phi-Serie mit nur 1,3B- bis 2,7B-Parametern sogar noch kleiner ist, aber dennoch eine beeindruckende Leistung liefert.

Mistral-7b-Leistung gegenüber der LLaMA-Serie – https://mistral.ai/news/anncreasing-mistral-7b/


Ein weiterer innovativer Ansatz ist Orca 2: Kleinen Sprachmodellen das Denken beibringen Dabei geht es darum, Wissen aus einem größeren Modell wie GPT-4 in ein kleineres zu destillieren. Im Gegensatz zu früheren Studien, die sich in erster Linie auf Nachahmungslernen stützten, um die Ergebnisse größerer Modelle zu reproduzieren, zielt Orca 2 darauf ab, „kleinere“ LLMs, insbesondere solche mit 7B- und 13B-Parametern, mit verschiedenen Argumentationsmethoden auszustatten, wie etwa einer schrittweisen Analyse und einem Rückruf -dann-Generierung von Techniken. Dieser Ansatz ermöglicht es diesen Modellen, für jede Aufgabe die am besten geeignete Methode zu identifizieren und anzuwenden, sodass Orca 2 Modelle ähnlicher Größe deutlich übertreffen und sogar mit Modellen konkurrieren kann, die fünf- bis zehnmal größer sind.

Ergebnisse zum Vergleich von Orca 2 (7B und 13B) mit LLaMA-2-Chat (13B und 70B) und WizardLM (13B und 70B) anhand verschiedener Benchmarks (in der Zero-Shot-Einstellung) zu Sprachverständnis, gesundem Menschenverstand und mehrstufigem Denken Denken, Lösen mathematischer Probleme usw. – Orca 2: Kleine Sprachmodelle lehren, wie man argumentiert


Der Erfolg kleiner und effizienter Modelle hängt maßgeblich von der Datenqualität und schnellen Aufmerksamkeitstricks ab. Obwohl Mistral die Einzelheiten seiner Trainingsdaten nicht offengelegt hat, haben verschiedene Untersuchungen und Modelle gezeigt, dass die Datenqualität für das Training effektiver Modelle von entscheidender Bedeutung ist. Eine der bemerkenswertesten Erkenntnisse in diesem Jahr ist LIMA: „Weniger ist mehr für die Ausrichtung“ Dies zeigte, dass ein von Menschen generierter, qualitativ hochwertiger Datensatz, der nur aus 1.000 Trainingsbeispielen besteht, zur Feinabstimmung verwendet werden kann, um das gleiche Modell zu übertreffen, das auf 50.000 von ChatGPT generierten Antworten optimiert wurde.

Low-Rank-Adaptionsoptimierung

Okay, lass uns darüber reden LoRA , das als der hellste Stern unter den im letzten Jahr eingeführten Methoden zur Parametereffizienten Feinabstimmung glänzte. Low-Rank Adaptation (LoRA) hat sich als bahnbrechend für die effiziente Feinabstimmung von LLMs erwiesen. Durch die Einführung einer Low-Rank-Matrizennäherung in vorab trainierte Modelle ermöglicht LoRA eine Parameter-effiziente Feinabstimmung, wodurch die Rechenlast und der Speicherbedarf erheblich reduziert werden. Dieser Ansatz spart nicht nur Ressourcen, sondern ermöglicht auch die Anpassung an verschiedene Anwendungen, ohne die Kernfunktionen des Basismodells zu beeinträchtigen.


Unterschied zwischen LoRA und regulärer Feinabstimmung – Praktische Tipps zur Feinabstimmung von LLMs mithilfe von LoRA (Low-Rank-Adaption)


LoRA besteht im Grunde darin, vorab trainierte Modellgewichte einzufrieren und trainierbare Schichten ( Rangzerlegungsmatrizen ) einzufügen. Diese Matrizen sind kompakt und dennoch in der Lage, die notwendigen Anpassungen an das Verhalten des Modells anzunähern, was eine effiziente Feinabstimmung ermöglicht und gleichzeitig die Integrität des ursprünglichen Modellwissens beibehält. Eine der am häufigsten verwendeten Varianten von LoRA ist QLoRA (Quantisierte Low-Rank-Adaption) . Es handelt sich um die speichereffiziente Version von Vanilla LoRA durch Quantisierung der Matrizen mit niedrigem Rang. Dieser Ansatz ermöglicht die Verwendung von Matrizen mit niedrigem Rang im Feinabstimmungsprozess, ohne den Speicherbedarf zu erhöhen und weniger rechenintensiv zu sein.


QLORA verbessert gegenüber LoRA, indem es das Transformatormodell auf 4-Bit-Präzision quantisiert und ausgelagerte Optimierer verwendet, um Speicherspitzen zu bewältigen. - Bild aus Papier: QLoRA (Quantized Low-Rank Adaption)

Mischung aus Experten

Der Expertenmischung (MoE) Der Ansatz stellt im vergangenen Jahr einen bedeutenden Sprung in der LLM-Architektur dar. MoE ist ein langjähriges Paradigma des maschinellen Lernens, das komplexe Probleme vereinfacht, indem es sie in kleinere, besser beherrschbare Teilprobleme unterteilt, die jeweils von einem speziellen Untermodell oder „Experten“ behandelt werden. Dies ist vergleichbar mit einem Team von Spezialisten, in dem jedes Mitglied in einem bestimmten Bereich hervorragende Leistungen erbringt. In einem MoE-Modell konzentriert sich jeder Experte auf eine bestimmte Teilmenge der Daten oder Aufgabe. Die Entscheidung, welcher Experte für eine bestimmte Eingabe verwendet werden soll, wird durch einen „Gating-Mechanismus“ getroffen, der als Verkehrsdirektor fungiert und Aufgaben an den am besten geeigneten Experten weiterleitet. Mit dieser Methode können MoE-Modelle ein breites Spektrum an Aufgaben effizient und genau bewältigen. MoE ist besonders vorteilhaft, da es die Stärken verschiedener Modelle kombiniert und so zu einer verbesserten Leistung bei komplexen Aufgaben führt, die mit einem einzelnen, einheitlichen Modell möglicherweise nur schwer zu bewältigen sind. Es ist vergleichbar mit einem Team von Spezialisten, das Ihnen zur Verfügung steht und sicherstellt, dass jeder Aspekt eines Problems von jemandem mit dem erforderlichen Fachwissen verwaltet wird, was zu ausgefeilteren und effektiveren Lösungen führt.

MoE-Schicht aus Papier Outrageously Large Neural Networks: The Sparsely-Gated Mixture-of-Experts Layer, 2017.


Eines der bemerkenswertesten MoE-Modelle, die letztes Jahr veröffentlicht wurden, ist Mixtral-8x-7B , das durch die Kombination von acht kleineren Modellen mit jeweils 7B-Parametern unter Verwendung des MoE-Ansatzes eine beeindruckende Leistung erzielte. Es gibt auch Gerüchte, dass es sich bei GPT-4 um ein MoE-Modell handeln könnte, das aus acht Expertenmodellen mit jeweils 220 Milliarden Parametern besteht.

Mixtral-8x-7b-Leistung - Mixtral-8x-7B

Von der Sprache zu allgemeinen Grundlagenmodellen

LLMs entwickeln sich zu allgemeinen Grundlagenmodellen und erweitern ihre Fähigkeiten über die Sprachverarbeitung hinaus. Dieser Übergang bedeutet eine Verlagerung hin zu Modellen, die nicht nur Text, sondern auch Code, visuelle Inhalte, Audio und mehr verstehen und generieren können. Letztes Jahr sahen wir die Einführung von Modellen wie LLaVA und GPT-4 für das Sehen, das beeindruckende Fähigkeiten beim Verstehen visueller Inhalte bot. Dies hat vielversprechende Forschungen auf dem Gebiet der allgemeinen Fundamentmodelle ausgelöst. In naher Zukunft werden allgemeine Grundlagenmodelle in der Lage sein, die Welt um sich herum zu sehen, zu hören und zu verstehen und so natürlichere und intuitivere Interaktionen mit Menschen zu ermöglichen.


Ein Beispiel aus dem LLaVA-Projekt.

Mit Werkzeugen ausgestattete Agenten

Die Integration von LLMs mit verschiedenen Tools und Plattformen macht KI zugänglicher und praktischer für den täglichen Gebrauch. Mit diesen Tools ausgestattete Agenten werden auf spezifische Aufgaben zugeschnitten, die von der Codierungsunterstützung bis zum kreativen Schreiben reichen, wodurch KI zu einem unverzichtbaren Bestandteil vieler professioneller Arbeitsabläufe wird. Möglich wurde diese Entwicklung durch die Denk- und Handlungsfähigkeiten von LLMs. Diese Art von Funktion wird im Folgenden häufig als Funktionsaufruf bezeichnet Reagieren Rahmen. Es gibt auch viele auf Datensätzen trainierte Modelle, die Funktionsaufrufe umfassen, um diese Funktion zu aktivieren. Mit dieser Funktionalität können Entwickler LLM-Agenten erstellen, die eine Vielzahl einfacher Aufgaben und Arbeitsabläufe automatisieren können.


Vergleich der ReAct-Methode mit anderen Aufforderungstechniken – ReAct: Synergizing Reasoning and Acting in Language Models

OpenAI dominiert immer noch die Branchenlandschaft

OpenAI dominiert weiterhin die Branchenlandschaft und behält seine Führungsposition in Bezug auf Forschung und Anwendung. Der GPT-4 und das Neue GPT-Shop Die Funktion in ChatGPT bleibt der Branchenstandard und bietet qualitativ hochwertige generative KI-Anwendungen, die ihresgleichen suchen und einzigartig sind, und derzeit gibt es keine Konkurrenz, die auch nur annähernd annähernd vergleichbar ist. OpenAI hat durch die Organisation des ersten Projekts auch erhebliche Unterstützung für seine Benutzergemeinschaft gezeigt OpenAI-Entwicklertag und die Bereitstellung verschiedener entwicklerfreundlicher Funktionen im Jahr 2023. Anthropic erweist sich als einer der vielversprechendsten Konkurrenten, obwohl sein Flaggschiff LLM, Claude , ist noch nicht allgemein verfügbar. Ein weiterer Technologieriese, Google, wurde veröffentlicht Zwillinge im letzten Jahr, was Berichten zufolge im Vergleich zur GPT-Serie von OpenAI ziemlich beeindruckend war. Allerdings hat es in der Community noch nicht genügend Anklang gefunden. Wir werden sehen, was im Jahr 2024 passiert, wenn die Veröffentlichung der größten Version von Gemini geplant ist.


OpenAI Dev Day – https://www.youtube.com/watch?v=U9mJuUkhUzk

Abschluss

Das Jahr 2023 markierte eine Zeit erheblichen Wachstums und Innovationen im Bereich der großen Sprachmodelle (LLMs). Von der Demokratisierung der KI durch Open-Source-Modelle bis hin zur Entwicklung effizienterer und spezialisierterer Systeme sind diese Fortschritte nicht nur technische Meisterleistungen, sondern auch Schritte, um KI in verschiedenen Bereichen zugänglicher und anwendbarer zu machen. Mit Blick auf die Zukunft bleibt das Potenzial dieser Technologien, Industrien zu verändern und die menschlichen Fähigkeiten zu verbessern, weiterhin eine spannende Perspektive. Im Jahr 2024 erwarten wir noch weitere bemerkenswerte Meilensteine: Meta kündigt Pläne zur Schulung von LLaMA-3 an und plant, es als Open-Source-Lösung bereitzustellen. Auch in der Industrielandschaft besteht großes Interesse daran, ob Giganten wie Google oder Start-ups wie Anthropic OpenAI übertreffen können.


Besuchen Sie meinen persönlichen Blog und abonnieren Sie ihn für weitere Artikel.