paint-brush
Die Herausforderungen, Kosten und Überlegungen beim Aufbau oder der Feinabstimmung eines LLMvon@edouarddarchimbaud
11,071 Lesungen
11,071 Lesungen

Die Herausforderungen, Kosten und Überlegungen beim Aufbau oder der Feinabstimmung eines LLM

von Edouard d'Archimbaud18m2023/09/01
Read on Terminal Reader
Read this story w/o Javascript

Zu lang; Lesen

Der Weg zum Aufbau oder zur Feinabstimmung eines LLM für Ihr Unternehmen kann komplex sein. Ihr Team braucht einen Leitfaden für den Anfang.

People Mentioned

Mention Thumbnail
featured image - Die Herausforderungen, Kosten und Überlegungen beim Aufbau oder der Feinabstimmung eines LLM
Edouard d'Archimbaud HackerNoon profile picture
0-item

Es ist keine Neuigkeit mehr, dass LLMs sich verändert haben und die Spielregeln für KI und Unternehmen in allen Branchen auch weiterhin verändern werden. Eine Studie von IBM ergab, dass CEOs zunehmend generative KI nutzen , um die Produktivität zu steigern und sich einen Wettbewerbsvorteil zu verschaffen. Die Studie, für die 3.000 CEOs aus der ganzen Welt befragt wurden, ergab, dass 75 % der CEOs glauben, dass das Unternehmen mit der fortschrittlichsten generativen KI einen Wettbewerbsvorteil haben wird.


Wenn Sie sich gefragt haben, wie Sie LLMs am besten nutzen und ob Sie sie erstellen oder optimieren sollten, möchten wir Ihnen in diesem Leitfaden zeigen, was Sie wissen müssen, um dies effektiv und effizient zu tun.


Zunächst schauen wir uns an, wie LLMs angewendet werden und auf welche Branchen sie den größten Einfluss haben können, damit Sie eine bessere Vorstellung davon bekommen, was Sie mit einem LLM erreichen können. Anschließend sprechen wir darüber, warum wir ein LLM aufbauen oder optimieren. Und schließlich teilen wir wichtige Überlegungen, Strategien und Best Practices, damit Ihr Team nach Ihrer Entscheidung eine klarere Perspektive haben kann.


Lassen Sie uns nun tiefer in die Frage eintauchen, wie LLMs voraussichtlich Branchen und Unternehmen verändern werden:

Wie LLMs Branchen verändern

Informationsindustrie

In einem aktuellen Arbeitspapier von Forschern von OpenAI, Open Research und der University of Pennsylvania wurde festgestellt, dass LLMs im Allgemeinen mehrere US-Märkte betreffen können, wobei die Informationsbranche aus folgenden Gründen wahrscheinlich am stärksten betroffen sein wird:

  • Die Informationsbranche verlässt sich stark auf die Kernkompetenzen von LLMs, wie Schreiben, Datenanalyse, Informationsabruf und Inhaltserstellung. Diese stimmen eng mit den Stärken generativer KI-Modelle überein.
  • Bei Aufgaben wie dem Verfassen von Artikeln, Berichten und anderen Inhalten können möglicherweise erhebliche Produktivitätssteigerungen erzielt werden, wenn LLMs autonom Entwürfe und Überarbeitungen erstellen.
  • Auch andere alltägliche Aufgaben in der Informationsbranche wie Suche, Datenverarbeitung, Content-Tagging/Metadatengenerierung und Kundensupport können durch LLMs erheblich unterstützt werden.
  • Informationsunternehmen verfügen oft über große Mengen an Textdaten, die zum Trainieren und Feinabstimmen von LLMs verwendet werden können, damit sie für ihre spezifischen Anwendungsfälle äußerst effektiv sind.
  • Die geringe physische Belastung der Arbeit in dieser Branche macht sie sehr gut für die Automatisierung durch Software geeignet.

Bankenindustrie

Unterdessen nennt eine Studie von McKinsey das Bankwesen als eine der Branchen, die dank LLMs die größten Auswirkungen verzeichnen können. Bei vollständiger Umsetzung der Anwendungsfälle rechnen sie damit, dass die Technologie einen jährlichen Mehrwert von 200 bis 340 Milliarden US-Dollar bringen wird.

  • LLMs können den Kundenservice verbessern, indem sie Antworten auf Kundenanfragen automatisieren und so das Volumen der von Menschen betreuten Kontakte reduzieren.
  • Sie können auch bei der Risikobewertung helfen, indem sie große Datenmengen analysieren, um Muster und Trends zu identifizieren, die auf potenzielle Risiken hinweisen könnten.
  • Darüber hinaus können LLMs Banken bei der Einhaltung regulatorischer Anforderungen unterstützen, indem sie regulatorische Änderungen verfolgen und Compliance-Verfahren automatisch entsprechend aktualisieren.

Pharma- und Medizinproduktindustrie

Interessanterweise behauptet dieselbe Studie von McKinsey auch, dass Pharmazeutika und Medizinprodukte dank Grundlagenmodellen und generativer KI gefördert werden könnten. Die Studie besagt, dass die Auswirkungen jährlich zwischen 60 und 110 Milliarden US-Dollar betragen könnten. Potenzial sehen sie insbesondere in der Wirkstoffforschung. Hier ist wie:

  • Bei der vorläufigen Arzneimittelentwicklung automatisieren Grundlagenmodelle die Auswahl potenzieller Chemikalien und ersetzen so die manuelle Inspektion von Zellkulturen. Foundation-Modelle gruppieren ähnliche experimentelle Bilder genau und helfen so bei der Auswahl vielversprechender Chemikalien für die weitere Analyse.
  • Bei der Indikationsfindung werden potenzielle Arzneimittelindikationen anhand der Krankengeschichten und Krankenakten von Patientengruppen identifiziert. Diese Modelle helfen dabei, klinische Ereignisse zu quantifizieren, Beziehungen herzustellen und die Ähnlichkeit zwischen Patientenkohorten und evidenzbasierten Indikationen zu messen. Das Ergebnis ist eine Liste von Indikationen mit höherer Erfolgswahrscheinlichkeit in klinischen Studien aufgrund der präzisen Zuordnung der Patientengruppen.
  • Unternehmen, die diesen Ansatz anwenden, verzeichnen hohe Erfolgsquoten bei Studien, wodurch der Übergang zu Phase-3-Studien beschleunigt wird.

Die Herausforderungen und Grenzen von LLMs

Doch während der Hype um Foundation-Modelle und LLMs Ideen für magische Lösungen hervorbringen kann, sind LLMs und Foundation-Modelle in Wirklichkeit nicht perfekt. Jeder, der ChatGPT oder andere LLMs auf dem Markt ausgiebig genutzt hat, hat gesehen, dass die Verwendung von LLMs, die sofort einsatzbereit sind, insbesondere bei domänenspezifischen Aufgaben scheitern kann. Hier sind einige Herausforderungen und Einschränkungen von LLMs:

Halluzinationen

Das vielleicht häufigste Problem, dem wir begegnen, sind Halluzinationen. Halluzinationen sind ein Phänomen, bei dem LLMs möglicherweise falsche Aussagen machen, die plausibel erscheinen. Es gibt zwei Arten von Halluzinationen: intrinsische und extrinsische. Intrinsische Halluzinationen treten auf, wenn das Modell fehlerhafte Logik verwendet, die den Eingaben des Benutzers zuwiderläuft, während extrinsische Halluzinationen auftreten, wenn das Modell den Kontext der Frage des Benutzers falsch versteht.

Speicherbeschränkungen

Foundation-Modelle wie GPT verfügen über ein kleines Kontextfenster und können nur eine begrenzte Anzahl von Zeichen als Eingabe akzeptieren, was für bestimmte Anwendungen möglicherweise nicht ideal ist. Ähnlich wie beim Menschen steigt mit zunehmender Länge der Eingabe auch die Schwierigkeit für das Modell, diese genau zu verarbeiten.

Katastrophales Vergessen

Katastrophales Vergessen ist ein Phänomen, das auftritt, wenn ein künstliches neuronales Netzwerk auf mehrere Aufgaben nacheinander trainiert wird und die entscheidenden Gewichte im Netzwerk für Aufgabe A geändert werden, um sie an die Ziele von Aufgabe B anzupassen. Dies kann dazu führen, dass das Netzwerk Aufgabe A vergisst. obwohl es das zuvor gut konnte.

Probleme mit der Datenqualität

LLMs, die hauptsächlich auf unbeschrifteten Daten trainiert werden, können anfällig für Verzerrungen sein, da die in ihrem Trainingsprozess verwendeten Daten möglicherweise keine genaue Darstellung der realen Datenverteilung sind. Dies liegt daran, dass sich die für das Training verwendeten verzerrten Daten möglicherweise in der Ausgabe des Modells widerspiegeln.

Diese Einschränkungen führen dazu, dass Unternehmen und Betriebe strategisch darüber nachdenken, wie sie mit LLMs arbeiten wollen. In der Tat haben LLMs ein enormes Potenzial, die Arbeitsweise von Unternehmen zu verändern, was ihnen einen größeren Mehrwert bieten kann, aber diese Herausforderungen müssen angegangen werden. Hier stellt sich möglicherweise die Frage nach dem Aufbau oder der Feinabstimmung eines bestehenden LLM.

Wann sollten Sie ein bestehendes LLM erstellen oder optimieren?

Erstellen Sie Ihr Large Language Model (LLM) von Grund auf

Wann ist es sinnvoll, ein LLM von Grund auf aufzubauen? Die Entwicklung eines eigenen LLM ist dann am sinnvollsten, wenn Sie einen ganz besonderen Anwendungsfall haben, den bestehende allgemeine LLMs nicht bedienen können, oder wenn das LLM zu einem Kernprodukt oder einem primären Geschäftstreiber für Ihr Unternehmen wird. Wenn Sie außerdem Zugriff auf eine große Menge wertvoller proprietärer Daten haben, wäre es auch sinnvoll, ein LLM aufzubauen, um diese zu Ihrem Vorteil zu nutzen und gleichzeitig den Datenschutz und die Sicherheit zu wahren.

Feinabstimmung eines LLM

Bei der Feinabstimmung eines LLM haben Sie zwei Möglichkeiten: Sie können auf vorhandene Open-Source-LLMs zurückgreifen oder die API kommerzieller LLMs verwenden. Ein kommerzielles LLM ist möglicherweise sinnvoller, wenn Ihr Team über weniger technisches Fachwissen verfügt, während ein Open-Source-Modell Ihnen mehr Kontrolle gibt. Allerdings sind mit der Feinabstimmung eines LLM Risiken verbunden. Sie müssen auf mögliche Vorurteile, Toxizität und Risiken für die Datensicherheit achten. Darüber hinaus können kommerzielle APIs die Anpassbarkeit der Modell- und Trainingsdaten sowie die Steuerung des Produkts selbst einschränken.

Wichtige Überlegungen beim Aufbau oder der Feinabstimmung eines bestehenden LLM

Ressourcenzuteilung

Unabhängig davon, ob Sie Feinabstimmungen vornehmen oder sich dafür entscheiden, ein LLM von Grund auf aufzubauen, seien Sie sich darüber im Klaren, dass Sie bereit sein müssen, erhebliche Ressourcen bereitzustellen, um Ihr Ziel zu erreichen. Der Aufbau eines LLM von Grund auf erfordert neben dem Zeit- und Finanzaufwand auch enorme Rechenleistung und die Suche nach dem richtigen Fachwissen.


Schätzungen zufolge kostete beispielsweise GPT-3 von OpenAI, ein großes Sprachmodell mit rund 175 Milliarden Parametern, über 4,6 Millionen US-Dollar . OpenAI investierte außerdem in einen Supercomputer von Microsoft , der über mehr als 285.000 CPU-Kerne und 10.000 GPUs verfügt. Die Erstellung des kleineren BloombergGPT-Modells von Bloomberg mit 50 Milliarden Parametern wird auf etwa 2,7 Millionen US-Dollar geschätzt. Diese Schätzungen decken nicht die Modelliteration ab, die zum Erstellen und Sicherstellen der Wirksamkeit dieser LLMs erforderlich ist.


Um die enorme Größe von LLMs effektiv bewältigen zu können, muss sichergestellt werden, dass die Daten angemessen bereinigt, gekennzeichnet, organisiert und effizient gespeichert werden. Bedenken Sie, dass die Verwaltung und Verarbeitung von Daten kostspielig sein kann, insbesondere angesichts der erforderlichen Infrastruktur, Tools und Dateningenieure.


Die Feinabstimmung eines LLM ist natürlich möglicherweise praktischer, da es weniger kostet als der Aufbau eines eigenen LLM. Die Kosten für die Feinabstimmung eines LLM hängen von mehreren Faktoren ab, darunter der Größe des Modells, der zur Feinabstimmung verwendeten Datenmenge und den verwendeten Rechenressourcen.


Die Kosten für die Feinabstimmung eines LLM können auch durch den verwendeten spezifischen Feinabstimmungsalgorithmus beeinflusst werden, und einige Algorithmen sind rechenintensiver als andere. Die Feinabstimmungsmodelle von OpenAI können zwischen 0,0004 und 0,0300 US-Dollar pro 1.000 Token kosten und hängen von der Art des Modells ab, das Sie zum Trainieren verwenden. Und danach fallen zusätzliche Kosten für die Nutzung von etwa 0,0016 bis 0,1200 US-Dollar pro 1.000 Token an.


Allerdings haben Fortschritte bei verschiedenen Feinabstimmungstechniken dazu geführt, dass die finanziellen und rechnerischen Kosten gesenkt werden können. Ein Beispiel ist Hugging Faces Einsatz des Ansatzes „Policy Evaluation with Fairness and Transparency“ zur Feinabstimmung von GPT-3 . Durch die Nutzung dieser Methode und der Bitsandbytes-Bibliothek hat Hugging Face gezeigt, dass es möglich ist, einen LLM zu optimieren, der deutlich größer ist als der verfügbare GPU-Speicher. Wir werden in diesem Artikel einige weitere Methoden besprechen.

Technische Fachkentnis

Es sollte nicht überraschen, dass für den Aufbau und die Feinabstimmung eines LLM fortgeschrittenes technisches Fachwissen erforderlich ist. Ein leitender Ingenieur für maschinelles Lernen verfügt über das Wissen, das zur Feinabstimmung eines LLM erforderlich ist. Sie benötigen jedoch ein Team wirklich außergewöhnlicher Ingenieure für maschinelles Lernen, um Ihr eigenes LLM von Grund auf richtig zu leiten und aufzubauen. Werfen Sie einen Blick auf die Profile führender Wissenschaftler, Forscher und Architekten von KI-Unternehmen wie OpenAI, Meta und Google AI, um eine bessere Vorstellung davon zu bekommen, welche Art von Ingenieuren Sie in Ihrem Team benötigen, um das LLM Ihres Unternehmens aufzubauen kratzen. Sie müssen außerdem sicherstellen, dass diese Forscher über fundierte Fachkenntnisse Ihrer Branche und Ihres Unternehmens verfügen.

Datengröße, Qualität und ethische Überlegungen

Müll rein, Müll raus


Es ist bekannt, dass die Erstellung eigener LLMs von Grund auf große Datenmengen erfordert. Beispielsweise verwendete LLaMA einen Trainingsdatensatz mit 1,4 Billionen Token und einer Größe von 4,6 Terabyte. Kleinere Versionen von LLaMA wurden auf 1 Billion Token trainiert. Im Fall von GPT wurden 1,5 Billionen Token verwendet.


Für die Feinabstimmung von LLMs benötigen Sie je nach Methode und Ressourcen weniger. Ein Beispiel wäre Googles Med-PaLM 2, das eine Weiterentwicklung des PaLM LLM war. Dem Papier zufolge verwendete das KI-Team eine Feinabstimmung der Anweisungen und benötigte 193.000 Beispiele, was ungefähr 19 bis 39 Millionen Token entspräche. Med-PaLM 2 setzte im Vergleich zu seinem Vorgänger einen neuen Stand der Technik, indem es 86,5 % im MedQA-Datensatz erreichte, der zur Messung der Leistung von Med-PaLM und PaLM verwendet wurde.


Aber über die Datengröße hinaus müssen Unternehmen auch sicherstellen, dass sie die richtigen Datenqualitätsmaßnahmen ergriffen haben, denn „Garbage rein, Garbage out“ gilt auch bei großen Sprachmodellen, die riesige Mengen an Trainingsdaten verwenden.


Bei der Verwendung proprietärer Daten müssen Unternehmen die folgenden Aufgaben klären, um sicherzustellen, dass Qualität und Ethik für effektivere Modelle einem hohen Standard entsprechen:


  1. Datendeduplizierung und -bereinigung: Bei diesem Prozess werden doppelte Einträge im Datensatz identifiziert und entfernt, um sicherzustellen, dass die Daten korrekt und zuverlässig sind. Dazu gehört auch die Korrektur von Fehlern, Inkonsistenzen und Ungenauigkeiten in den Daten, wie etwa fehlende Werte oder falsche Formatierungen. Dieser Schritt ist von entscheidender Bedeutung, um zu vermeiden, dass das Modell auf falschen oder redundanten Daten trainiert wird, was zu einer schlechten Modellleistung führen kann.
  2. Datenmoderation: Unternehmen müssen einen Prozess zur Moderation der Daten einrichten, die zum Trainieren ihrer Modelle verwendet werden. Dies könnte eine manuelle Überprüfung der Daten, den Einsatz automatisierter Tools oder idealerweise eine Kombination aus beidem umfassen, um unangemessene oder schädliche Inhalte herauszufiltern. Durch eine effektive Datenmoderation wird sichergestellt, dass das Modell nicht lernt, solche Inhalte selbst zu generieren.
  3. Datenschutz: Unternehmen müssen sicherstellen, dass ihre Daten Datenschutzstandards respektieren und relevanten Vorschriften wie DSGVO oder CCPA entsprechen. Dies könnte die Anonymisierung personenbezogener Daten, die Einholung der erforderlichen Genehmigungen für die Datennutzung und die Implementierung sicherer Datenspeicherungs- und -verarbeitungspraktiken umfassen. Dies ist nicht nur aus ethischen Gründen von entscheidender Bedeutung, sondern auch, um rechtliche Probleme zu vermeiden.
  4. Datenverzerrungen: Daten, die zum Trainieren von Modellen verwendet werden, können häufig Verzerrungen enthalten, die das Modell dann lernen und aufrechterhalten kann. Organisationen müssen Prozesse implementieren, um diese Verzerrungen in den Daten zu identifizieren und zu mildern. Dies könnte verschiedene Datenerfassungsstrategien, Tools zur Verzerrungsprüfung und Ansätze zur Verzerrung der Daten umfassen. Die Beseitigung von Datenverzerrungen ist für faire Gebäudemodelle von wesentlicher Bedeutung und führt zu zuverlässigen Ergebnissen für verschiedene Bevölkerungsgruppen.

Modellleistung

Abhängig von den Zielen der Organisation kann die Feinabstimmung eines LLM tatsächlich ausreichen. Es gibt verschiedene Möglichkeiten, ein LLM an die Bedürfnisse Ihres Unternehmens anzupassen und seine Leistung zu verbessern. Wir empfehlen jedoch, eine Rückwärtsmethode zu verwenden, um den optimalen Ansatz zu ermitteln. Diese Methode trägt auch dazu bei, die Kosten für die Feinabstimmung eines LLM zu senken, denn je mehr man bei diesen Schritten „rückwärts“ geht, desto kostspieliger können die Techniken werden.


Lassen Sie uns dies auf einfachste Weise aufschlüsseln.


Normalerweise beginnt das Training eines Basismodells oder eines LLM damit, dass Ingenieure für maschinelles Lernen ein unbeaufsichtigtes Training absolvieren, dann ein überwachtes Training zur Feinabstimmung des LLM und schließlich eine Eingabeaufforderung und eine sofortige Optimierung, um die erforderliche Ausgabe zu erhalten. Natürlich gibt es dazwischen verschiedene Schritte, aber wir bleiben bei diesen drei Schritten.

Feinabstimmung eines LLM


Unser empfohlener Weg zur Feinabstimmung eines LLM wäre der Rückwärtsgang. Dabei beginnen Sie zunächst mit der Prompt-Optimierung, die Prompt-Engineering und Prompt-Debugging umfasst. Dies würde die geringsten Ressourcen verbrauchen. Nehmen wir jedoch an, dass das LLM stagniert oder nicht die gewünschte Leistung erbringt. In diesem Fall gehen Sie zur Feinabstimmung unter Aufsicht/Anleitung über, die Methoden wie RLHF, Retrieval-Augmented Generation oder Transfer Learning umfassen kann.


Beispielsweise haben wir die Genauigkeit von DinoV2 von 83 auf 95 % bei einem bestimmten Anwendungsfall zur Erkennung von Defekten durch Transferlernen erhöht, indem wir nur 200 beschriftete Beispiele verwendet haben.


Wenn schließlich alles andere fehlschlägt, besteht der nächste Schritt darin, unbeaufsichtigte Methoden einzusetzen und sicherzustellen, dass wir über einen geeigneten Datensatz für das Vortraining des Modells verfügen.

Wartung und Updates

Wie die meisten Modelle, die in dynamischen Umgebungen eingesetzt werden, unabhängig davon, ob sie erstellt oder fein abgestimmt sind, erfordern LLMs eine Wiederholung, um mit neuen Daten effektiv zu bleiben. Bei der Wiederholung wird ein Modell an neue Daten oder aktualisierte Ziele angepasst. Unternehmen müssen robuste Prozesse für die routinemäßige Wiederholung von Modellen mithilfe neuer Datensätze erstellen, typischerweise iterativ, einschließlich der Erstellung/Feinabstimmung, des Testens und der Bereitstellung in der Produktion.


Unternehmen, die erfolgreiche LLMs wie OpenAI entwickelt haben, veröffentlichen kontinuierlich neue Versionen von GPT-3. Während ChatGPTs Trainingsdatenschluss September 2021 ist, verwendet OpenAI frische Daten aus dem Benutzerverhalten, um die Vorhersagefähigkeiten des Modells zu verbessern , Verzerrungen zu reduzieren und weniger Schaden anzurichten.

Ausrichtung der Geschäftsstrategie

Ihr Geschäftsziel ist auch ein entscheidender Faktor dafür, ob der Aufbau oder die Feinabstimmung eines LLM sinnvoll wäre. Überlegen Sie, wie die Fähigkeiten von LLMs mit der umfassenderen strategischen Vision des Unternehmens harmonieren. Auf diese Weise können Sie das volle Potenzial dieser leistungsstarken Tools ausschöpfen und sich gleichzeitig auf ihre Kerngeschäftsziele konzentrieren. Einige Beispiele wurden in den oben in diesem Artikel genannten Branchen angeführt. Lassen Sie uns nun einige der Aufgaben besprechen, bei denen LLMs hervorragende Leistungen erbringen, und ihre strategischen Auswirkungen auf verschiedene Branchen:


  1. Zusammenfassung: LLMs können wichtige Punkte und Zusammenfassungen aus umfangreichen Dokumenten oder Berichten extrahieren. Dies kann in Branchen, in denen große Textdatenmengen verarbeitet werden, von enormem Wert sein. Beispielsweise können Marktforschungsunternehmen, die umfangreiche Berichte erstellen und analysieren, LLMs verwenden, um prägnante Zusammenfassungen zu erstellen, wodurch es einfacher wird, Erkenntnisse zu gewinnen und Erkenntnisse mit Kunden zu teilen.
  2. Textvervollständigung: LLMs können Text basierend auf gegebenen Eingabeaufforderungen vorhersagen und generieren, der zur Unterstützung bei der Erstellung von Inhalten verwendet werden kann. Branchen, die sich mit der Erstellung von Inhalten oder Kommunikationsdiensten befassen, können dies nutzen, um ihre Produktivität und Kreativität zu steigern.
  3. Fragen und Antworten (Q&A): LLMs können Fragen basierend auf einem bereitgestellten Kontext beantworten, was sie für den Kundenservice in zahlreichen Branchen nützlich macht. Banken können beispielsweise LLM-basierte Chatbots einsetzen, um Kundenanfragen rund um die Uhr zu bearbeiten, ihren Kunden schnelle und genaue Informationen bereitzustellen und die Arbeitsbelastung des Kundendienstpersonals zu reduzieren.
  4. Chatbots: Über Fragen und Antworten hinaus können LLMs interaktivere und gesprächigere Chatbots ermöglichen, die in der Lage sind, den Kontext zu verstehen und eine Konversation über mehrere Runden hinweg aufrechtzuerhalten. Dies kann das Kundenerlebnis in Branchen wie Einzelhandel, Telekommunikation und Gastgewerbe verbessern, in denen die Interaktion mit den Verbrauchern von entscheidender Bedeutung ist.
  5. Übersetzung: LLMs können auch Texte zwischen verschiedenen Sprachen übersetzen und so Kommunikationsbarrieren in globalen Unternehmen abbauen. Diese Fähigkeit kann Branchen wie dem Tourismus, dem internationalen Handel und globalen Technologieunternehmen zugute kommen, die in verschiedenen Sprachregionen tätig sind.

Bewertung großer Sprachmodelle

Unabhängig davon, ob Sie ein LLM aufbauen oder verfeinern, ist die Auswahl des richtigen LLM oft der erste Schritt. Ja, selbst beim Aufbau eines LLM ist es üblich, sich die Architektur eines bereits vorhandenen Modells anzusehen und von dort aus zu beginnen. Wie auch immer Sie sich entscheiden, die Teams müssen mit mehreren Modellen experimentieren und diese bewerten, um den besten Ausgangspunkt zu finden.


Auch die Evaluierung von LLMs bringt eigene Herausforderungen mit sich. Schließlich handelt es sich immer noch um ein fortlaufendes Forschungsgebiet, sodass es keine strikte Standardisierung oder Systematisierung der Bewertung dieser Modelle gibt.


Es gibt natürlich von Communities wie HuggingFace erstellte Bestenlisten, die Ihnen einen allgemeinen Überblick über die Leistung eines Modells geben können. Aber was in Bestenlisten gut funktioniert, lässt sich möglicherweise nicht so einfach auf Ihren spezifischen Anwendungsfall übertragen. LLMs werden oft anhand von Benchmark-Datensätzen bewertet, ihre Leistung spiegelt jedoch möglicherweise nicht genau ihre Leistung in realen Szenarien wider, die viel vielfältiger und unvorhersehbarer sein können.


Es gibt zwei Ansätze zur Bewertung großer Sprachmodelle: einen quantitativen und einen qualitativen Ansatz. Beide haben ihre Vorbehalte.

Quantitative Evaluation

Bei der quantitativen Bewertung werden häufig Metriken des maschinellen Lernens wie Ratlosigkeit, BLEU, Kreuzentropieverlust usw. verwendet. Tools wie die OpenAI-Bewertungsbibliothek, das Python-Paket lm-eval von EleutherAI und die Holistic Evaluation of Language Models (HELM) ermöglichen Benutzern die Bewertung ihrer Modelle anhand zahlreicher Benchmarks quantitativ.


Während die quantitative Auswertung unkompliziert ist, helfen diese Metriken den Benutzern möglicherweise nicht unbedingt bei der Auswahl eines geeigneten Modells für ihre spezifische Aufgabe. Benutzer benötigen häufig ein Modell, das sich für ihre spezifische Aufgabe auszeichnet, beispielsweise das Verfassen eines Rechtsdokuments oder die Analyse des Finanzberichts eines Unternehmens, und nicht ein Modell, das den nächsten Token mit höchster Genauigkeit vorhersagen kann.

Qualitative Bewertung

Bei der qualitativen Bewertung werden LLMs anhand spezifischer Aufgaben anhand von Kriterien wie Kohärenz, Voreingenommenheit, Kreativität und Zuverlässigkeit bewertet. Diese manuelle Bewertung ist relativ langsam, da die Geschwindigkeit und Verfügbarkeit menschlicher Bewerter zu Engpässen führen kann. Es ist jedoch möglich, den Prozess zu optimieren, indem bei der Datenkennzeichnung dieselben Automatisierungstechniken angewendet werden: aktives Lernen, programmatische Qualitätssicherung, automatische Qualitätssicherung usw.


Um das beste LLM für die Feinabstimmung oder als Grundlage zu finden, empfiehlt sich eine Kombination aus quantitativer und qualitativer Bewertung unter Verwendung des spezifischen Datensatzes Ihres Unternehmens.

Empfohlene Vorgehensweise

Skalierungsgesetze verstehen

Skalierungsgesetze beim maschinellen Lernen konzentrierten sich früher auf die Vergrößerung der Modellgröße gegenüber der Datensatzgröße, da die Rechenbudgets zunahmen. Dabei wurde davon ausgegangen, dass größere Modelle mehr Erkenntnisse gewinnen und eine bessere Leistung erbringen könnten, selbst wenn die Datenmenge konstant bliebe.


Doch im Jahr 2022 stellte DeepMind diesen Ansatz in Frage und schlug vor, dass Modelle im Allgemeinen unzureichend trainiert seien und daher die Größe der Datensätze mit der Modellgröße wachsen sollte. Den Erkenntnissen von DeepMind zufolge sollten sich die Modell- und Datensatzgrößen bei jeder Verzehnfachung der Rechenleistung etwa verdreifachen. Dies impliziert, dass aktuelle Modelle unterhalb der optimalen Daten-/Rechenkurve liegen und eine einfache Vergrößerung nicht zu besseren Ergebnissen führen würde, ohne dass gleichzeitig mehr Daten vorhanden wären.


Diese neuen Skalierungsgesetze empfehlen, zunächst die maximale Größe hochwertiger Datensätze auf der Grundlage der verfügbaren Informationen zu bestimmen. Anschließend kann die optimale Modellgröße für diesen Datensatz basierend auf der verfügbaren Rechenleistung unter Verwendung der datenoptimalen Skalierungsgesetze von DeepMind ausgewählt werden. Dabei kommt es darauf an, Modelle nicht beliebig groß zu machen, sondern anhand der Daten die richtige Balance zu finden. Darüber hinaus erfordern größere Datensätze Fachwissen zum Sammeln und Diversität zur Verbesserung der Generalisierung, was dem Prozess eine weitere Ebene der Komplexität verleiht.

Datenqualität

Einflussfaktoren der Datenqualität


Unabhängig davon, ob Sie eine Feinabstimmung vornehmen oder ein LLM erstellen, sind die Modelle nur so gut wie die Daten, die ihnen zur Verfügung gestellt werden. Daher müssen Ihre Daten repräsentativ und umfassend aufbereitet sein. Die Vielfalt der Datenquellen ist selbst für domänenspezifische LLMs von Vorteil.


Für Googles Med-PaLM 2 waren beispielsweise Hunderte bis Tausende von Beispielen aus mehreren Gesundheits- und medizinischen QS-Datensätzen erforderlich, damit das Modell richtig abgestimmt werden konnte. Und um BloombergGPT zu erstellen, bestand der verwendete Datensatzmix aus 51 % Finanzdaten und 49 % allgemeinen Domänendaten für thematische Vielfalt. In beiden Fällen führten die Forscher eine umfassende Datenkuratierung durch, um sicherzustellen, dass hochwertige und relevante Daten für die Erstellung effektiver Modelle verwendet wurden.

Vorab trainieren und in inkrementellen Schritten experimentieren

Beim Aufbau oder der Feinabstimmung eines LLM gibt es keinen direkten Weg. Wie bei den meisten maschinellen Lern- oder KI-Bemühungen ist es immer eine gute Maßnahme, klein anzufangen . Wenn Sie mit einem kleineren Modell auf einem kleineren Datensatz beginnen, wird das Experimentieren einfacher. Durch die Iteration und Einführung inkrementeller Änderungen an der Modellarchitektur, z. B. Breite, Tiefe, Sparsity usw., kann Ihr Team deren Auswirkungen leichter bewerten. Sie können mit älteren bestehenden Modellen beginnen, diese an Ihre Bedürfnisse anpassen und von dort aus beginnen. Sobald Ihr kleineres Modell gut funktioniert, können Sie die Modell- und Datensatzgröße schrittweise erhöhen.


Denken Sie daran, Snapshots Ihres Modells als Backup zu speichern, falls ein Fallback erforderlich ist. Rückschläge sind unvermeidlich, egal ob Sie etwas aufbauen oder optimieren, daher ist es wichtig, Probleme vorherzusehen.

Milderung der Instabilität

Dies führt uns zu der entscheidenden zeitsparenden Praxis der Minderung von Instabilität. Je größer das Modell, desto schwieriger ist die Wartung. Über die Über- und Unteranpassung hinaus kann Ihr Modell Problemen wie verschwindenden oder explodierenden Farbverläufen, Modenkollaps, Verlustspitzen, katastrophalem Vergessen und Hardwareeinschränkungen unterliegen.


Wir haben bereits über das katastrophale Vergessen gesprochen, das auftritt, wenn ein Modell bei einer vorherigen Aufgabe schlecht abschneidet, nachdem ein neuer Aufgabentyp eingeführt wurde. Verschwindende oder explodierende Gradienten sind häufige Probleme beim Training tiefer neuronaler Netze, wenn die Gradienten zu klein oder zu groß werden, was zu einer Verlangsamung oder Instabilität des Lernprozesses führt. Der Moduskollaps tritt in generativen Modellen auf und geschieht, wenn das Modell trotz unterschiedlicher Eingaben dieselben Ausgaben generiert. Verlustspitzen beziehen sich auf immer schlechtere Vorhersagen des Modells. Und schließlich kann die Arbeit mit LLMs eine Herausforderung für die Hardware sein und zu Ausfällen führen.


Es gibt mehrere Möglichkeiten, wie Sie Instabilitäten vorbereiten oder zumindest abmildern können. Diese sind nicht bahnbrechend, aber Standardpraktiken, die Sie möglicherweise auch in verschiedenen Deep-Learning-Anwendungen sehen:


Stapelgröße – Im Allgemeinen wird empfohlen, die größte Stapelgröße zu verwenden, die in Ihren GPU-Speicher passt. Größere Batchgrößen bieten Vorteile hinsichtlich der Recheneffizienz, der Speichernutzung und möglicherweise einer genaueren Gradientenschätzung. Sie können die parallelen Verarbeitungsfähigkeiten von GPUs besser nutzen, was zu schnelleren Trainingszeiten führt.


Verwenden Sie Regularisierungstechniken – Regularisierungstechniken wie Dropout und Weight Decay können dazu beitragen, eine Überanpassung oder Modellinstabilität zu verhindern.


Batch-Normalisierung – Batch-Normalisierung kann dazu beitragen, die interne Kovariatenverschiebung zu reduzieren und so eine schnellere und stabilere Konvergenz während des Trainings zu ermöglichen. Es trägt auch dazu bei, das Problem des verschwindenden Gradienten zu lindern, indem sichergestellt wird, dass die Gradienten reibungsloser durch das Netzwerk fließen.


Auswahl der richtigen Gewichtsinitialisierung – Die Gewichtsinitialisierung spielt eine entscheidende Rolle bei der Minderung von Trainingsinstabilität und der Gewährleistung eines effektiven Lernens. Ein gängiger Ansatz zur Gewichtsinitialisierung besteht darin, kleines Gaußsches Rauschen zu verwenden. Dabei werden die Gewichte zufällig aus einer Gaußschen Verteilung mit einem Mittelwert von Null und einer kleinen Standardabweichung initialisiert. Durch das Hinzufügen von Zufallsrauschen erhalten die Gewichte eine anfängliche Diversität, sodass das Modell während des Trainings verschiedene Lösungen erkunden kann.


Datenerweiterung – Wenn Ihr Modell Schwierigkeiten bei der Verallgemeinerung hat und zu einer Überanpassung neigt, kann die Datenerweiterung dazu beitragen, dies zu mildern, indem sie Variationen in die Trainingsdaten einführt und die Robustheit des Modells verbessert.


Lernratenplanung – Verringern Sie Ihre Lernrate im Laufe der Zeit schrittweise, um Ihre Verluste zu verringern und die Modellstabilität so weit wie möglich aufrechtzuerhalten. Sie können den Stufenabfall oder den exponentiellen Abfall verwenden. Bei einem schrittweisen Abfall verringern Sie die Lernrate in regelmäßigen Abständen um einen Faktor, während der exponentielle Abfall die Lernrate exponentiell verringert.

Abschluss

Da Unternehmen immer mehr die Auswirkungen von LLMs erkennen, ist es nur sinnvoll, dass sie sich fragen, wie sie dieses wertvolle Instrument am besten nutzen können. Die Auswahl des richtigen LLM und dessen Feinabstimmung auf die Anforderungen Ihres Unternehmens ist möglicherweise die einfachere Option. Es sind jedoch noch verschiedene Überlegungen erforderlich, um das Modell effektiv und so effizient wie möglich zu optimieren.


Zunächst muss Ihr Team in der Lage sein, verschiedene LLMs richtig zu bewerten, um den besten Ausgangspunkt auszuwählen. Sie sollten mit dem Experimentieren mit dem Modell vertraut sein. Um effizient zu sein, benötigen sie hochwertige Daten und Best Practices im Hinterkopf, wenn sie eine Strategie für den Aufbau oder die Feinabstimmung eines LLM entwickeln.


So oder so ist es ein komplexes und ehrgeiziges Projekt, aber wie wir bereits gesehen haben, haben LLMs ein beeindruckendes Wertschöpfungspotenzial.

Verweise:

[1] IBM, CEOs begrüßen generative KI, da Produktivität ganz oben auf ihrer Agenda steht (2023), IBM Newsroom

[2] T. Eloundou, S. Manning, P. Mishkin, D. Rock, GPTs sind GPTs: An Early Look at the Labour Market Impact Potential of Large Language Models (2023), arXiv:2303.10130v4 [econ.GN]

[3] McKinsey & Company, Das wirtschaftliche Potenzial generativer KI: Die nächste Produktivitätsgrenze (2023), McKinsey Digital Insights

[4] C. Li, Demystifying GPT-3 (2023), Lambda Labs Blog

[5] J. Langston, Microsoft kündigt neuen Supercomputer an, stellt Vision für zukünftige KI-Arbeit vor (2020), Microsoft News Source Features Innovation

[6] J. Sheikh, The ChatGPT of Finance is Here: Bloomberg is Combining AI and Fintech (2023), Forbes.com

[7] E. d'Archimbaud, 3 Ways to Adapt a Foundation Model to Fit Your Specific Needs (2023), Kili Technology.

[8] M. Heikkilä, Wie OpenAI versucht, ChatGPT sicherer und weniger voreingenommen zu machen (2023), MIT Technology Review.

[9] K. Singhal, T. Tu, J. Gottweis, R. Sayres, E. Wulczyn, L. Hou, K. Clark, S. Pfohl, H. Cole-Lewis, D. Neal, M. Schaekermann, A . Wang, M. Amin, S. Lachgar, P. Mansfield, S. Prakash, B. Green, E. Dominowska, B. Aguera y Arcas, N. Tomasev, Y. Liu, R. Wong, C. Semturs, S . Sara Mahdavi, J. Barral, D. Webster, GS Corrado, Y. Matias, S. Aziziy, A. Karthikesalingamy und V. Natarajany, Towards Expert-Level Medical Question Answering with Large Language Models (2023), arXiv:2305.09617 v1 [cs.CL] 16. Mai 2023.

[10] S. Wu, O. Irsoy, S. Lu, V. Dabravolski, M. Dredze, S. Gehrmann, P. Kambadur, D. Rosenberg, G. Mann, BloombergGPT: A Large Language Model for Finance (2023) , arXiv:2303.17564v2 [cs.LG]

[11] J. Hoffmann, S. Borgeaud, A. Mensch, E. Buchatskaya, T. Cai, E. Rutherford, D. de Las Casas, LA Hendricks, J. Welbl, A. Clark, T. Hennigan, E. Noland, K. Millican, G. van den Driessche, B. Damoc, A. Guy, S. Osindero, K. Simonyan, E. Elsen, JW Rae, O. Vinyals, L. Sifre, Training Compute-Optimal Large Language Models (2023), arXiv:2203.15556v1 [cs.CL]

[12] A. Pai, Leitfaden für Anfänger zum Erstellen eigener großer Sprachmodelle von Grund auf (2023), Analytics Vidhya.

[13] Weights & Biases, How to Train LLMs from Scratch (2023), Weights & Biases Whitepaper.