3,939 Lesungen

Warum die Integration ressourcenarmer Sprachen in LL.M. für eine verantwortungsvolle KI unerlässlich ist

von Magdalena Konkiewicz5m2024/04/27

Zu lang; Lesen

Der Artikel untersucht die Herausforderungen, denen ressourcenarme Sprachen beim Zugriff auf große Sprachmodelle (LLMs) gegenüberstehen, und präsentiert innovative Strategien, wie die Erstellung hochwertiger Feinabstimmungsdatensätze, um die LLM-Leistung zu verbessern, wobei der Schwerpunkt insbesondere auf Swahili als Fallstudie liegt. Diese Fortschritte tragen zu einem umfassenderen KI-Ökosystem bei und unterstützen sprachliche Vielfalt und Zugänglichkeit.

featured image - Warum die Integration ressourcenarmer Sprachen in LL.M. für eine verantwortungsvolle KI unerlässlich ist

‘A robot learning in an african class room’ Image created by HackerNoon AI Image Generator

Ressourcenarme Sprachen (LRLs) in großen Sprachmodellen (LLMs)

In den letzten Jahren hat die Einführung von Large Language Models (LLMs) zu erheblichen Veränderungen im Alltag der Verbraucher geführt. Einzelpersonen können nun mithilfe dieser leistungsstarken Sprachtools eine Vielzahl von Aufgaben erledigen, wie z. B. das Abrufen von Informationen, das Verfassen von Texten und das Verfeinern von Dokumenten. Diese Integration von LLMs in den Alltag hat zu deutlichen Produktivitätssteigerungen geführt, sowohl bei der Arbeit als auch im Privatleben.

Allerdings muss man sich darüber im Klaren sein, dass nicht alle Verbraucher gleichermaßen von diesen Vorteilen profitieren. Tatsächlich können viele Menschen auf der Welt, die weniger verbreitete Sprachen sprechen, nicht mit LLMs interagieren, was hauptsächlich an der Unzulänglichkeit der für diese spezifischen Sprachen entwickelten Sprachmodelle liegt. Obwohl derzeit 7.000 Sprachen auf der Welt gesprochen werden, wurden die größten mehrsprachigen LLMs mit nur weniger als hundert Sprachen trainiert, wodurch viele Sprachen und Menschen völlig außen vor blieben.

Die Unterstützung nicht-englischer Sprachen erfordert hochwertige, umfangreiche Datenquellen, die schwer zu finden und zugänglich sein können. Und nicht nur, dass diese Modelle schlechter abschneiden, es wurde auch berichtet von Universität Brown dass sie eher zu unethischen Antworten neigen und dadurch anfälliger für böswillige Angriffe sind.

Warum sind Sprachen in LLM-Studiengängen unterrepräsentiert?

Die Leistung von LLMs, die auf Low Resource Languages (LRL) zugeschnitten sind, wird durch mehrere wesentliche Herausforderungen beeinträchtigt.

Erstens basieren die Basismodelle vieler LLMs auf Daten, die aus dem Internet stammen, wo es oft an einer umfassenden Abdeckung von LRLs mangelt. Die folgende Grafik zeigt eine Verteilung der Daten im Internet, unterteilt nach Sprachgruppen. Während für gängigere Sprachen potenziell Hunderte von GB an Daten für Trainingsmodelle zur Verfügung stehen, sind für die Sprachen am Ende der Grafik nur Daten im Bereich von Hunderten von Megabyte verfügbar.

Diese Einschränkung wird noch dadurch verstärkt, dass für viele LRLs keine fein abgestimmten Anweisungsdatensätze vorhanden sind. Ein Anweisungsdatensatz besteht aus einem Fragensatz gepaart mit idealen Antworten und ist ein entscheidender Teil des LLM-Trainings – in diesem Fall in bestimmten Sprachen. Auf diese Weise lernt das Modell, Anweisungen zu befolgen. Ohne diese Fähigkeit sind Modelle nur in der Lage, das nächste Wort in der Sequenz vorherzusagen, anstatt Menschen bei komplexen Fragen und Problemlösungsaufgaben zu unterstützen.

Dies ist darauf zurückzuführen, dass LLMs in sequenziellen Schritten trainiert werden. Der erste Schritt besteht darin, die Sprache durch das Lesen einer großen Menge unkommentierten Textes zu erlernen, wodurch das Modell die Fähigkeit erhält, die nächste Welt in der Sequenz vorherzusagen. Der zweite Schritt besteht darin, dieses Vorhersageverhalten so anzupassen, dass es bestimmten Anweisungen folgt, wie z. B. Fragen zu beantworten, Zusammenfassungen zu schreiben oder Daten zu extrahieren. Aus diesem Grund ist die Feinabstimmung von Datensätzen so wichtig, da ihre Qualität die Fähigkeit von LLM bestimmt, Benutzer bei erforderlichen Aufgaben zu unterstützen.

Im folgenden Abschnitt stellen wir eine Methode vor, mit der ein qualitativ hochwertiger Datensatz für Swahili erstellt werden kann, mit dem das LLM für diese Sprache optimiert werden kann. Die Methode kann auf jede ressourcenarme Sprache angewendet werden.

Innovative Pipeline zur Datenerfassung für LRLs

Swahili wird von über 200 Millionen Menschen in 14 afrikanischen Ländern gesprochen und ist die offizielle Landessprache in Tansania, Kenia, Uganda und der Demokratischen Republik Kongo. Swahili gehört zu den ressourcenarmen Sprachen und ist ein Beispiel für eine Sprache, die keinen vorgefertigten Anweisungsdatensatz für die Feinabstimmung von LLM hat.

Im Allgemeinen gibt es drei Ansätze, um einen Feinabstimmungsdatensatz für eine Sprache zu erstellen. Der erste ist die direkte Generierung eines Datensatzes durch Gutachter, in diesem Fall Sprachexperten, was die Entwicklung sowohl von Fragen als auch idealen Antworten in der gewünschten Sprache erfordert. Dies kann für die Sprache Swahili eine Herausforderung sein, da die Gutachter hochrangige Experten sein müssen und der Prozess im Allgemeinen teuer ist.

Eine weitere mögliche Lösung besteht darin, einen vorhandenen Anweisungsdatensatz auf Englisch zu nehmen und ihn ins Suaheli zu übersetzen. Dies könnte von Übersetzern erledigt werden, die sowohl Suaheli als auch Englisch sprechen, aber auch dies kann zeit- und ressourcenintensiv sein. Ein automatischer Übersetzer könnte verwendet werden, dies führt jedoch normalerweise zu unzureichenden oder qualitativ schlechten Ergebnissen.

Eine andere Lösung kombiniert automatische Übersetzung mit menschlicher Validierung und bietet damit einen kosteneffizienten und skalierbaren Ansatz, der entscheidend ist, um sicherzustellen, dass LRL-Modelle genau sind, lokale Gepflogenheiten und Normen widerspiegeln und für die Gemeinschaften, die sie verwenden, nützlich sind. Diese Methode verwendet den besten verfügbaren automatischen Übersetzer von Swahili nach Englisch und bittet dann Swahili-Muttersprachler, Beispiele herauszufiltern, die den Qualitätsstandards nicht entsprechen.

Toloka hat kürzlich ein Entwicklungsprojekt durchgeführt, bei dem sie einen 11.000 Feinabstimmungsdatensatz für Swahili aus den 15.000 ursprünglichen Dolly-Datensatz . Jeder Datenpunkt, der aus einer Eingabeaufforderung und einer Antwort besteht, wurde mithilfe einer automatischen Übersetzung vom Englischen ins Suaheli übersetzt, was zunächst zu 15.000 Frage-Antwort-Paaren auf Suaheli führte. Dieser Datensatz wurde weiter reduziert, indem Muttersprachler gebeten wurden, Paare mit geringer Qualität zu entfernen, wodurch ein fein abgestimmter Suaheli-Datensatz mit 11.000 Instanzen übrig blieb.

Der Datensatz wurde dann verwendet, um zu verbessern mT5 , eines der leistungsstärksten mehrsprachigen Sprachmodelle für Swahili, das erhebliche Leistungsverbesserungen für diese Sprache zeigte. Der fein abgestimmte Datensatz steigerte die Genauigkeit und den F-Score (ein Maß für die Vorhersageleistung) für Klassifizierungsaufgaben, aber was noch wichtiger ist, er erhöhte die ROUGE , oder Recall-Oriented Understudy for Gisting Evaluation, ein Satz von Metriken, die zur Bewertung automatischer Zusammenfassungs- und maschineller Übersetzungssoftware in NLP verwendet werden, und chrF++, Zeichen-N-Gramm-F-Score (chrF), bei generativen Aufgaben, bei denen das Modell auf offene Fragen reagieren muss. Dieses Experiment zeigt das Potenzial zur Verbesserung der LLM-Leistung in LRLs und eröffnet somit einen Weg zum Erstellen wirklich mehrsprachiger Modelle.

Schaffung eines umfassenderen KI-Ökosystems

Da Entwickler und Organisationen bestrebt sind, ein umfassenderes KI-Ökosystem zu schaffen, wird die Evaluierung noch wichtiger, ebenso wie die menschliche Beteiligung an der Ausbildung von LLMs. Coheres jüngste Einführung von Aya , ein Sprachmodell, das über hundert Sprachen unterstützt, darunter Swahili und andere LRLs, ist ein Beispiel für dieses Engagement. Die Beseitigung des Datenmangels und die Verbesserung der Modellleistung für LRLs ist ein wichtiger Schritt zum Aufbau umfassenderer und verantwortungsvollerer KI-Systeme, die vielfältigen Sprachgemeinschaften weltweit dienen.