In den letzten Jahren hat die Einführung von Large Language Models (LLMs) zu erheblichen Veränderungen im Alltag der Verbraucher geführt. Einzelpersonen können nun mithilfe dieser leistungsstarken Sprachtools eine Vielzahl von Aufgaben erledigen, wie z. B. das Abrufen von Informationen, das Verfassen von Texten und das Verfeinern von Dokumenten. Diese Integration von LLMs in den Alltag hat zu deutlichen Produktivitätssteigerungen geführt, sowohl bei der Arbeit als auch im Privatleben.
Allerdings muss man sich darüber im Klaren sein, dass nicht alle Verbraucher gleichermaßen von diesen Vorteilen profitieren. Tatsächlich können viele Menschen auf der Welt, die weniger verbreitete Sprachen sprechen, nicht mit LLMs interagieren, was hauptsächlich an der Unzulänglichkeit der für diese spezifischen Sprachen entwickelten Sprachmodelle liegt. Obwohl derzeit 7.000 Sprachen auf der Welt gesprochen werden, wurden die größten mehrsprachigen LLMs mit nur weniger als hundert Sprachen trainiert, wodurch viele Sprachen und Menschen völlig außen vor blieben.
Die Unterstützung nicht-englischer Sprachen erfordert hochwertige, umfangreiche Datenquellen, die schwer zu finden und zugänglich sein können. Und nicht nur, dass diese Modelle schlechter abschneiden, es wurde auch berichtet von
Die Leistung von LLMs, die auf Low Resource Languages (LRL) zugeschnitten sind, wird durch mehrere wesentliche Herausforderungen beeinträchtigt.
Erstens basieren die Basismodelle vieler LLMs auf Daten, die aus dem Internet stammen, wo es oft an einer umfassenden Abdeckung von LRLs mangelt. Die folgende Grafik zeigt eine Verteilung der Daten im Internet, unterteilt nach Sprachgruppen. Während für gängigere Sprachen potenziell Hunderte von GB an Daten für Trainingsmodelle zur Verfügung stehen, sind für die Sprachen am Ende der Grafik nur Daten im Bereich von Hunderten von Megabyte verfügbar.
Diese Einschränkung wird noch dadurch verstärkt, dass für viele LRLs keine fein abgestimmten Anweisungsdatensätze vorhanden sind. Ein Anweisungsdatensatz besteht aus einem Fragensatz gepaart mit idealen Antworten und ist ein entscheidender Teil des LLM-Trainings – in diesem Fall in bestimmten Sprachen. Auf diese Weise lernt das Modell, Anweisungen zu befolgen. Ohne diese Fähigkeit sind Modelle nur in der Lage, das nächste Wort in der Sequenz vorherzusagen, anstatt Menschen bei komplexen Fragen und Problemlösungsaufgaben zu unterstützen.
Dies ist darauf zurückzuführen, dass LLMs in sequenziellen Schritten trainiert werden. Der erste Schritt besteht darin, die Sprache durch das Lesen einer großen Menge unkommentierten Textes zu erlernen, wodurch das Modell die Fähigkeit erhält, die nächste Welt in der Sequenz vorherzusagen. Der zweite Schritt besteht darin, dieses Vorhersageverhalten so anzupassen, dass es bestimmten Anweisungen folgt, wie z. B. Fragen zu beantworten, Zusammenfassungen zu schreiben oder Daten zu extrahieren. Aus diesem Grund ist die Feinabstimmung von Datensätzen so wichtig, da ihre Qualität die Fähigkeit von LLM bestimmt, Benutzer bei erforderlichen Aufgaben zu unterstützen.
Im folgenden Abschnitt stellen wir eine Methode vor, mit der ein qualitativ hochwertiger Datensatz für Swahili erstellt werden kann, mit dem das LLM für diese Sprache optimiert werden kann. Die Methode kann auf jede ressourcenarme Sprache angewendet werden.
Swahili wird von über 200 Millionen Menschen in 14 afrikanischen Ländern gesprochen und ist die offizielle Landessprache in Tansania, Kenia, Uganda und der Demokratischen Republik Kongo. Swahili gehört zu den ressourcenarmen Sprachen und ist ein Beispiel für eine Sprache, die keinen vorgefertigten Anweisungsdatensatz für die Feinabstimmung von LLM hat.
Im Allgemeinen gibt es drei Ansätze, um einen Feinabstimmungsdatensatz für eine Sprache zu erstellen. Der erste ist die direkte Generierung eines Datensatzes durch Gutachter, in diesem Fall Sprachexperten, was die Entwicklung sowohl von Fragen als auch idealen Antworten in der gewünschten Sprache erfordert. Dies kann für die Sprache Swahili eine Herausforderung sein, da die Gutachter hochrangige Experten sein müssen und der Prozess im Allgemeinen teuer ist.
Eine weitere mögliche Lösung besteht darin, einen vorhandenen Anweisungsdatensatz auf Englisch zu nehmen und ihn ins Suaheli zu übersetzen. Dies könnte von Übersetzern erledigt werden, die sowohl Suaheli als auch Englisch sprechen, aber auch dies kann zeit- und ressourcenintensiv sein. Ein automatischer Übersetzer könnte verwendet werden, dies führt jedoch normalerweise zu unzureichenden oder qualitativ schlechten Ergebnissen.
Eine andere Lösung kombiniert automatische Übersetzung mit menschlicher Validierung und bietet damit einen kosteneffizienten und skalierbaren Ansatz, der entscheidend ist, um sicherzustellen, dass LRL-Modelle genau sind, lokale Gepflogenheiten und Normen widerspiegeln und für die Gemeinschaften, die sie verwenden, nützlich sind. Diese Methode verwendet den besten verfügbaren automatischen Übersetzer von Swahili nach Englisch und bittet dann Swahili-Muttersprachler, Beispiele herauszufiltern, die den Qualitätsstandards nicht entsprechen.
Toloka hat kürzlich ein Entwicklungsprojekt durchgeführt, bei dem sie einen 11.000 Feinabstimmungsdatensatz für Swahili aus den 15.000 ursprünglichen
Der Datensatz wurde dann verwendet, um zu verbessern
Da Entwickler und Organisationen bestrebt sind, ein umfassenderes KI-Ökosystem zu schaffen, wird die Evaluierung noch wichtiger, ebenso wie die menschliche Beteiligung an der Ausbildung von LLMs. Coheres jüngste Einführung von