3,981 測定値

責任ある AI を実現するために、リソースの少ない言語を LLM に統合することが不可欠な理由

に Magdalena Konkiewicz5m2024/04/27

長すぎる; 読むには

この記事では、リソースの少ない言語が大規模言語モデル (LLM) にアクセスする際に直面する課題について検討し、特にスワヒリ語をケーススタディとして取り上げ、LLM のパフォーマンスを向上させるための、高品質の微調整データセットの作成などの革新的な戦略を紹介します。これらの進歩は、言語の多様性とアクセシビリティをサポートする、より包括的な AI エコシステムに貢献します。

featured image - 責任ある AI を実現するために、リソースの少ない言語を LLM に統合することが不可欠な理由

‘A robot learning in an african class room’ Image created by HackerNoon AI Image Generator

大規模言語モデル (LLM) における低リソース言語 (LRL)

近年、大規模言語モデル (LLM) の出現により、消費者の日常生活に大きな変化がもたらされました。個人は、これらの強力な言語ツールを通じて、情報の検索、テキストの作成、ドキュメントの調整など、さまざまなタスクを実行できるようになりました。LLM が日常生活に統合されたことで、仕事と個人の取り組みの両方で生産性が著しく向上しました。

しかし、すべての消費者がこれらのメリットを同じように体験しているわけではないことを認識することが重要です。実際、あまり一般的ではない言語を話す世界中のかなりの数の人々は、主にこれらの特定の言語用に設計された言語モデルが不十分なために、LLM と対話することができません。現在世界で話されている言語は 7,000 ありますが、最大の多言語 LLM は 100 未満の言語のみを使用してトレーニングされているため、多くの言語と人々が完全に取り残されています。

英語以外の言語をサポートするには、高品質で豊富なデータソースが必要ですが、それを見つけてアクセスするのは困難です。また、これらのモデルはパフォーマンスが悪いだけでなく、ブラウン大学非倫理的な回答をする可能性が高くなり、悪意のある攻撃に対してより脆弱になります。

LLM ではなぜ言語があまり取り上げられないのでしょうか?

低リソース言語 (LRL) 向けにカスタマイズされた LLM のパフォーマンスは、いくつかの重要な課題によって妨げられています。

まず、多くの LLM の基礎モデルはインターネットから収集したデータに依存していますが、そのデータには LRL の包括的なカバレッジが欠けていることがよくあります。下のグラフは、言語グループに分けられたインターネット上のデータの分布を示しています。より一般的な言語では、モデルのトレーニングに使用できるデータが数百 GB ありますが、グラフの末尾にある言語では、数百メガバイトの範囲のデータしか利用できません。

この制限は、多くの LRL に細かく調整された指示データセットが存在しないことでさらに拡大します。指示データセットは、質問セットと理想的な回答の組み合わせで構成され、LLM トレーニング (この場合は特定の言語) の重要な部分です。これは、モデルが指示に従うことを学習する方法であり、この資産がなければ、モデルは複雑な質問や問題解決タスクで人間を支援するのではなく、シーケンス内の次の単語を予測することしかできません。

上記の現象は、LLM が段階的にトレーニングされるという事実によって生じます。最初のステップは、大量の注釈なしのテキストを読んで言語を学習し、モデルにシーケンス内の次の世界を予測する能力を与えることです。2 番目のステップは、質問に答える、要約を書く、データを抽出するなどの特定の指示に従うようにこの予測動作を調整することです。データセットの微調整が非常に重要なのは、その品質によって、必要なタスクでユーザーを支援する LLM の能力がさらに決まるためです。

次のセクションでは、スワヒリ語の LLM を微調整するために使用できる、スワヒリ語の高品質データセットを作成する方法を紹介します。この方法は、リソースの少ない言語に適用できます。

LRL のデータを収集するための革新的なパイプライン

スワヒリ語は、アフリカ 14 か国で 2 億人以上が話す言語であり、タンザニア、ケニア、ウガンダ、コンゴ民主共和国の公用語です。スワヒリ語は低リソース言語のグループに属し、LLM 微調整用のすぐに使用できる指示データセットがない言語の例です。

一般的に、言語の微調整データセットを作成するには 3 つのアプローチがあります。1 つ目は、評価者 (この場合は言語の専門家) がデータセットを直接生成する方法です。この方法では、質問と理想的な回答の両方を目的の言語で作成する必要があります。評価者は高度な専門家である必要があり、プロセスは一般的に費用がかかることから、スワヒリ語では難しい場合があります。

もう 1 つの解決策としては、既存の英語の指示データセットをスワヒリ語に翻訳することが考えられます。これはスワヒリ語と英語の両方を話す翻訳者によって実行できますが、時間とリソースを大量に消費する可能性があります。自動翻訳を使用することもできますが、通常は不十分な結果や品質の悪い結果になります。

もう 1 つのソリューションは、自動翻訳と人間による検証を組み合わせたもので、コスト効率が高くスケーラブルなアプローチを提供します。これは、LRL モデルが正確で、現地の慣習や規範を反映し、それらを使用するコミュニティにとって有用であることを保証する上で重要です。この方法では、スワヒリ語から英語への利用可能な最高の自動翻訳機を使用し、スワヒリ語のネイティブスピーカーに品質基準を満たさない例を除外するよう依頼します。

トロカは最近開発プロジェクトに着手し、15,000のオリジナルデータセットからスワヒリ語の11,000の微調整データセットを作成した。ドリーデータセットプロンプトと回答で構成される各データポイントは、自動翻訳を使用して英語からスワヒリ語に翻訳され、最初に 15,000 のスワヒリ語の質問と回答のペアが生成されました。このデータセットは、ネイティブスピーカーに低品質のペアを削除するよう依頼することでさらに削減され、11,000 インスタンスの微調整されたスワヒリ語データセットが残りました。

このデータセットは、ｍT5は、スワヒリ語の多言語モデルの中でもトップクラスの性能を誇り、この言語の性能を大幅に向上させた。微調整されたデータセットは分類タスクの精度とFスコア（予測性能の指標）を向上させたが、さらに重要なのは、ルージュ、または要約評価のための想起指向のアンダースタディ、これは自然言語処理における自動要約および機械翻訳ソフトウェアを評価するために使用される一連の指標です。 chrF++、文字nグラムFスコア（chrF）、モデルがオープンクエスチョンに応答する必要がある生成タスクにおいて、この実験は LRL における LLM パフォーマンスを向上させる可能性を示しており、真に多言語のモデルを構築するための道を開きます。

より包括的なAIエコシステムの構築

開発者や組織がより包括的なAIエコシステムの構築を目指す中、評価はますます重要になり、LLMのトレーニングにおける人間の関与も重要になります。Cohereは最近、アヤスワヒリ語やその他の LRL を含む 100 以上の言語をサポートする言語モデルであるは、この取り組みを実証するものです。データ不足に対処し、LRL のモデルパフォーマンスを向上させることは、世界中の多様な言語コミュニティに役立つ、より包括的で責任ある AI システムを構築するための重要なステップです。