数年前、私は Google アシスタントに簡単な質問をしましたが (内容は思い出せません)、関係のない答えが返されました。もう一度尋ねると、違う答えが返ってきました。質問を入力する必要がありました。
私の話す英語とアクセントは個人的な成長と露出のおかげで改善されましたが、多くの音声認識アプリやソフトウェアがアフリカ話者により適応しつつあることもわかります(アクセントの点で)。しかし、実際のところ、アフリカ人向けの音声認識の実現にはまだ長い時間がかかります。
ネイティブスピーカーが 1,000 万人以上いるアフリカの主要言語を使用できるアプリがなぜそれほど多くないのか、今でも不思議に思っています。そこで私は、アフリカの文脈と言語における人工知能と自然言語処理の現状について、現場の言語学者および学術研究者と話すことにしました。
こんにちは、私はオランレワジュ・サミュエルです。
私は計算音韻論、データセット構築、アノテーションとキュレーション、自然言語処理、および現場言語学に興味があります。
私の主な指導者は
私はまだ自分の研究目標を厳密に定めているわけではありませんが、今のところは専門知識を磨き、自分の可能性を探ることに集中しています。資格そのもののためではなく、自己啓発のためです。したがって、私はここでのプログラムを完了し、他のことに移りたいとしながら、自分自身を成長させようと努めています。
私はさまざまな偉大な人物と協力して、さまざまな出版物に参加してきました。私の最近の言語学の論文の 1 つは、「
これも:
私は「言語学者のための自然言語処理」というコースを教えています。基本的に、私はルワンダのキガリでアフリカの文脈における言語的自然言語プロセスを教えています。
私は、大規模言語モデル (LLM) の構築など、さまざまな NLP タスク用の多言語データセットの構築、アノテーション、キュレーション、分析、公開のニュアンスを提供し、デモンストレーションする任務を負っています。大規模な言語モデルとは、複数の言語システムを単一のストリーム内で機能させることを意味します。私たちは、パターンまたはテンプレートを使用して AI システムをトレーニングするラテライゼーション (水平化) によってこれを達成しようとしています。このパターンは、他のアプリケーションの基礎となります。
会話型 AI を超えて、私たちは生成型 AI の分野で何か有意義なことを行うことを検討しています。これは依然として、データを並べ替えて確率などの数学的計算によって結果を生成するモデルの機能の側面化の一部です。
NLP はアフリカ全土で多くの事例で使用されており、その中にはロボット工学や会話型 AI が含まれています。会話型 AI の典型的な例は、ラゴスのAlaye です。これは、自然観光客 (他州からのナイジェリア人) が大都市であり州であるラゴス内で道を見つけ、レストラン、クラブ、ショップなどの場所を特定するのを支援します。人気のナイジェリアのピジン (ナイジャ ピジン) を使用した交通状況も含まれます。
私たちは、タスクを実行するためにトレーニングできる AI モデルを開発しています。複雑なシステムやプロセスを単純なコマンド文字列 (モデリング) に絞り込みます。これが、現時点でのアフリカにおけるロボット工学における NLP の実用化です。
現在、言語学における AI の応用は主に自動化ですが、ロボットやチャットボットなど、さまざまな AI アプリケーションに組み込まれた言語モデルもあります。
本当に素晴らしいことをやっている人たちがいます。
AI 産業で世界的な関連性を見つける上でアフリカの状況に対する大きな課題は、言語リソース (データ) の制限です。アフリカは多言語なので、
AI に何かが起こるとすれば、それは高リソース言語にも起こるでしょう。たとえそれがアフリカの言語で起こったとしても、私たちはそれらに電力を供給するシステムを持っていません。したがって、対応するものが十分ではないため遅れており、この問題は文書化の不足がほぼ生涯にわたる問題となっています。
たとえば、ナイジェリアには 200 を超える部族がありますが、最も人気のある言語は 3 つだけです。ヨルバ、イボ、ハウサとは異なり、小規模な部族や言語にはデータがほとんどありません (リソース データが少ない)。それが私たちがやろうとしていることです
AI や NLP の技術者は、AI を信じていないか、ROI を探索するのに十分なデータがないと考えているため、投資を行っていません。したがって、私たちは現在の地下工事がブレークスルーとなることを期待しています。
さらに、最も人気のある検索エンジンはアジアと西洋(特にアメリカ)であるため、アフリカは言語 AI と NLP の世界市場で周縁化されています。また、ここでの私たちの作品の中には、スポンサーシップの関係で、アフリカ人としての功績を認めることができないものもあります。
最も大きな影響を与えたアフリカ諸国には、南アフリカ、ケニア、ルワンダが含まれます。彼らはクレイジーです!ナイジェリアも努力しているが、この宇宙を探索すべき人々のほとんどは開発を求めているのではなく、学歴の満足を求めている。私たちは言語を大切にしていますが、その言語を使用してデータセットを構築しているわけではありません。言語を保存し保護するために文書化に投資すべきであるにもかかわらず、私たちはむしろ言語を遺産として話すか私有化したいと考えます。
正直に言うと、データセットを販売するビジネス以外にはあまり多くはありません。それでも、プロジェクトに資金をつぎ込む人たちは多額の寄付をしますが、現場のエージェントに届く金額は、当初投入された金額と比較すると非常にわずかです。
データ収集を禁止する法律はありません。最も重要なことは、データがネイティブ スピーカーから積極的に収集され、その時間に対して報酬が支払われることです。ただし、すべての活動はアフリカ連合の方針に沿ったものでなければなりません。
2 番目の質問ですが、これらの分野に携わる人々に最終的に届く金額については、誰にもどうすることもできません。最も重要なことは、全員が喜んでプロジェクトにコミットすることです。人々は記録されて報酬が与えられると言われており、金額さえよければ「不公平」はない。
広い分野です。多くはすでに基礎があり、構築段階にありますが、まだ基礎の段階にある部分もたくさんあります。私が皆さんにお勧めしたいのは、言語データの収集と分析に参加することです。データと同じくらい、データセットのデータ分析も必要です。
したがって、私は熱心なデータ駆動型グループに参加するかボランティア活動をすることをお勧めします。データの収集と分析、用語の学習などにボランティアとして参加します。
音声認識ソフトウェアでは、さまざまな AI や NLP のコマンドやプロンプトを使用して、アフリカが不適切に表現され続けています。アフリカ人がデータセットの構築に着手し、自分たちの言語を発信し、文書への投資を続けると、物語は変わってくるでしょう。それでも、AI および NLP アプリケーションに関してアフリカから生み出されたいくつかの作品には感銘を受けるでしょう。
私の調査と手がかりを追って、ロボットがアフリカの現地言語で促されているのを見てきました。アフリカのさまざまな状況(観光、探検)に合わせた現地のチャットボットが増えており、一部の言語は家電製品の IoT に使用されています。しかし、現在世界で起こっている大規模な AI と NLP 革命を考慮すると、私たちはもっと取り組むべきだと信じています。今のところ、他にもあります