paint-brush
ゲームにサインアップ: AI でスポーツ ストリームにアクセスできるようになるか?@degravia
250 測定値

ゲームにサインアップ: AI でスポーツ ストリームにアクセスできるようになるか?

Roman Garin7m2023/09/19
Read on Terminal Reader

長すぎる; 読むには

リアルタイムで手話に翻訳するのは、人間の通訳者にとっても難しい作業です。 AI を使用してこの問題を解決することは、非常に興味深い課題です。
featured image - ゲームにサインアップ: AI でスポーツ ストリームにアクセスできるようになるか?
Roman Garin HackerNoon profile picture
0-item

9 月 23 日は、2017 年に国連が宣言した「国際手話の日」です。この日は、すべてのメディアやテクノロジー製品が誰でも平等にアクセスできる日が来ることを夢見る(または目標を設定する)良い機会です。障害の有無にかかわらず、すべての人。私は、いつかすべての聴覚障害者がスポーツのライブ配信を視聴できるようになることを夢見ています。リアルタイムで手話に翻訳することは、人間の通訳者にとっても難しい作業です。しかし、熟練した通訳者が少なすぎ、手話の種類が多すぎるため、現時点ではスポーツ配信を真に誰もがアクセスできるものにすることはできません。この問題を解決するために人工知能 (AI) を使用することは、非常に興味深い技術的課題であり、間違いなく非常に良い目的です。過去数年間、この分野では多くの取り組みが行われてきましたが、依然として障害が残っています。この記事では、この目標に特化した最新テクノロジーの概要を提供します。これらの発見について議論し、この謎の解明に貢献してください。

スポーツは万人向けではありませんか?

スポーツは王様です。最初の古代オリンピック以来 (おそらくはその前から)、オリンピックは人間の本質の競争的な部分を非暴力的な形に変えるのに役立ちました。それは世界中で、政治的国境を越えて何百万もの人々を団結させてきました。それはまた、現代のデジタルとメディアの世界の支配者でもあります。によると研究と市場、世界のスポーツ市場は、2022年の4,866億1,000万ドルから2023年には5,121億4,000万ドルまで、5.2%の年間複合成長率(CAGR)で成長しました。スポーツ市場は、CAGR 5.0% で 2027 年にはさらに 6,236 億 3,000 万ドルに成長すると予想されています。これは世界経済の成長率よりもはるかに速いが、世界経済成長率は2022年の推定3.5%から2023年と2024年の両方で3.0%に低下すると予測されている。 国際通貨基金。世界のオンライン ライブ ビデオ スポーツ ストリーミング市場だけでも、2020 年には 181 億 1,000 万ドルと評価されています。期待されています2028 年には 873 億 3,000 万ドルに達する見込みです。スポーツの人気をさらに示すのは、2022 年ニールセンスポーツのレポートスポーツは利用可能な放送番組コンテンツのわずか 2.7% しか占めていないにもかかわらず、米国のリニア TV 広告収入の 31% がライブ スポーツ番組に依存していることを明らかにしました。


しかし、この巨大産業は世界人口のかなりの部分を(部分的または完全に)失っています。国連データによると、世界には聴覚障害者が 7,000 万人おり、これは地球の人口 80 億 5,000 万人の 10% に少し満たない程度です。問題は進行しており、世界保健機関は、2050 年までに 25 億人 (全人類のおよそ 4 分の 1) がある程度の難聴を経験すると予想しています。もちろん、スポーツ放送の多くには字幕が付いています。しかし問題は、多くの聴覚障害者が読み書きを学ぶのに苦労していることです。ほとんどの国では、ろう者の文盲率は75%を超えています、本当に驚異的な割合です。多くの放送、特にテレビでは、生の手話通訳者がいます。しかし、またしても問題が発生します。世界中の聴覚障害者は 300 以上の異なる手話を使用していますが、そのほとんどは互いに理解できません。 1 つの放送を世界中で視聴できるようにするために 300 人の通訳を雇うことは明らかに不可能です。しかし、代わりに AI を雇ったらどうなるでしょうか?

生命のサイン(言語)

この課題の難しさを十分に理解するために、実際に手話とは何なのかを簡単に見てみましょう。歴史的には、聴覚は正常だが、異なる言語を話す人々によって共通語としてよく使用されていました。最もよく知られた例は、プレーンズ・インディアン19世紀の北米。異なる部族の言語は似ていませんでしたが、生活様式や環境は非常に似ており、それが共通のシンボルを見つけるのに役立ちました。たとえば、空に描かれた円は月、または月と同じくらい青白いものを意味しました。同様のコミュニケーション方法がアフリカやオーストラリアの部族でも使用されていました。


ただし、聴覚障害者が使用する手話の場合はこの限りではありません。それらはそれぞれの地域、国で独自に発展しており、場合によっては都市ごとに異なる場合もあります。たとえば、米国で広く使用されているアメリカ手話 (ASL) は、両国とも英語を話しますが、イギリス手話とはまったく異なります。皮肉なことに、ASL は古フランス語手話にかなり近い(LSF) というのは、フランス人のろう者、ローラン・クレールは、19 世紀に米国でろう者のための最初の教師の一人だったからです。一般に信じられていることに反して、真の国際手話は存在しません。作成しようとしたのは、現在では国際手話として知られるジェストゥーノは、1951 年に国際ろう者連盟によって考案されました。しかしながら、聴者向けの類似語であるエスペラント語と同様に、真の解決策となるにはそれほど普及していません。


手話への翻訳について議論する際に留意すべきもう 1 つの重要な点は、手話はそれ自体が独立した言語であり、私たちが聞くことができる言語とはまったく異なるということです。非常によくある誤解は、手話は聴覚者によって話されたものを模倣しているということです。それどころか、それらはまったく異なる言語構造、文法、構文を持っています。たとえば、ASL にはトピック-コメントの構文がありますが、英語では主語-目的語-動詞の構造が使用されます。つまり、構文の観点から見ると、ASL は実際には日本語の話し言葉とより多くのことを共有する英語の場合よりも。記号のアルファベットがあります (詳細についてはこちらをご覧ください)ここ)、しかし、それらは場所や人の固有名を綴るために使用され、単語を構成するために使用されません。

障壁を打ち破る

話し言葉と手話とを結びつける試みが数多く行われた「ロボット手袋」を使ってジェスチャー認識用。そのうちのいくつかは 1980 年代に遡ります。時間が経つにつれて、加速度計やあらゆる種類のセンサーなど、より洗練されたガジェットが追加されました。しかし、これらの試みの成功により、せいぜい限られていた。とにかく、彼らのほとんどは、手話を話し言葉に翻訳することに焦点を当てており、その逆ではありませんでした。コンピュータ ビジョン、音声認識、ニューラル ネットワーク、機械学習、AI の最近の発展により、話し言葉から手話への直接翻訳も可能になると期待されています。


最も一般的な方法は、音声やその他のデータを入力として使用し、3D アバターを使用して手話のジェスチャーや感情を表示することです。注目すべき機能NHKが開発した日本の放送局は、選手の名前やスコアなどのスポーツ データを手話に翻訳し、アニメ風のアバターで表示できるようにしています。イベント主催者などから受け取ったデータを解釈してテンプレート化し、アバターで表現します。ただし、この方法で変換できるのは限られた種類のデータのみです。 NHKは、アバターがより人間らしい方法で感情を表現できるよう、技術の開発を続けているとしている。


レノボとブラジルのイノベーションハブ CESAR 最近発表された彼らは AI を使用して聴者のための手話翻訳機を作成していました。同様にSLAIT(Sign Language AI Translatorの略) 発展してきたインタラクティブな方法で ASL を学習するのに役立つ教育ツール。これらのタスクは私たちの範囲とは異なりますが、これらのプロジェクトによって開発されたコンピューター ビジョン技術と AI トレーニング モデルは、将来音声から手話への翻訳を提供する際に非常に役立つ可能性があります。


他のスタートアップも私たちの議論のテーマに近づきつつあります。たとえば、シグナプス出てきたテキストを手話に翻訳し、写真のようにリアルなアニメーションのアバターの動きとして表示できるソリューションを使用します。同社は、敵対的生成ネットワークと深層学習技術、および継続的に開発されているビデオ データベースを使用しています (詳細については、査読済みの記事をご覧ください) ここ)。ただし、このプラットフォームは主に、広報やウェブサイトのテキストを翻訳することを目的としています。つまり、リアルタイムのライブ翻訳にはまだ程遠いようです。


イスラエルを拠点とするスタートアップ CODA は、私たちの目標に向けてさらに一歩前進しました。 AIを活用した音声から署名への翻訳ツールを開発し、それが機能すると主張している「ほぼ瞬時に」 。現在、英語、ヘブライ語、フランス語、スペイン語、イタリア語の 5 つのソース言語でサービスを提供しています。次に、CODA はインドや中国などの人口の多い国の複数の異なる手話を追加することを目指しています。


おそらく私たちの夢に最も近いのは、Baidu AI Cloud のデジタル アバター プラットフォーム Xiling によって提示されたものです。プラットフォームが発売されました聴覚障害のある視聴者に 2022 年北京冬季パラリンピックの放送を提供する。地元メディアは、手話翻訳とライブ通訳のためのデジタルアバターを「数分以内」に生成できると述べた。

結論

音声から手話への翻訳開発の次のステップは、出力をできるだけ多くの手話言語に拡張し、翻訳に必要な時間を数分から数秒に短縮することです。どちらのタスクも大きな課題です。出力フィードにさらに手話を追加するということは、顔の表情だけでなく手や体のジェスチャーに関する広範なデータベースを作成し、永続的に開発することを意味します。スポーツは一瞬が勝負であるため、時間差を縮めることはさらに重要です。たとえ 1 分のギャップでも、ストリームを遅らせる必要があることを意味します。そうしないと、視聴者はゲームの本質を見逃してしまいます。より大規模なハードウェア インフラストラクチャを構築し、フレーズが完成する前に認識できる最も典型的な音声テンプレートのデータベースを開発することで、翻訳に必要な時間を短縮できます。これらすべては、費用のかかる冒険のように聞こえるかもしれません。しかし一方では、何百万もの人々の生活の質を向上させることは非常に貴重です。一方で、私たちは慈善活動だけについて話しているわけではありません。放送でさらに多くの視聴者が獲得できることと、スポンサーからの資金が投入されることを考えてください。全体として、それは非常に有利なゲームである可能性があります。


ハイテク大手もこの競争に参入しているようだ。キャリアポータルのZippiaは最近、Googleが雇用している手話通訳者の給与は、米国で通常期待される給与の 2 倍以上です (平均 43,655 ドルに対して 110,734 ドル)。この割合でいくと、言語通訳者は米国の平均的なソフトウェア エンジニアよりも約 10% 多くの収入を得ることになります ( 100,260ドル)。これは、私たちが近いうちに大きな進歩を期待していることを示唆しているかもしれません…


お気軽にコメントして、一緒に解決策を見つけていきましょう!