23 сентября —   , провозглашенный Организацией Объединенных Наций в 2017 году. Эта дата — хороший повод мечтать (или, может быть, ставить перед собой цель), что наступит день, когда все медиа- и технологические продукты будут одинаково доступны для всех. все люди, независимо от их инвалидности. Я мечтаю, чтобы когда-нибудь все глухие люди могли смотреть спортивные трансляции в прямом эфире. Перевод на языки жестов в режиме реального времени — непростая задача даже для переводчиков-людей. Но поскольку квалифицированных переводчиков слишком мало, а жестовых языков слишком много, спортивные трансляции в настоящий момент не могут стать по-настоящему общедоступными. Использование искусственного интеллекта (ИИ) для решения этой проблемы — очень интересная техническая задача и, безусловно, очень хорошее дело. За последние несколько лет в этой области было сделано немало, но препятствия все еще сохраняются. В этой статье я предлагаю обзор новейших технологий, посвященных этой цели, и приглашаю вас обсудить эти результаты и внести свой вклад в разгадку этой загадки. Международный день жестовых языков   Спорт не для всех?  Спорт – король, и точка. Со времени первых древних Олимпийских игр (и, возможно, даже раньше) это помогло трансформировать соревновательную часть человеческой природы в ненасильственные формы. Оно объединяет миллионы людей по всему миру и выходит за рамки политических границ. Он также является правителем современной цифровой и медиа-вселенной. В соответствии с  Мировой спортивный рынок вырос с 486,61 миллиарда долларов в 2022 году до 512,14 миллиарда долларов в 2023 году при совокупном годовом темпе роста (CAGR) 5,2%. Ожидается, что в 2027 году спортивный рынок вырастет до $623,63 млрд при среднегодовом темпе роста 5,0%. Это намного быстрее, чем рост мировой экономики, который, согласно прогнозам, упадет с 3,5% в 2022 году до 3,0% в 2023 и 2024 годах.  . Только мировой рынок онлайн-трансляций спортивных трансляций в 2020 году оценивался в 18,11 млрд долларов.  достигнет $87,33 млрд в 2028 году.  показало, что 31% доходов от рекламы на линейном телевидении в США зависит от спортивных программ в прямом эфире, несмотря на то, что на спорт приходится лишь 2,7% доступного контента трансляционных программ.   Исследования и рынки,   Международный Валютный Фонд   ожидается   отчет Nielsen Sports  Однако эта огромная индустрия упускает (частично или полностью) значительную часть населения мира.  данные показывают, что в мире насчитывается 70 миллионов глухих людей, что составляет чуть менее 10% от 8,05-миллиардного населения Земли. Проблема прогрессирует: Всемирная организация здравоохранения ожидает, что к 2050 году 2,5 миллиарда человек (или примерно четверть всех людей) будут испытывать ту или иную степень потери слуха. Конечно, многие спортивные трансляции имеют субтитры. Но проблема в том, что многим глухим людям трудно научиться читать и писать. В большинстве стран уровень неграмотности среди глухих  , поистине ошеломляющая скорость. Во многих передачах, особенно на телевидении, присутствуют сурдопереводчики. Но, опять же, есть проблема. Глухие люди во всем мире используют более 300 различных жестовых языков, большинство из которых непонятны друг другу. Очевидно, что невозможно нанять 300 переводчиков, чтобы сделать одну трансляцию глобальной. Но что, если вместо этого мы наймем ИИ?   ООН   выше 75%  Знак (язык) жизни  Чтобы полностью понять сложность этой задачи, давайте кратко рассмотрим, что на самом деле представляют собой языки жестов. Исторически сложилось так, что они часто использовались в качестве лингва-франка людьми, наделенными нормальным слухом, но говорящими на разных языках. Самый известный пример – язык жестов.  в Северной Америке XIX века. Языки разных племен были непохожи, но их образ жизни и среда обитания были весьма схожи, что помогло им найти общие символы. Например, круг, нарисованный на небе, означал луну или что-то бледное, похожее на луну. Подобные способы общения использовали племена Африки и Австралии.   Равнинные индейцы  Однако это не относится к языкам жестов, используемым глухими. В каждом регионе, стране они развиваются независимо, а иногда даже различаются от города к городу. Например, американский язык жестов (ASL), широко используемый в США, полностью отличается от британского языка жестов, хотя обе страны говорят по-английски. По иронии судьбы, ASL  (LSF), потому что глухой французский человек Лоран Клерк был одним из первых учителей для глухих в США в 19 веке. Вопреки распространенному мнению, настоящего международного языка жестов не существует. Попытка создать его была  , задуманный Международной федерацией глухих в 1951 году. Однако, как и его аналог для слышащих людей, эсперанто, он далеко не так популярен, чтобы стать настоящим решением.   гораздо ближе к старофранцузскому языку жестов   Жестуно, ныне известный как международный язык жестов.  Еще одна важная вещь, которую следует иметь в виду при обсуждении переводов на жестовые языки, — это то, что они являются самостоятельными языками, совершенно отличными от языков, которые мы слышим. Очень распространенное заблуждение состоит в том, что язык жестов имитирует язык жестов, на котором говорят люди. Напротив, у них совершенно другая языковая структура, грамматика и синтаксис. Например, в ASL используется синтаксис темы-комментария, а в английском языке используются конструкции субъект-объект-глагол. Итак, с точки зрения синтаксиса ASL на самом деле  чем это происходит с английским языком. Существуют знаковые алфавиты (подробнее о них см.  ), но они используются для написания собственных названий мест и людей, а не для составления слов.   больше общего с разговорным японским   здесь  Ломая барьеры  Были многочисленные попытки соединить разговорный язык и язык жестов.  для распознавания жестов. Некоторые из них датируются 1980-ми годами. Со временем добавились более сложные гаджеты, вроде акселерометров и всевозможных датчиков. Однако успех этих попыток  . И вообще, большинство из них сосредоточилось на переводе языков жестов на разговорные языки, а не наоборот. Недавние разработки в области компьютерного зрения, распознавания речи, нейронных сетей, машинного обучения и искусственного интеллекта дают надежду, что прямой перевод с разговорного языка на язык жестов также возможен.   использование «роботизированных перчаток»   были в лучшем случае ограничены  Самый распространенный путь — использование 3D-аватаров для отображения жестов и эмоций на языке жестов, используя речь и другие данные в качестве входных данных. Примечательная особенность  Радиовещательная корпорация в Японии позволяет переводить спортивные данные, такие как имена игроков, результаты матчей и т. д., на язык жестов, отображаемый анимированным аватаром, похожим на мультфильм. Данные, полученные от организаторов мероприятия или других лиц, интерпретируются и помещаются в шаблоны, а затем выражаются аватаром. Однако таким способом можно перевести только ограниченные типы данных. NHK заявляет, что продолжает развивать технологию, чтобы аватары могли выражать эмоции более человечно.   разработано NHK  Lenovo и бразильский центр инноваций CESAR  они создавали переводчик языка жестов, чтобы слышать людей, использующих ИИ. Аналогично, SLAIT (что означает переводчик языка жестов AI).  образовательный инструмент, который помогает изучать ASL в интерактивном режиме. Хотя эти задачи отличаются от наших задач, методы компьютерного зрения и модели обучения искусственного интеллекта, разработанные в рамках этих проектов, могут быть очень полезны для обеспечения перевода с речи на язык жестов в будущем.   недавно объявлено   разрабатывается  Другие стартапы становятся ближе к нашей теме обсуждения. Например, Signapse  с решением, которое может переводить текст на язык жестов, отображаемый в виде фотореалистичного анимированного движения аватара. Компания использует генеративно-состязательные сети и методы глубокого обучения, а также постоянно развивающуюся базу данных видео (подробнее об этом в их рецензируемой статье).  ). Однако эта платформа предназначена в основном для перевода публичных объявлений и текстов веб-сайтов. Другими словами, похоже, что до прямой трансляции в реальном времени еще далеко. подошел   здесь  Израильский стартап CODA сделал еще один шаг вперед к нашей цели. Компания разработала инструмент перевода звука в знак на основе искусственного интеллекта и утверждает, что он работает.  . В настоящее время он предлагает свои услуги на пяти исходных языках: английском, иврите, французском, испанском и итальянском. Далее CODA стремится добавить несколько различных языков жестов в странах с высокой численностью населения, таких как Индия и Китай.   «почти мгновенно»  Пожалуй, самое близкое к нашей мечте воплощение было представлено Baidu AI Cloud на платформе цифровых аватаров Xiling. Платформа  обеспечить слабослышащую аудиторию трансляциями зимних Паралимпийских игр 2022 года в Пекине. Местные СМИ сообщили, что они способны создавать цифровые аватары для сурдоперевода и живого перевода «за считанные минуты».   был запущен  Заключение  Следующим шагом в разработке перевода речи в жесты станет расширение вывода на максимально возможное количество жестовых языков и сокращение временного интервала, необходимого для перевода, с минут до секунд. Обе задачи представляют собой серьезные проблемы. Добавление большего количества языков жестов в выходной канал означает создание и постоянное развитие обширных баз данных жестов рук и тела, а также выражений лица. Сокращение временного разрыва еще более важно, поскольку в спорте важны моменты. Даже минутный перерыв означает, что стрим следует задержать, иначе зрители упустят саму суть игры. Время, необходимое для перевода, можно сократить за счет создания более обширной аппаратной инфраструктуры, разработки баз данных наиболее типичных речевых шаблонов, которые можно распознать еще до того, как фраза будет закончена. Все это может показаться дорогостоящим предприятием. Но с одной стороны, улучшение качества жизни миллионов людей бесценно. С другой стороны, мы говорим не только о благотворительности. Подумайте о дополнительной аудитории, которую получат трансляции, и о спонсорских деньгах, которые будут задействованы. В целом, это вполне может быть беспроигрышная игра.  Похоже, что крупные технологические компании также присоединяются к гонке. Zippia, портал вакансий, недавно сообщил, что Google  переводчики языка жестов получают зарплату, более чем в два раза превышающую зарплату, которую они обычно ожидают в Соединенных Штатах (110 734 доллара США против средних 43 655 долларов США). При таких темпах переводчик языка будет получать примерно на 10% больше, чем средний инженер-программист в США (  ). Это вполне может быть намеком на то, что в ближайшее время нас ожидает крупный прорыв…   нанимает   100 260 долларов США  Пожалуйста, не стесняйтесь комментировать и позвольте нам объединить усилия, чтобы найти решение!

The is an opinion piece based on the author’s POV and does not necessarily reflect the views of HackerNoon.

Read My Stories

Этот звук создан на языке оригинала истории!

Зарегистрируйтесь для игры: может ли ИИ сделать спортивные трансляции доступными?

About Author

КОММЕНТАРИИ

БИРКИ

ЭТА СТАТЬЯ БЫЛА ПРЕДСТАВЛЕНА В

Related Stories

Модель Bitcoin UTXO, обеспечивающая работу уникальной экосистемы

Как улучшить ваш рабочий процесс в 10 раз: 17 основных приложений

Плавание по водам: разработка RAG-приложений промышленного уровня с использованием озер данных

Повысьте свою производительность с помощью этих 18 инструментов разработчика 🚀🔥

Модель Bitcoin UTXO, обеспечивающая работу уникальной экосистемы

Как улучшить ваш рабочий процесс в 10 раз: 17 основных приложений

Плавание по водам: разработка RAG-приложений промышленного уровня с использованием озер данных

Повысьте свою производительность с помощью этих 18 инструментов разработчика 🚀🔥

Light-Mode

Classic

Newspaper

Minty

Dark-Mode

Neon Noir

Minty

HN StartUps