23 сентября — Международный день жестовых языков , провозглашенный Организацией Объединенных Наций в 2017 году. Эта дата — хороший повод мечтать (или, может быть, ставить перед собой цель), что наступит день, когда все медиа- и технологические продукты будут одинаково доступны для всех. все люди, независимо от их инвалидности. Я мечтаю, чтобы когда-нибудь все глухие люди могли смотреть спортивные трансляции в прямом эфире. Перевод на языки жестов в режиме реального времени — непростая задача даже для переводчиков-людей. Но поскольку квалифицированных переводчиков слишком мало, а жестовых языков слишком много, спортивные трансляции в настоящий момент не могут стать по-настоящему общедоступными. Использование искусственного интеллекта (ИИ) для решения этой проблемы — очень интересная техническая задача и, безусловно, очень хорошее дело. За последние несколько лет в этой области было сделано немало, но препятствия все еще сохраняются. В этой статье я предлагаю обзор новейших технологий, посвященных этой цели, и приглашаю вас обсудить эти результаты и внести свой вклад в разгадку этой загадки.
Спорт не для всех?
Спорт – король, и точка. Со времени первых древних Олимпийских игр (и, возможно, даже раньше) это помогло трансформировать соревновательную часть человеческой природы в ненасильственные формы. Оно объединяет миллионы людей по всему миру и выходит за рамки политических границ. Он также является правителем современной цифровой и медиа-вселенной. В соответствии с Исследования и рынки, Мировой спортивный рынок вырос с 486,61 миллиарда долларов в 2022 году до 512,14 миллиарда долларов в 2023 году при совокупном годовом темпе роста (CAGR) 5,2%. Ожидается, что в 2027 году спортивный рынок вырастет до $623,63 млрд при среднегодовом темпе роста 5,0%. Это намного быстрее, чем рост мировой экономики, который, согласно прогнозам, упадет с 3,5% в 2022 году до 3,0% в 2023 и 2024 годах. Международный Валютный Фонд . Только мировой рынок онлайн-трансляций спортивных трансляций в 2020 году оценивался в 18,11 млрд долларов. ожидается достигнет $87,33 млрд в 2028 году. отчет Nielsen Sports показало, что 31% доходов от рекламы на линейном телевидении в США зависит от спортивных программ в прямом эфире, несмотря на то, что на спорт приходится лишь 2,7% доступного контента трансляционных программ.
Однако эта огромная индустрия упускает (частично или полностью) значительную часть населения мира. ООН данные показывают, что в мире насчитывается 70 миллионов глухих людей, что составляет чуть менее 10% от 8,05-миллиардного населения Земли. Проблема прогрессирует: Всемирная организация здравоохранения ожидает, что к 2050 году 2,5 миллиарда человек (или примерно четверть всех людей) будут испытывать ту или иную степень потери слуха. Конечно, многие спортивные трансляции имеют субтитры. Но проблема в том, что многим глухим людям трудно научиться читать и писать. В большинстве стран уровень неграмотности среди глухих выше 75% , поистине ошеломляющая скорость. Во многих передачах, особенно на телевидении, присутствуют сурдопереводчики. Но, опять же, есть проблема. Глухие люди во всем мире используют более 300 различных жестовых языков, большинство из которых непонятны друг другу. Очевидно, что невозможно нанять 300 переводчиков, чтобы сделать одну трансляцию глобальной. Но что, если вместо этого мы наймем ИИ?
Знак (язык) жизни
Чтобы полностью понять сложность этой задачи, давайте кратко рассмотрим, что на самом деле представляют собой языки жестов. Исторически сложилось так, что они часто использовались в качестве лингва-франка людьми, наделенными нормальным слухом, но говорящими на разных языках. Самый известный пример – язык жестов. Равнинные индейцы в Северной Америке XIX века. Языки разных племен были непохожи, но их образ жизни и среда обитания были весьма схожи, что помогло им найти общие символы. Например, круг, нарисованный на небе, означал луну или что-то бледное, похожее на луну. Подобные способы общения использовали племена Африки и Австралии.
Однако это не относится к языкам жестов, используемым глухими. В каждом регионе, стране они развиваются независимо, а иногда даже различаются от города к городу. Например, американский язык жестов (ASL), широко используемый в США, полностью отличается от британского языка жестов, хотя обе страны говорят по-английски. По иронии судьбы, ASL гораздо ближе к старофранцузскому языку жестов (LSF), потому что глухой французский человек Лоран Клерк был одним из первых учителей для глухих в США в 19 веке. Вопреки распространенному мнению, настоящего международного языка жестов не существует. Попытка создать его была Жестуно, ныне известный как международный язык жестов. , задуманный Международной федерацией глухих в 1951 году. Однако, как и его аналог для слышащих людей, эсперанто, он далеко не так популярен, чтобы стать настоящим решением.
Еще одна важная вещь, которую следует иметь в виду при обсуждении переводов на жестовые языки, — это то, что они являются самостоятельными языками, совершенно отличными от языков, которые мы слышим. Очень распространенное заблуждение состоит в том, что язык жестов имитирует язык жестов, на котором говорят люди. Напротив, у них совершенно другая языковая структура, грамматика и синтаксис. Например, в ASL используется синтаксис темы-комментария, а в английском языке используются конструкции субъект-объект-глагол. Итак, с точки зрения синтаксиса ASL на самом деле больше общего с разговорным японским чем это происходит с английским языком. Существуют знаковые алфавиты (подробнее о них см. здесь ), но они используются для написания собственных названий мест и людей, а не для составления слов.
Ломая барьеры
Были многочисленные попытки соединить разговорный язык и язык жестов. использование «роботизированных перчаток» для распознавания жестов. Некоторые из них датируются 1980-ми годами. Со временем добавились более сложные гаджеты, вроде акселерометров и всевозможных датчиков. Однако успех этих попыток были в лучшем случае ограничены . И вообще, большинство из них сосредоточилось на переводе языков жестов на разговорные языки, а не наоборот. Недавние разработки в области компьютерного зрения, распознавания речи, нейронных сетей, машинного обучения и искусственного интеллекта дают надежду, что прямой перевод с разговорного языка на язык жестов также возможен.
Самый распространенный путь — использование 3D-аватаров для отображения жестов и эмоций на языке жестов, используя речь и другие данные в качестве входных данных. Примечательная особенность разработано NHK Радиовещательная корпорация в Японии позволяет переводить спортивные данные, такие как имена игроков, результаты матчей и т. д., на язык жестов, отображаемый анимированным аватаром, похожим на мультфильм. Данные, полученные от организаторов мероприятия или других лиц, интерпретируются и помещаются в шаблоны, а затем выражаются аватаром. Однако таким способом можно перевести только ограниченные типы данных. NHK заявляет, что продолжает развивать технологию, чтобы аватары могли выражать эмоции более человечно.
Lenovo и бразильский центр инноваций CESAR недавно объявлено они создавали переводчик языка жестов, чтобы слышать людей, использующих ИИ. Аналогично, SLAIT (что означает переводчик языка жестов AI). разрабатывается образовательный инструмент, который помогает изучать ASL в интерактивном режиме. Хотя эти задачи отличаются от наших задач, методы компьютерного зрения и модели обучения искусственного интеллекта, разработанные в рамках этих проектов, могут быть очень полезны для обеспечения перевода с речи на язык жестов в будущем.
Другие стартапы становятся ближе к нашей теме обсуждения. Например, Signapseподошел с решением, которое может переводить текст на язык жестов, отображаемый в виде фотореалистичного анимированного движения аватара. Компания использует генеративно-состязательные сети и методы глубокого обучения, а также постоянно развивающуюся базу данных видео (подробнее об этом в их рецензируемой статье). здесь ). Однако эта платформа предназначена в основном для перевода публичных объявлений и текстов веб-сайтов. Другими словами, похоже, что до прямой трансляции в реальном времени еще далеко.
Израильский стартап CODA сделал еще один шаг вперед к нашей цели. Компания разработала инструмент перевода звука в знак на основе искусственного интеллекта и утверждает, что он работает. «почти мгновенно» . В настоящее время он предлагает свои услуги на пяти исходных языках: английском, иврите, французском, испанском и итальянском. Далее CODA стремится добавить несколько различных языков жестов в странах с высокой численностью населения, таких как Индия и Китай.
Пожалуй, самое близкое к нашей мечте воплощение было представлено Baidu AI Cloud на платформе цифровых аватаров Xiling. Платформа был запущен обеспечить слабослышащую аудиторию трансляциями зимних Паралимпийских игр 2022 года в Пекине. Местные СМИ сообщили, что они способны создавать цифровые аватары для сурдоперевода и живого перевода «за считанные минуты».
Заключение
Следующим шагом в разработке перевода речи в жесты станет расширение вывода на максимально возможное количество жестовых языков и сокращение временного интервала, необходимого для перевода, с минут до секунд. Обе задачи представляют собой серьезные проблемы. Добавление большего количества языков жестов в выходной канал означает создание и постоянное развитие обширных баз данных жестов рук и тела, а также выражений лица. Сокращение временного разрыва еще более важно, поскольку в спорте важны моменты. Даже минутный перерыв означает, что стрим следует задержать, иначе зрители упустят саму суть игры. Время, необходимое для перевода, можно сократить за счет создания более обширной аппаратной инфраструктуры, разработки баз данных наиболее типичных речевых шаблонов, которые можно распознать еще до того, как фраза будет закончена. Все это может показаться дорогостоящим предприятием. Но с одной стороны, улучшение качества жизни миллионов людей бесценно. С другой стороны, мы говорим не только о благотворительности. Подумайте о дополнительной аудитории, которую получат трансляции, и о спонсорских деньгах, которые будут задействованы. В целом, это вполне может быть беспроигрышная игра.
Похоже, что крупные технологические компании также присоединяются к гонке. Zippia, портал вакансий, недавно сообщил, что Google нанимает переводчики языка жестов получают зарплату, более чем в два раза превышающую зарплату, которую они обычно ожидают в Соединенных Штатах (110 734 доллара США против средних 43 655 долларов США). При таких темпах переводчик языка будет получать примерно на 10% больше, чем средний инженер-программист в США ( 100 260 долларов США ). Это вполне может быть намеком на то, что в ближайшее время нас ожидает крупный прорыв…
Пожалуйста, не стесняйтесь комментировать и позвольте нам объединить усилия, чтобы найти решение!