9월 23일은 2017년 유엔이 선포한 세계 수화의 날 입니다. 이 날은 모든 미디어와 기술 제품이 모든 미디어와 기술 제품에 동등하게 접근할 수 있는 날이 올 것이라는 꿈을 꾸기에 좋은 기회입니다(또는 목표를 설정할 수도 있습니다). 장애에 관계없이 모든 사람. 나는 언젠가 모든 청각 장애인들이 라이브 스포츠 스트리밍을 시청할 수 있게 되기를 꿈꿉니다. 실시간 수화로 번역하는 것은 인간 통역사에게도 까다로운 작업입니다. 그러나 숙련된 통역사가 너무 적고 다양한 수화가 너무 많기 때문에 현재 스포츠 중계는 진정으로 보편적으로 접근할 수 없습니다. 이 문제를 해결하기 위해 인공지능(AI)을 사용하는 것은 매우 흥미로운 기술적 과제이자 확실히 좋은 원인입니다. 지난 몇 년 동안 이 분야에서 많은 일이 이루어졌지만 여전히 장애물은 남아 있습니다. 이 기사에서는 이 목표를 위한 최신 기술에 대한 개요를 제공하고 이러한 결과에 대해 토론하고 이 수수께끼를 푸는 데 기여하도록 여러분을 초대합니다.
스포츠는 모든 사람을 위한 것이 아닌가?
스포츠는 왕입니다. 최초의 고대 올림픽 이후(그리고 아마도 그 이전에도) 그것은 인간 본성의 경쟁적인 부분을 비폭력적인 형태로 바꾸는 데 도움이 되었습니다. 이는 전 세계와 정치적 국경을 넘어 수백만 명의 사람들을 하나로 묶어 왔습니다. 또한 현대 디지털 및 미디어 세계의 지배자이기도 합니다. 에 따르면 연구 및 시장, 세계 스포츠 시장은 2022년 4,866억 1천만 달러에서 2023년 5,121억 4천만 달러로 연평균 복합 성장률(CAGR) 5.2%로 성장했습니다. 스포츠 시장은 연평균 성장률(CAGR) 5.0%로 2027년에는 6,236억 3천만 달러로 더욱 성장할 것으로 예상됩니다. 이는 세계 경제 성장률이 2022년 3.5%에서 2023년과 2024년 3.0%로 하락할 것으로 예상되는 것보다 훨씬 빠른 속도입니다. 국제 통화 기금 . 전 세계 온라인 라이브 비디오 스포츠 스트리밍 시장 규모만 2020년 181억 1천만 달러로 평가되었으며, 예상된다 2028년에는 873억 3천만 달러에 이를 것으로 예상됩니다. 스포츠의 인기를 더욱 잘 보여주는 2022년 닐슨스포츠의 보도 스포츠가 이용 가능한 방송 프로그램 콘텐츠의 2.7%만을 차지함에도 불구하고 미국 선형 TV 광고 수익의 31%가 라이브 스포츠 프로그래밍에 의존하고 있다고 밝혔습니다.
그러나 이 거대한 산업은 세계 인구의 상당 부분을 (부분적으로 또는 전체적으로) 놓치고 있습니다. 유엔 데이터에 따르면 전 세계 청각 장애인은 7천만 명에 달하며 이는 지구 인구 80억 5천만 명 중 10%에도 조금 못 미치는 수치입니다. 문제는 진행됩니다. 세계보건기구(WHO)는 2050년까지 25억 명(또는 전체 인류의 약 4분의 1)이 어느 정도 청력 상실을 경험할 것으로 예상합니다. 물론 많은 스포츠 방송에는 자막이 있습니다. 그러나 문제는 많은 청각 장애인들이 읽고 쓰는 법을 배우는 데 어려움을 겪고 있다는 것입니다. 대부분의 국가에서 청각 장애인의 문맹률은 75% 이상 , 정말 놀라운 비율입니다. 많은 방송, 특히 TV에는 실시간 수화 통역사가 있습니다. 그런데 또 문제가 있습니다. 전 세계의 청각 장애인들은 300개 이상의 서로 다른 수화를 사용하며 그 중 대부분은 서로 이해할 수 없습니다. 하나의 방송을 전 세계적으로 접근 가능하게 만들기 위해 300명의 통역사를 고용하는 것은 분명히 불가능합니다. 하지만 대신 AI를 고용한다면 어떨까요?
생명의 기호(언어)
이 작업의 어려움을 완전히 이해하기 위해 실제로 수화가 무엇인지 간략하게 살펴보겠습니다. 역사적으로 그들은 정상적인 청력을 가지고 있지만 다른 언어를 사용하는 사람들이 링구아 프랑카로 자주 사용했습니다. 가장 잘 알려진 예는 수화이다. 평원 인디언 19세기 북미에서. 서로 다른 부족의 언어는 서로 다르지만 생활 방식과 환경이 상당히 유사하여 공통된 상징을 찾는 데 도움이 되었습니다. 예를 들어, 하늘을 배경으로 그려진 원은 달, 또는 달처럼 창백한 것을 의미합니다. 아프리카와 호주의 부족들도 비슷한 의사소통 방법을 사용했습니다.
그러나 청각 장애인이 사용하는 수화의 경우에는 그렇지 않습니다. 그들은 각 지역, 국가에서 독립적으로 발전해 왔으며 때로는 도시마다 다르기도 합니다. 예를 들어, 미국에서 널리 사용되는 미국 수화(ASL)는 두 국가 모두 영어를 사용하지만 영국 수화와 완전히 다릅니다. 아이러니하게도 ASL은 고대 프랑스 수화에 훨씬 더 가깝습니다. (LSF) 왜냐하면 프랑스의 청각 장애인 Laurent Clerc는 19세기 미국 최초의 청각 장애인 교사 중 한 명이었기 때문입니다. 대중적인 믿음과는 달리, 진정한 국제 수화는 없습니다. 하나를 만들려는 시도는 현재 국제 수화로 알려진 Gestuno , 1951년 국제 청각 장애인 연맹에서 창안한 것입니다. 그러나 청각 장애인에 대한 유사어인 에스페란토와 마찬가지로 진정한 해결책이 되는 데는 그다지 인기가 없습니다.
수화 번역을 논의할 때 명심해야 할 또 다른 중요한 점은 수화는 우리가 들을 수 있는 언어와는 완전히 다른 독자적인 언어라는 것입니다. 매우 흔한 오해는 수화가 청문회에서 말하는 언어를 모방한다는 것입니다. 반대로, 그들은 완전히 다른 언어 구조, 문법 및 구문을 가지고 있습니다. 예를 들어, ASL에는 주제-주석 구문이 있는 반면 영어는 주제-목적어-동사 구조를 사용합니다. 따라서 구문 측면에서 ASL은 실제로 일본어를 사용하는 사람들과 더 많은 것을 공유합니다 영어보다요. 기호 알파벳이 있습니다(자세한 내용은 참조). 여기 ), 그러나 단어를 구성하는 것이 아니라 장소와 사람의 고유 이름을 철자하는 데 사용됩니다.
장벽을 허물다
음성언어와 수화언어를 연결하려는 시도는 수없이 많았습니다. '로봇 장갑'을 사용해 제스처 인식을 위해. 그 중 일부는 1980년대로 거슬러 올라갑니다. 시간이 지남에 따라 가속도계 및 모든 종류의 센서와 같은 더욱 정교한 장치가 추가되었습니다. 그러나 이러한 시도는 성공 기껏해야 제한적이었다 . 그리고 어쨌든 그들 대부분은 수화를 음성 언어로 번역하는 데 중점을 두었고 그 반대는 아니었습니다. 컴퓨터 비전, 음성 인식, 신경망, 기계 학습 및 AI의 최근 개발은 음성 언어를 수화 언어로 직접 번역하는 것도 가능하다는 희망을 줍니다.
가장 일반적인 경로는 3D 아바타를 사용하여 수화 제스처와 감정을 표시하고 음성 및 기타 데이터를 입력으로 사용하는 것입니다. 주목할만한 특징 NHK에서 개발한 일본의 방송사는 선수 이름, 점수 등과 같은 스포츠 데이터를 애니메이션 만화 같은 아바타가 표시하는 수화로 번역하는 기능을 제공합니다. 이벤트 주최자나 기타 주체로부터 받은 데이터를 해석하여 템플릿에 넣은 후 아바타로 표현합니다. 그러나 제한된 유형의 데이터만 이 방식으로 변환할 수 있습니다. NHK는 아바타가 보다 인간적인 방식으로 감정을 표현할 수 있도록 기술을 계속 개발하고 있다고 밝혔다.
Lenovo와 브라질 혁신 허브 CESAR 최근 발표 그들은 AI를 사용하는 사람들의 말을 들을 수 있는 수화 번역기를 만들고 있었습니다. 마찬가지로 SLAIT(Sign Language AI Translator의 약자) 발전해왔다 대화형 방식으로 ASL을 배우는 데 도움이 되는 교육 도구입니다. 이러한 작업은 우리의 범위와 다르지만 이러한 프로젝트에서 개발된 컴퓨터 비전 기술과 AI 교육 모델은 향후 음성에서 수화로의 번역을 제공하는 데 매우 유용할 수 있습니다.
다른 스타트업도 우리의 논의 주제에 점점 가까워지고 있습니다. 예를 들어, 시냅스올라왔다 텍스트를 사진처럼 사실적인 애니메이션 아바타 모션으로 표시되는 수화로 번역할 수 있는 솔루션을 제공합니다. 이 회사는 생성적 적대 신경망(Generative Adversarial Networks)과 딥 러닝 기술은 물론 지속적으로 개발되는 비디오 데이터베이스를 사용합니다(자세한 내용은 동료 검토 기사 참조). 여기 ). 하지만 이 플랫폼은 주로 공시 및 웹사이트 텍스트 번역을 목표로 합니다. 즉, 실시간 실시간 번역과는 아직 거리가 먼 것 같습니다.
이스라엘에 본사를 둔 스타트업 CODA는 우리의 목표를 향해 한 걸음 더 나아갔습니다. AI 기반 오디오-서명 번역 도구를 개발했으며 이 도구가 작동한다고 주장합니다. “거의 즉시” . 현재 영어, 히브리어, 프랑스어, 스페인어, 이탈리아어 등 5개 소스 언어로 서비스를 제공하고 있습니다. 다음으로 CODA는 인도, 중국 등 인구가 많은 국가의 다양한 수화를 추가하는 것을 목표로 하고 있습니다.
아마도 우리의 꿈에 가장 가까운 것은 Baidu AI Cloud의 디지털 아바타 플랫폼 Xiling에서 선보인 것입니다. 플랫폼 발사되었다 청각 장애가 있는 시청자에게 2022년 베이징 동계 장애인 올림픽 방송을 제공합니다. 현지 언론은 “몇 분 안에” 수화 번역과 실시간 통역을 위한 디지털 아바타를 생성할 수 있다고 전했다.
결론
음성-수화 번역 개발의 다음 단계는 출력을 가능한 한 많은 수화로 확장하고 번역에 필요한 시간 간격을 몇 분에서 몇 초로 줄이는 것입니다. 두 작업 모두 주요 과제를 나타냅니다. 출력 피드에 더 많은 수화를 추가한다는 것은 얼굴 표정뿐만 아니라 손과 신체 제스처에 대한 광범위한 데이터베이스를 만들고 영구적으로 개발하는 것을 의미합니다. 스포츠는 순간이 전부이기 때문에 시간 격차를 줄이는 것이 더욱 중요합니다. 1분의 간격이라도 스트리밍이 지연되어야 함을 의미합니다. 그렇지 않으면 청중은 게임의 본질을 놓칠 것입니다. 보다 광범위한 하드웨어 인프라를 구축하고 문구가 끝나기도 전에 인식할 수 있는 가장 일반적인 음성 템플릿의 데이터베이스를 개발하면 번역에 필요한 시간을 줄일 수 있습니다. 이 모든 것이 비용이 많이 드는 벤처처럼 들릴 수도 있습니다. 그러나 한편으로 수백만 명의 삶의 질을 향상시키는 것은 매우 귀중한 일입니다. 반면에 우리는 정의로운 자선에 관해 이야기하지 않습니다. 방송을 통해 받게 될 추가 청중과 사용되는 후원금을 생각해 보십시오. 전체적으로 보면 윈윈(win-win) 게임이 될 수도 있다.
기술 전공자들도 경쟁에 동참하는 것 같습니다. 취업 포털인 Zippia는 최근 Google에서 채용하고있다 수화 통역사의 급여는 미국에서 일반적으로 기대하는 급여의 두 배 이상입니다($110,734 대 평균 $43,655). 이 비율로 언어 통역사는 미국의 평균 소프트웨어 엔지니어보다 약 10% 더 많은 것을 얻을 수 있습니다( $100,260 ). 이는 우리가 곧 획기적인 발전을 기대하고 있다는 암시일 수도 있습니다…
자유롭게 의견을 보내주시고 우리가 힘을 합쳐 해결책을 찾도록 해주세요!