9 月 23 日是联合国在 2017 年宣布的国际手语日。这个日子是一个梦想(或者设定一个目标)的好时机,即有一天,所有媒体和科技产品都将平等地被人使用。所有人,无论其残疾如何。我梦想有一天所有聋哑人都能够观看体育赛事直播。即使对于人类口译员来说,实时翻译成手语也是一项棘手的任务。但由于熟练的口译员太少,手语种类繁多,体育赛事直播目前还无法真正普及。使用人工智能(AI)来解决这个问题是一个非常有趣的技术挑战,而且绝对是一个非常好的事业。过去几年,这一领域已经做了很多工作,但障碍仍然存在。在本文中,我将概述致力于实现这一目标的最新技术,并邀请您讨论这些发现并为破解这个谜题做出贡献。
运动不适合所有人?
体育为王,就这样。自第一届古代奥运会以来(甚至可能更早),它帮助将人性的竞争部分转变为非暴力形式。它已经将全球数百万人团结起来,超越了政治界限。它也是现代数字和媒体世界的统治者。根据研究和市场,全球体育市场从2022年的4866.1亿美元增长到2023年的5121.4亿美元,复合年增长率(CAGR)为5.2%。预计到 2027 年,体育市场将进一步增长至 6236.3 亿美元,复合年增长率为 5.0%。这远远快于世界经济增长速度,根据世界银行的数据,世界经济增长预计将从 2022 年的 3.5% 下降至 2023 年和 2024 年的 3.0%。 国际货币基金组织。 2020 年,仅全球在线体育直播视频市场价值就达到 181.1 亿美元,是期待到 2028 年将达到 873.3 亿美元。进一步说明体育运动的受欢迎程度,2022 年尼尔森体育报道据透露,尽管体育节目仅占可用广播节目内容的 2.7%,但美国线性电视广告收入的 31% 依赖于体育直播节目。
然而,这个庞大的产业(部分或全部)错过了世界人口的很大一部分。联合国数据显示,世界上有7000万聋人,仅略低于地球80.5亿人口的10%。问题还在进一步发展:世界卫生组织预计,到 2050 年,25 亿人(约占人类总数的四分之一)将出现某种程度的听力损失。当然,许多体育赛事转播都有字幕。但问题是许多聋人在学习读写方面存在困难。在大多数国家,聋人的文盲率高于75% ,一个真正惊人的速度。许多广播,尤其是电视广播,都有现场手语翻译。但是,又有一个问题。全球聋人使用 300 多种不同的手语,其中大多数是互相无法理解的。雇佣 300 名口译员来让一场广播在全球范围内传播显然是不可能的。但如果我们雇佣人工智能呢?
生命的符号(语言)
为了充分理解这项任务的难度,让我们简要了解一下手语到底是什么。从历史上看,它们经常被听力正常但讲不同语言的人用作通用语言。最著名的例子是手语平原印第安人在19世纪的北美。不同部落的语言虽然不同,但他们的生活方式和环境却十分相似,这有助于他们找到共同的符号。例如,在天空上画一个圆圈意味着月亮,或者像月亮一样苍白的东西。非洲和澳大利亚的部落也使用类似的交流方式。
然而,聋人使用的手语却并非如此。它们在各个地区、各个国家都独立发展,有时甚至因城市而异。例如,在美国广泛使用的美国手语(ASL)与英国手语完全不同,尽管两国都说英语。讽刺的是,ASL 是更接近古法语手语(LSF) 因为法国聋人洛朗·克莱克 (Laurent Clerc) 是 19 世纪美国第一批聋人教师之一。与普遍看法相反,不存在真正的国际手语。尝试创建一个是Gestuno,现称为国际手语,由国际聋人联合会于 1951 年构想。然而,就像听力正常的人的类似物世界语一样,它并没有那么受欢迎成为真正的解决方案。
在讨论手语翻译时要记住的另一件重要事情是,它们是自己的独立语言,与我们听到的语言完全不同。一个非常常见的误解是手语是在模仿听力者所说的语言。相反,它们具有完全不同的语言结构、语法和句法。例如,美国手语有主题-评论语法,而英语则使用主语-宾语-动词结构。所以,就语法而言,ASL 实际上与日语口语分享更多比英语更重要。有符号字母(查看更多关于它们的信息这里),但它们用于拼写地名和人名,而不是组成单词。
打破障碍
人们曾多次尝试将口语和手语联系起来使用“机器人手套”用于手势识别。其中一些可以追溯到 20 世纪 80 年代。随着时间的推移,更复杂的小工具被添加进来,比如加速计和各种传感器。然而这些尝试的成功充其量是有限的。不管怎样,他们中的大多数人都专注于将手语翻译成口语,而不是相反。计算机视觉、语音识别、神经网络、机器学习和人工智能的最新发展让口语直接翻译成手语成为可能。
最常见的途径是使用 3D 化身来显示手语手势和情感,使用语音和其他数据作为输入。一个显着的特点由NHK开发日本的广播公司可以将运动员姓名、得分等体育数据翻译成由动画卡通头像显示的手语。从活动组织者或其他实体接收到的数据被解释并放入模板中,然后由化身表达。然而,只有有限类型的数据可以通过这种方式进行转换。 NHK 表示,他们将继续开发这项技术,以便化身能够以更人性化的方式表达情感。
联想与巴西创新中心CESAR 最近宣布他们正在创建一款手语翻译器,为使用人工智能的听力正常的人提供帮助。同样,SLAIT(手语人工智能翻译器) 一直在发展一种帮助以互动方式学习 ASL 的教育工具。尽管这些任务与我们的范围不同,但这些项目开发的计算机视觉技术和人工智能训练模型对于未来提供从语音到手语的翻译非常有用。
其他初创公司也越来越接近我们讨论的主题。例如,签名出现了解决方案可以将文本翻译成手语,并显示为逼真的动画头像动作。该公司使用生成对抗网络和深度学习技术,以及不断开发的视频数据库(更多内容请参见他们的同行评审文章这里)。然而,该平台主要旨在翻译公告和网站文本。换句话说,距离实时翻译似乎还很遥远。
以色列初创公司 CODA 向我们的目标又迈出了一步。它开发了一种人工智能驱动的音频到手语翻译工具,并声称它有效“几乎立刻” 。目前,它以五种源语言提供服务:英语、希伯来语、法语、西班牙语和意大利语。接下来,CODA 的目标是添加印度和中国等人口众多国家的多种不同手语。
可以说,最接近我们梦想的是百度人工智能云在其数字化身平台西灵上呈现的。该平台已启动,推出为听障观众提供北京 2022 年冬残奥会的转播服务。当地媒体表示,它能够在“几分钟内”生成用于手语翻译和现场口译的数字化身。
结论
开发语音到手语翻译的下一步是将输出扩展到尽可能多的手语,并将翻译所需的时间间隔从几分钟缩短到几秒钟。这两项任务都是重大挑战。在输出源中添加更多手语意味着创建并永久开发广泛的手势、身体姿势以及面部表情数据库。减少时间差距更为重要,因为体育运动就是时刻。即使是一分钟的间隙也意味着直播应该延迟,否则观众将错过比赛的精髓。通过构建更广泛的硬件基础设施、开发可以在短语完成之前识别的最典型语音模板的数据库,可以减少翻译所需的时间。所有这一切听起来似乎是一项代价高昂的冒险。但一方面,改善数百万人的生活质量是无价的。另一方面,我们谈论的不仅仅是慈善事业。想想广播将收到的额外观众以及正在发挥作用的赞助商资金。总而言之,这可能是一场双赢的游戏。
科技专业人士似乎也加入了这场竞争。职业门户网站 Zippia 最近表示,谷歌一直在招聘手语翻译员的工资是他们在美国通常预期工资的两倍多(110,734 美元,平均 43,655 美元)。按照这个速度,语言解释员的收入将比美国软件工程师的平均收入高出 10% 左右( $100,260 )。这很可能暗示我们很快就会取得重大突破……
欢迎大家留言评论,让我们共同寻找解决方案!