近日,阿根廷总统AI配音 由视频初创公司 Heygen 制作的视频在社交媒体上疯传。 哈维尔·米莱 (Javier Milei) 在 2024 年世界经济论坛上的演讲 该软件不仅可以准确地将他的西班牙语翻译成英语,还可以无缝地处理口型同步,这是传统上视频行业专业人士独有的任务。 尽管一些观察家 海根版本的米莱听起来有点像“在斯旺西待了十年之后的孟加拉国人”,我会驳斥这些谣言。令人难以忽视的是人工智能驱动的阿根廷总统的机械声音和语调。 宣称 坦率地说,真正的 Milei 听起来比那更好,也更有情感表现力。 https://www.youtube.com/watch?v=YtegqgKYR-U&embedable=true 直到最近,情感和语调一直是旨在颠覆媒体行业的人工智能初创公司面临的最大挑战。人类仍然更擅长通过声音表达激情、悲伤或愤怒。但情况似乎即将发生变化。 其他 基本上没有引起人们注意的是一家位于阿姆斯特丹的人工智能配音初创公司 Dubformer。该公司声称其开发了用于翻译歌曲中的情感和语调的技术。 最近的展示 您可以自行判断: https://www.youtube.com/watch?v=VMBLs2Zr9NY&embedable=true 该初创公司对英国摇滚乐队 The Animals 于 1964 年录制的最著名版本的《House of the Rising Sun》进行了本地化。看起来这个展示在捕捉音乐表达的本质和情感深度方面具有类似人类的品质。 Dubformer 首席执行官 Anton Dvorkovich 表示,该公司依赖其内部专有技术,包括自动语音识别 (ASR)、文本转语音 (TTS) 和语音生物识别技术。 人工智能实施专家、解决方案架构师和教育家 Micah Berkley 表示,Dubformer 的技术正在塑造人工智能扩大艺术表达全球影响力的未来。 就我个人而言,我无法理解人工智能语音或翻译可以与人类的情感表达和参与相媲美的想法。但我们似乎正处于重大变革的前线。