paint-brush
文本转语音技术的演变:人工智能语音如何工作?by@ascend
1,536
1,536

文本转语音技术的演变:人工智能语音如何工作?

Ascend Agency4m2023/07/21
Read on Terminal Reader

文本转语音技术极大地改变了我们的现实,从帮助驾驶员使用 GPS 导航陌生的地形,到帮助视障人士阅读。在我们生活的现代世界中,我们不再需要任何人类帮助来创造听起来与另一个人完全一样的声音。
featured image - 文本转语音技术的演变:人工智能语音如何工作?
Ascend Agency HackerNoon profile picture
0-item

在我们生活的这个现代世界中,我们不再需要任何人类的帮助来创造听起来与另一个人完全一样的声音。


文本转语音技术极大地改变了我们的现实,从利用 GPS 帮助驾驶员在不熟悉的地形中导航,到帮助视障人士阅读。


多年来,文本转语音使我们的生活变得更加轻松。让我们停下来仔细看看这项技术是如何发挥作用的,以及人工智能现在如何对其进行彻底变革。

文本转语音技术的早期发展

文本转语音技术的首次尝试始于 20 世纪中叶,当时创建了第一个基于计算机的语音合成系统。


这些早期的系统非常简陋,机器人的声音与真实的人类语言不太相似,但它们很容易理解,这本身就是巨大的成功。


多年来,这项技术得到了进一步的发展和演变,今天,我们可以轻松获得免费文本转语音任何人都可以用来增强内容的工具。



最早的文本转语音系统使用共振峰合成——通过合成声音的基本组成部分并将它们以和谐的顺序组合在一起来重新创建人类语音的过程。


尽管这些系统听起来像机器人,并且缺乏人类语音的许多复杂性,但它们在为阅读文本有困难的人提供帮助方面非常有效。


如今,我们不必诉诸这些基本技术。事实上,文本转语音技术已经取得了很大的进步,现在任何可以访问互联网的人都可以轻松使用它,而无需任何技术技能。


CapCut - 由 TikTok 创建者开发的免费在线视频和图像编辑软件 - 可以轻松创建逼真的声音,允许用户从各种模板中进行选择并创建多种不同语言的配音,包括英语、韩语、土耳其语、西班牙语、俄语、德语、阿拉伯语等!

旧 TTS 技术的挑战和人工智能的出现

早期文本转语音系统面临的最大挑战之一是真实地复制人类语音,即每个说出的句子中丰富的变化和语调。我们的演讲不仅仅是一系列的话语。


它有节奏、重音、音调和语气,除了文字之外,它们还携带情感和有意义的信息。传统的 TTS 系统无法复制这些复杂性,导致语音平淡无情。


然后,新的东西出现了——人工智能。通过人工智能和深度学习模型,人工神经网络被设计来模仿人类大脑的功能。


这些网络帮助开创了文本转语音技术的新时代,其中人工智能用于直接从文本学习和生成语音。


基于人工智能的文本转语音利用大量数据和复杂的算法,生成具有所有独特功能的极其逼真的人类语音。这些算法在现有的人类语音、学习模式和微妙之处的数据库上进行训练,类似于人类学习语言的方式。


首先,模型经过训练来理解语音以及不同单词在不同上下文中的发音。然后,人工智能学习如何捕捉正确的节奏和语调,实施自然的压力模式,从而在简单的单词之外添加情感和意义。


如今,创建逼真的文本转语音配音就像编写文本并选择声音一样简单。例如,CapCut 提供了大量的男性和女性声音可供选择,允许用户选择最适合他们视频的声音。


可以轻松调整语速和音量,在几分钟内创建准确、真实的 TTS。


文本转语音并不是 CapCut 提供的唯一人工智能工具。免费在线图像和视频编辑器的用户还可以利用 AI 图像风格转换、AI 肖像生成器、AI 图像和视频升级、照片着色器和 AI 驱动的色彩校正。


随着人工智能的进步,编辑人员不再需要测试和尝试不同的技术 - 人工智能将自行选择最合适的技术,毫不费力地增强图像和视频。

文本转语音技术的未来

如今,文本转语音技术不再产生听起来像 2000 年代初期合成器的非人性、毫无生气的声音(还记得伊沃娜吗?)。


借助人工智能语音,即使没有任何技术知识的用户也可以创建高度可定制的画外音,改变其速度、语气、口音以及语音的许多其他方面。


这些声音有大量的应用程序,从创建会说话的虚拟助手和辅助工具到制作有声读物或视频游戏而无需雇用配音演员。


随着我们迈向 TTS 技术的未来,我们将能够创造出更加逼真、更具表现力和个性化的声音。很快,人工智能配音可能与人类语音无法区分,能够传达作者想要的任何情感。


当然,这会带来人类必须应对的新问题,例如目前正在进行的 SAG-AFTRA(美国电视和广播艺术家联合会)罢工,抗议工作室使用人工智能来重现演员的面孔和声音。


这个故事是由 Ascend 在 HackerNoon 的品牌作者计划下发布的。在此了解有关该计划的更多信息: https://business.hackernoon.com/brand-as-author