Dans ce monde moderne dans lequel nous vivons, nous n'avons plus besoin d'aucune aide humaine pour créer une voix qui sonne exactement comme le ferait un autre humain.  La technologie de synthèse vocale a radicalement transformé notre réalité, qu'il s'agisse d'aider les conducteurs à naviguer sur des terrains inconnus avec un GPS ou d'aider les personnes malvoyantes à lire.  Au fil des ans, la synthèse vocale nous a considérablement simplifié la vie. Arrêtons-nous un instant et examinons comment cette technologie est entrée en jeu et comment elle est en train d'être révolutionnée par l'IA en ce moment.  Les débuts de la technologie de synthèse vocale  Les premières aventures dans la technologie de synthèse vocale ont commencé au milieu du XXe siècle lorsque les premiers systèmes de synthèse vocale informatisés ont été créés.  Ces premiers systèmes étaient extrêmement rudimentaires, avec des voix robotiques qui ne ressemblaient pas beaucoup à la vraie parole humaine - mais elles étaient compréhensibles, ce qui était un énorme succès en soi.  Au fil des ans, cette technologie a été développée et évoluée, et aujourd'hui, nous avons un accès facile à  des outils que n'importe qui peut utiliser pour améliorer son contenu.    synthèse vocale gratuite  Les premiers systèmes de synthèse vocale utilisaient la synthèse des formants - un processus qui recréait la parole humaine en synthétisant les composants de base des sons et en les rassemblant dans un ordre harmonieux.  Même si ces systèmes semblaient robotiques et manquaient de nombreuses complexités de la parole humaine, ils étaient très efficaces pour créer des aides pour les personnes qui avaient du mal à lire un texte.  De nos jours, nous n'avons plus à recourir à ces techniques rudimentaires. En fait, la technologie de synthèse vocale a tellement progressé qu'elle est désormais facilement accessible à toute personne ayant accès à Internet, sans nécessiter de compétences techniques.  CapCut - un logiciel gratuit d'édition de vidéos et d'images en ligne développé par les créateurs de TikTok - peut créer facilement des voix réalistes, permettant aux utilisateurs de choisir parmi une variété de modèles et de créer des voix off dans de nombreuses langues différentes, dont l'anglais, le coréen, le turc, l'espagnol, le russe, l'allemand, l'arabe, et plus encore !  Les défis de l'ancienne technologie TTS et l'avènement de l'IA  L'un des plus grands défis des premiers systèmes de synthèse vocale était de reproduire fidèlement la parole humaine - la riche variation et l'intonation qui entrent dans chaque phrase prononcée. Notre discours n'est pas qu'une série de mots.  Il a un rythme, un accent, une hauteur et un ton, qui portent tous des informations émotionnelles et significatives en plus des mots. Les systèmes TTS traditionnels ne pouvaient pas reproduire ces complexités, ce qui se traduisait par un discours plat et sans émotion.  Puis, quelque chose de nouveau est arrivé : l'Intelligence Artificielle. Avec l'IA et les modèles d'apprentissage en profondeur, les réseaux de neurones artificiels ont été conçus pour imiter le fonctionnement du cerveau humain.  Ces réseaux ont contribué à créer une nouvelle ère de technologie de synthèse vocale, où l'IA est utilisée pour apprendre et générer de la parole directement à partir de texte.  La synthèse vocale basée sur l'IA tire parti d'énormes quantités de données et d'algorithmes sophistiqués, générant une parole humaine incroyablement réaliste avec toutes ses caractéristiques uniques. Les algorithmes s'entraînent sur des bases de données existantes de la parole humaine, des modèles d'apprentissage et des subtilités similaires à la façon dont un humain apprendrait une langue.  Tout d'abord, le modèle est formé pour comprendre la phonétique et la façon dont différents mots sont prononcés dans divers contextes. Ensuite, l'IA apprend à capturer le bon rythme et l'intonation, en mettant en œuvre des schémas de stress naturels qui ajoutent des émotions et une signification au-delà des mots nus.  Aujourd'hui, créer une voix off de synthèse vocale réaliste est aussi simple que d'écrire le texte et de sélectionner une voix. CapCut, par exemple, propose une vaste bibliothèque de voix masculines et féminines parmi lesquelles choisir, permettant aux utilisateurs de sélectionner celle qui correspond parfaitement à leur vidéo.  Le débit et le volume de la parole peuvent être facilement ajustés, créant un TTS précis et réaliste en quelques minutes.  La synthèse vocale n'est pas le seul outil alimenté par l'IA proposé par CapCut. Les utilisateurs de l'éditeur d'images et de vidéos en ligne gratuit peuvent également profiter du transfert de style d'image AI, du générateur de portraits AI, de la mise à l'échelle des images et des vidéos AI, du coloriseur de photos et de la correction des couleurs alimentée par l'IA.  Avec les progrès de l'intelligence artificielle, les éditeurs n'ont plus besoin de tester et d'essayer différentes techniques - l'IA sélectionnera elle-même la plus appropriée, améliorant ainsi les images et les vidéos sans effort.  L'avenir de la technologie de synthèse vocale  Aujourd'hui, la technologie de synthèse vocale ne produit plus une voix déshumanisée et sans vie qui sonne comme les synthétiseurs du début des années 2000 (vous vous souvenez d'Ivona ?).  Avec les voix AI, même les utilisateurs sans aucune connaissance technique peuvent créer une voix off hautement personnalisable, en modifiant sa vitesse, son ton, son accent et bien d'autres aspects de la voix.  Ces voix ont des tonnes d'applications, de la création d'assistants virtuels parlants et d'aides à l'accessibilité à la création de livres audio ou de jeux vidéo sans avoir à embaucher des comédiens.  Alors que nous nous dirigeons vers l'avenir de la technologie TTS, nous serons en mesure de créer des voix plus réalistes, expressives et personnalisables. Bientôt, les voix off de l'IA pourraient être indiscernables de la parole humaine, capables de transmettre toutes les émotions que l'auteur souhaite.  Cela, bien sûr, crée de nouveaux problèmes auxquels l'humanité devra faire face - comme les grèves actuellement en cours de la SAG-AFTRA (The Screen Actors Guild - Fédération américaine des artistes de la télévision et de la radio) qui contestent l'utilisation en studio de l'IA pour recréer les visages et les voix des acteurs.   Cette histoire a été distribuée en tant que version par Ascend dans le cadre du programme Brand As An Author de HackerNoon. En savoir plus sur le programme ici :   https://business.hackernoon.com/brand-as-author

This is a PR written by or for the company mentioned within it. The writer has a vested interest in the company and products mentioned within.

2022 - HackerNoon Contributor of the Year - Art

2022 - HackerNoon Contributor of the Year - Cybersecurity

2022 - HackerNoon Contributor of the Year - Dao

2022 - HackerNoon Contributor of the Year - Security

Ascend Agency

Nominated for 2022 - HackerNoon Contributor of the Year - Security

Nominated for 2022 - HackerNoon Contributor of the Year - Dao

Nominated for 2022 - HackerNoon Contributor of the Year - Art

Nominated for 2022 - HackerNoon Contributor of the Year - Cybersecurity

Cet audio est produit dans la langue originale de l'histoire !

L'évolution de la technologie de synthèse vocale : comment fonctionnent les voix de l'IA ?

About Author

COMMENTAIRES

ÉTIQUETTES

CET ARTICLE A ÉTÉ PARU DANS

Related Stories

Télégramme : le pont de Crypto Island vers le continent

Nomades numériques, écoutez : ce que vous devez savoir sur le nouveau visa DTV de la Thaïlande

Le guide complet pour réussir une migration vers le cloud : stratégies et bonnes pratiques

Le modèle Bitcoin UTXO, alimentant un écosystème unique

Télégramme : le pont de Crypto Island vers le continent

Nomades numériques, écoutez : ce que vous devez savoir sur le nouveau visa DTV de la Thaïlande

Le guide complet pour réussir une migration vers le cloud : stratégies et bonnes pratiques

Le modèle Bitcoin UTXO, alimentant un écosystème unique

Light-Mode

Classic

Newspaper

Minty

Dark-Mode

Neon Noir

Minty

HN StartUps