Avez-vous déjà rêvé d'un bon outil de transcription qui comprendrait avec précision ce que vous dites et l'écrirait ? Pas comme les outils de traduction automatique de YouTube… Je veux dire, ils sont bons mais loin d'être parfaits. Essayez-le et activez la fonctionnalité pour la vidéo, et vous verrez de quoi je parle. Heureusement, OpenAI vient de publier et d'ouvrir un modèle d'IA assez puissant rien que pour ça : Whisper. Il comprend des choses que je ne peux même pas comprendre, n'étant pas de langue maternelle anglaise (écoutez la vidéo) et cela fonctionne aussi pour la traduction linguistique ! En savoir plus dans la vidéo ci-dessous... Références ►Lire l'article complet : ► Radford, A., Kim, JW, Xu, T., Brockman, G., McLeavey, C. et Sutskever, I., Reconnaissance vocale robuste via une faiblesse à grande échelle Surveillance. ►Lien du projet : ►Code : ► Bloc-notes Google Colab : ►Application YouTube Whisperer : ►Ma Newsletter (Une nouvelle application d'IA expliquée chaque semaine à vos mails !) : https://www.louisbouchard.ai/whisper/ https://openai.com/blog/whisper/ https://github.com/openai/whisper https://colab.research.google.com/github/openai/whisper/blob/master/notebooks/LibriSpeech.ipynb https://huggingface.co/spaces/jeffistyping/Youtube-Whisperer https://www.louisbouchard.ai/newsletter/ Transcription vidéo 0:00 avez-vous déjà rêvé d'un bon 0:01 outil de transcription qui sera précis 0:03 comprenez ce que vous voyez et écrivez-le 0:05 vers le bas pas comme le YouTube automatique 0:07 outils de traduction je veux dire qu'ils sont bons 0:09 mais loin d'être parfait, essayez-le et 0:12 activez la fonctionnalité pour cette vidéo et 0:14 tu verras bien de quoi je parle 0:16 open AI vient de publier un open source 0:18 et un modèle d'IA assez puissant juste pour 0:21 ce murmure il comprend même des trucs que je 0:24 Je ne peux même pas comprendre de ne pas être natif 0:26 anglophone 0:28 c'est l'homme de la micro-machine qui présente 0:29 le cortège le plus miniature de 0:30 micro machine chacun a du dramatique 0:32 détails garniture formidable Page de précision Art 0:33 Plus une incroyable poche pour micro-machine 0:34 endroit qui dit qu'une PlayStation le lance 0:36 fonctionne aussi pour la traduction linguistique 0:38 chuchote un liquide consistant il 0:41 sonne automatiquement l'alternateur 0:48 les résultats et la précision sont incroyables 0:51 mais ce qui est encore plus cool, c'est comment ça marche 0:53 plongeons-y mais d'abord laissez-moi 0:56 présenter le sponsor de cet épisode qui est 0:58 fortement lié à cette assemblée de recherche 1:00 AI assembly AI est la plate-forme API pour 1:03 des modèles d'IA de pointe issus de startups 1:06 aux développeurs des entreprises du Fortune 500 et 1:08 les équipes produit du monde entier tirent parti 1:10 assemblage AI pour construire de meilleurs 1:13 produits et fonctionnalités si vous êtes 1:15 créer un podcast de synthèse de réunion 1:17 analyseur ou vraiment tout ce qui concerne 1:19 audio ou vidéo et souhaitez tirer parti de l'IA 1:22 pour alimenter la transcription ou les informations à 1:24 échelle certainement vérifier leur API 1:26 plate-forme plus précisément, je voulais 1:29 partager leur modèle de synthèse que je 1:31 trouver vraiment cool comme son nom l'indique avec 1:34 ce modèle, vous pouvez créer des outils qui 1:36 résume automatiquement votre audio et 1:38 fichiers vidéo, le modèle est flexible pour s'adapter 1:41 votre cas d'utilisation et peut être personnalisé pour 1:44 différents types de puces de résumé 1:46 les titres des paragraphes ou tout ajuster 1:48 Fonctionne via de simples appels d'API et vous 1:51 pouvez trouver toutes les informations dont vous avez besoin 1:53 pour le modèle de synthèse et l'assemblage 1:55 AI avec le premier lien ci-dessous 1:59 quand il s'agit du modèle lui-même 2:01 murmure est assez classique sur lequel il est construit 2:04 l'empilement de l'architecture Transformer 2:06 blocs codeurs et blocs décodeurs avec 2:08 le mécanisme de l'attention qui se propage 2:10 informations entre les deux il faudra 2:13 l'enregistrement audio l'a divisé en 30 2:16 deuxièmes morceaux et traitez-les un par 2:18 un pour chaque enregistrement de 30 secondes 2:21 encodera l'audio à l'aide de l'encodeur 2:23 section et enregistrez la position de chaque 2:25 mot dit et tirer parti de ce code 2:28 informations pour trouver ce qui a été dit en utilisant 2h30 le décodeur le décodeur prédira 2:33 ce que nous appelons des jetons de tout cela 2:34 informations qui sont essentiellement chacune 2:37 mots étant dit alors il se répétera 2:39 ce processus pour le mot suivant en utilisant tous 2:41 les mêmes informations ainsi que les 2:43 prédit le mot précédent en l'aidant à 2:46 devinez le prochain qui fera plus 2:48 sens comme je l'ai dit l'architecture globale 2:50 est un encodeur et décodeur classique et je 2:53 l'a couvert dans plusieurs vidéos similaires à 2:55 gpt3 et d'autres modèles de langage que j'ai 2:58 vous invite à vérifier plus 3:00 détails architecturaux cela fonctionne comme il 3:02 a été formé sur plus de 600 000 heures 3:05 d'encadrés multilingues et multitâches 3:08 données collectées sur le Web, ce qui signifie que 3:11 ils ont formé leur modèle audio dans un 3:12 manière similaire à gpt3 avec des données disponibles 3:15 sur Internet, ce qui en fait un grand et 3:18 modèle audio général, il rend également le 3:20 modèle beaucoup plus robuste que d'autres dans 3:23 fait ils ont mentionné ce murmure 3:24 se rapproche de la robustesse au niveau humain en raison de 3:27 être formé sur un ensemble aussi diversifié de 3:29 des données allant de Clips TED Talks 3:32 podcasts interviews et plus encore 3:34 représentent des données du monde réel avec certains 3:36 d'entre eux transcrits à l'aide d'une machine 3:38 des modèles basés sur l'apprentissage et non des humains 3:40 utilisant des données aussi imparfaites certainement 3:43 réduit la précision possible mais je 3:45 diront que cela aide à la robustesse lorsque 3:47 utilisé aussi peu par rapport à l'homme pur 3:49 ensembles de données audio organisés avec une parfaite 3:52 transcriptions ayant un tel caractère général 3:54 modèle n'est pas très puissant en soi car 3:57 il sera battu à la plupart des tâches par 3:58 modèles plus petits et plus spécifiques adaptés 4:01 à la tâche à accomplir, mais il a d'autres 4:03 avantages que vous pouvez utiliser ce genre de 4:05 modèles pré-formés et affinez-les sur 4:08 votre tâche signifie que vous prendrez 4:10 ce modèle puissant et recycler une partie 4:13 de celui-ci ou le tout avec le vôtre 4:15 données que cette technique a démontré 4:17 produire de bien meilleurs modèles que de commencer 4:19 formation à partir de zéro avec vos données et 4:21 ce qui est encore plus cool c'est que openai open 4:24 source leur code et tout 4:25 au lieu d'une API pour que vous puissiez utiliser le chuchotement 4:28 en tant qu'architecture de base pré-formée 4h30 s'appuyer sur et créer des 4:33 modèles pour vous-même certaines personnes ont 4:35 déjà publié les outils comme le 4:37 YouTube Whisperer visage sans câlin par Jeff 4:39 est en train de taper en prenant un lien YouTube et 4:42 générer des transcriptions que j'ai trouvées 4:44 grâce à Yannick kilter ils ont aussi 4:46 a publié un bloc-notes de collaboration Google pour 4:48 jouer avec tout de suite pendant que quelque chose 4:50 la concurrence est la clé, je suis content que openai soit 4:53 diffuser une partie de son travail au public 4:54 Je suis convaincu que de telles collaborations sont 4:57 la meilleure façon d'avancer dans notre domaine 5:00 je sais ce que tu penses si tu veux 5:01 voir plus de versions publiques d'openai ou si 5:04 vous aimez les produits finis qu'ils fabriquent 5:06 comme dally comme toujours vous pouvez trouver plus 5:08 informations sur le chuchotement dans le journal 5:11 et le code lié ci-dessous et j'espère que vous avez 5:13 J'ai aimé cette vidéo, je vous verrai ensuite 5:15 semaine avec un autre papier incroyable