Avez-vous déjà rêvé d'un bon outil de transcription qui comprendrait avec précision ce que vous dites et l'écrirait ? Pas comme les outils de traduction automatique de YouTube… Je veux dire, ils sont bons mais loin d'être parfaits. Essayez-le et activez la fonctionnalité pour la vidéo, et vous verrez de quoi je parle.
Heureusement, OpenAI vient de publier et d'ouvrir un modèle d'IA assez puissant rien que pour ça : Whisper.
Il comprend des choses que je ne peux même pas comprendre, n'étant pas de langue maternelle anglaise (écoutez la vidéo) et cela fonctionne aussi pour la traduction linguistique ! En savoir plus dans la vidéo ci-dessous...
►Lire l'article complet : https://www.louisbouchard.ai/whisper/
► Radford, A., Kim, JW, Xu, T., Brockman, G., McLeavey, C. et
Sutskever, I., Reconnaissance vocale robuste via une faiblesse à grande échelle
Surveillance.
►Lien du projet : https://openai.com/blog/whisper/
►Code : https://github.com/openai/whisper
► Bloc-notes Google Colab : https://colab.research.google.com/github/openai/whisper/blob/master/notebooks/LibriSpeech.ipynb
►Application YouTube Whisperer : https://huggingface.co/spaces/jeffistyping/Youtube-Whisperer
►Ma Newsletter (Une nouvelle application d'IA expliquée chaque semaine à vos mails !) : https://www.louisbouchard.ai/newsletter/
0:00
avez-vous déjà rêvé d'un bon
0:01
outil de transcription qui sera précis
0:03
comprenez ce que vous voyez et écrivez-le
0:05
vers le bas pas comme le YouTube automatique
0:07
outils de traduction je veux dire qu'ils sont bons
0:09
mais loin d'être parfait, essayez-le et
0:12
activez la fonctionnalité pour cette vidéo et
0:14
tu verras bien de quoi je parle
0:16
open AI vient de publier un open source
0:18
et un modèle d'IA assez puissant juste pour
0:21
ce murmure il comprend même des trucs que je
0:24
Je ne peux même pas comprendre de ne pas être natif
0:26
anglophone
0:28
c'est l'homme de la micro-machine qui présente
0:29
le cortège le plus miniature de
0:30
micro machine chacun a du dramatique
0:32
détails garniture formidable Page de précision Art
0:33
Plus une incroyable poche pour micro-machine
0:34
endroit qui dit qu'une PlayStation le lance
0:36
fonctionne aussi pour la traduction linguistique
0:38
chuchote un liquide consistant il
0:41
sonne automatiquement l'alternateur
0:48
les résultats et la précision sont incroyables
0:51
mais ce qui est encore plus cool, c'est comment ça marche
0:53
plongeons-y mais d'abord laissez-moi
0:56
présenter le sponsor de cet épisode qui est
0:58
fortement lié à cette assemblée de recherche
1:00
AI assembly AI est la plate-forme API pour
1:03
des modèles d'IA de pointe issus de startups
1:06
aux développeurs des entreprises du Fortune 500 et
1:08
les équipes produit du monde entier tirent parti
1:10
assemblage AI pour construire de meilleurs
1:13
produits et fonctionnalités si vous êtes
1:15
créer un podcast de synthèse de réunion
1:17
analyseur ou vraiment tout ce qui concerne
1:19
audio ou vidéo et souhaitez tirer parti de l'IA
1:22
pour alimenter la transcription ou les informations à
1:24
échelle certainement vérifier leur API
1:26
plate-forme plus précisément, je voulais
1:29
partager leur modèle de synthèse que je
1:31
trouver vraiment cool comme son nom l'indique avec
1:34
ce modèle, vous pouvez créer des outils qui
1:36
résume automatiquement votre audio et
1:38
fichiers vidéo, le modèle est flexible pour s'adapter
1:41
votre cas d'utilisation et peut être personnalisé pour
1:44
différents types de puces de résumé
1:46
les titres des paragraphes ou tout ajuster
1:48
Fonctionne via de simples appels d'API et vous
1:51
pouvez trouver toutes les informations dont vous avez besoin
1:53
pour le modèle de synthèse et l'assemblage
1:55
AI avec le premier lien ci-dessous
1:59
quand il s'agit du modèle lui-même
2:01
murmure est assez classique sur lequel il est construit
2:04
l'empilement de l'architecture Transformer
2:06
blocs codeurs et blocs décodeurs avec
2:08
le mécanisme de l'attention qui se propage
2:10
informations entre les deux il faudra
2:13
l'enregistrement audio l'a divisé en 30
2:16
deuxièmes morceaux et traitez-les un par
2:18
un pour chaque enregistrement de 30 secondes
2:21
encodera l'audio à l'aide de l'encodeur
2:23
section et enregistrez la position de chaque
2:25
mot dit et tirer parti de ce code
2:28
informations pour trouver ce qui a été dit en utilisant
2h30
le décodeur le décodeur prédira
2:33
ce que nous appelons des jetons de tout cela
2:34
informations qui sont essentiellement chacune
2:37
mots étant dit alors il se répétera
2:39
ce processus pour le mot suivant en utilisant tous
2:41
les mêmes informations ainsi que les
2:43
prédit le mot précédent en l'aidant à
2:46
devinez le prochain qui fera plus
2:48
sens comme je l'ai dit l'architecture globale
2:50
est un encodeur et décodeur classique et je
2:53
l'a couvert dans plusieurs vidéos similaires à
2:55
gpt3 et d'autres modèles de langage que j'ai
2:58
vous invite à vérifier plus
3:00
détails architecturaux cela fonctionne comme il
3:02
a été formé sur plus de 600 000 heures
3:05
d'encadrés multilingues et multitâches
3:08
données collectées sur le Web, ce qui signifie que
3:11
ils ont formé leur modèle audio dans un
3:12
manière similaire à gpt3 avec des données disponibles
3:15
sur Internet, ce qui en fait un grand et
3:18
modèle audio général, il rend également le
3:20
modèle beaucoup plus robuste que d'autres dans
3:23
fait ils ont mentionné ce murmure
3:24
se rapproche de la robustesse au niveau humain en raison de
3:27
être formé sur un ensemble aussi diversifié de
3:29
des données allant de Clips TED Talks
3:32
podcasts interviews et plus encore
3:34
représentent des données du monde réel avec certains
3:36
d'entre eux transcrits à l'aide d'une machine
3:38
des modèles basés sur l'apprentissage et non des humains
3:40
utilisant des données aussi imparfaites certainement
3:43
réduit la précision possible mais je
3:45
diront que cela aide à la robustesse lorsque
3:47
utilisé aussi peu par rapport à l'homme pur
3:49
ensembles de données audio organisés avec une parfaite
3:52
transcriptions ayant un tel caractère général
3:54
modèle n'est pas très puissant en soi car
3:57
il sera battu à la plupart des tâches par
3:58
modèles plus petits et plus spécifiques adaptés
4:01
à la tâche à accomplir, mais il a d'autres
4:03
avantages que vous pouvez utiliser ce genre de
4:05
modèles pré-formés et affinez-les sur
4:08
votre tâche signifie que vous prendrez
4:10
ce modèle puissant et recycler une partie
4:13
de celui-ci ou le tout avec le vôtre
4:15
données que cette technique a démontré
4:17
produire de bien meilleurs modèles que de commencer
4:19
formation à partir de zéro avec vos données et
4:21
ce qui est encore plus cool c'est que openai open
4:24
source leur code et tout
4:25
au lieu d'une API pour que vous puissiez utiliser le chuchotement
4:28
en tant qu'architecture de base pré-formée
4h30
s'appuyer sur et créer des
4:33
modèles pour vous-même certaines personnes ont
4:35
déjà publié les outils comme le
4:37
YouTube Whisperer visage sans câlin par Jeff
4:39
est en train de taper en prenant un lien YouTube et
4:42
générer des transcriptions que j'ai trouvées
4:44
grâce à Yannick kilter ils ont aussi
4:46
a publié un bloc-notes de collaboration Google pour
4:48
jouer avec tout de suite pendant que quelque chose
4:50
la concurrence est la clé, je suis content que openai soit
4:53
diffuser une partie de son travail au public
4:54
Je suis convaincu que de telles collaborations sont
4:57
la meilleure façon d'avancer dans notre domaine
5:00
je sais ce que tu penses si tu veux
5:01
voir plus de versions publiques d'openai ou si
5:04
vous aimez les produits finis qu'ils fabriquent
5:06
comme dally comme toujours vous pouvez trouver plus
5:08
informations sur le chuchotement dans le journal
5:11
et le code lié ci-dessous et j'espère que vous avez
5:13
J'ai aimé cette vidéo, je vous verrai ensuite
5:15
semaine avec un autre papier incroyable