paint-brush
Qu'est-ce que le modèle Whisper d'OpenAI ?par@whatsai
5,301 lectures
5,301 lectures

Qu'est-ce que le modèle Whisper d'OpenAI ?

par Louis Bouchard5m2022/10/06
Read on Terminal Reader
Read this story w/o Javascript

Trop long; Pour lire

Avez-vous déjà rêvé d'un bon outil de transcription qui comprendrait avec précision ce que vous dites et l'écrirait ? Pas comme les outils de traduction automatique de YouTube… Je veux dire, ils sont bons mais loin d'être parfaits. Essayez-le et activez la fonctionnalité pour la vidéo, et vous verrez de quoi je parle. Heureusement, OpenAI vient de publier et d'ouvrir un modèle d'IA assez puissant rien que pour ça : Whisper. Il comprend des choses que je ne peux même pas comprendre, n'étant pas de langue maternelle anglaise (écoutez la vidéo) et cela fonctionne aussi pour la traduction linguistique ! En savoir plus dans la vidéo ci-dessous...

Companies Mentioned

Mention Thumbnail
Mention Thumbnail
featured image - Qu'est-ce que le modèle Whisper d'OpenAI ?
Louis Bouchard HackerNoon profile picture
0-item

Avez-vous déjà rêvé d'un bon outil de transcription qui comprendrait avec précision ce que vous dites et l'écrirait ? Pas comme les outils de traduction automatique de YouTube… Je veux dire, ils sont bons mais loin d'être parfaits. Essayez-le et activez la fonctionnalité pour la vidéo, et vous verrez de quoi je parle.

Heureusement, OpenAI vient de publier et d'ouvrir un modèle d'IA assez puissant rien que pour ça : Whisper.

Il comprend des choses que je ne peux même pas comprendre, n'étant pas de langue maternelle anglaise (écoutez la vidéo) et cela fonctionne aussi pour la traduction linguistique ! En savoir plus dans la vidéo ci-dessous...

Références

►Lire l'article complet : https://www.louisbouchard.ai/whisper/
► Radford, A., Kim, JW, Xu, T., Brockman, G., McLeavey, C. et
Sutskever, I., Reconnaissance vocale robuste via une faiblesse à grande échelle
Surveillance.
►Lien du projet : https://openai.com/blog/whisper/
►Code : https://github.com/openai/whisper
► Bloc-notes Google Colab : https://colab.research.google.com/github/openai/whisper/blob/master/notebooks/LibriSpeech.ipynb
►Application YouTube Whisperer : https://huggingface.co/spaces/jeffistyping/Youtube-Whisperer
►Ma Newsletter (Une nouvelle application d'IA expliquée chaque semaine à vos mails !) : https://www.louisbouchard.ai/newsletter/

Transcription vidéo

0:00

avez-vous déjà rêvé d'un bon

0:01

outil de transcription qui sera précis

0:03

comprenez ce que vous voyez et écrivez-le

0:05

vers le bas pas comme le YouTube automatique

0:07

outils de traduction je veux dire qu'ils sont bons

0:09

mais loin d'être parfait, essayez-le et

0:12

activez la fonctionnalité pour cette vidéo et

0:14

tu verras bien de quoi je parle

0:16

open AI vient de publier un open source

0:18

et un modèle d'IA assez puissant juste pour

0:21

ce murmure il comprend même des trucs que je

0:24

Je ne peux même pas comprendre de ne pas être natif

0:26

anglophone

0:28

c'est l'homme de la micro-machine qui présente

0:29

le cortège le plus miniature de

0:30

micro machine chacun a du dramatique

0:32

détails garniture formidable Page de précision Art

0:33

Plus une incroyable poche pour micro-machine

0:34

endroit qui dit qu'une PlayStation le lance

0:36

fonctionne aussi pour la traduction linguistique

0:38

chuchote un liquide consistant il

0:41

sonne automatiquement l'alternateur

0:48

les résultats et la précision sont incroyables

0:51

mais ce qui est encore plus cool, c'est comment ça marche

0:53

plongeons-y mais d'abord laissez-moi

0:56

présenter le sponsor de cet épisode qui est

0:58

fortement lié à cette assemblée de recherche

1:00

AI assembly AI est la plate-forme API pour

1:03

des modèles d'IA de pointe issus de startups

1:06

aux développeurs des entreprises du Fortune 500 et

1:08

les équipes produit du monde entier tirent parti

1:10

assemblage AI pour construire de meilleurs

1:13

produits et fonctionnalités si vous êtes

1:15

créer un podcast de synthèse de réunion

1:17

analyseur ou vraiment tout ce qui concerne

1:19

audio ou vidéo et souhaitez tirer parti de l'IA

1:22

pour alimenter la transcription ou les informations à

1:24

échelle certainement vérifier leur API

1:26

plate-forme plus précisément, je voulais

1:29

partager leur modèle de synthèse que je

1:31

trouver vraiment cool comme son nom l'indique avec

1:34

ce modèle, vous pouvez créer des outils qui

1:36

résume automatiquement votre audio et

1:38

fichiers vidéo, le modèle est flexible pour s'adapter

1:41

votre cas d'utilisation et peut être personnalisé pour

1:44

différents types de puces de résumé

1:46

les titres des paragraphes ou tout ajuster

1:48

Fonctionne via de simples appels d'API et vous

1:51

pouvez trouver toutes les informations dont vous avez besoin

1:53

pour le modèle de synthèse et l'assemblage

1:55

AI avec le premier lien ci-dessous

1:59

quand il s'agit du modèle lui-même

2:01

murmure est assez classique sur lequel il est construit

2:04

l'empilement de l'architecture Transformer

2:06

blocs codeurs et blocs décodeurs avec

2:08

le mécanisme de l'attention qui se propage

2:10

informations entre les deux il faudra

2:13

l'enregistrement audio l'a divisé en 30

2:16

deuxièmes morceaux et traitez-les un par

2:18

un pour chaque enregistrement de 30 secondes

2:21

encodera l'audio à l'aide de l'encodeur

2:23

section et enregistrez la position de chaque

2:25

mot dit et tirer parti de ce code

2:28

informations pour trouver ce qui a été dit en utilisant

2h30

le décodeur le décodeur prédira

2:33

ce que nous appelons des jetons de tout cela

2:34

informations qui sont essentiellement chacune

2:37

mots étant dit alors il se répétera

2:39

ce processus pour le mot suivant en utilisant tous

2:41

les mêmes informations ainsi que les

2:43

prédit le mot précédent en l'aidant à

2:46

devinez le prochain qui fera plus

2:48

sens comme je l'ai dit l'architecture globale

2:50

est un encodeur et décodeur classique et je

2:53

l'a couvert dans plusieurs vidéos similaires à

2:55

gpt3 et d'autres modèles de langage que j'ai

2:58

vous invite à vérifier plus

3:00

détails architecturaux cela fonctionne comme il

3:02

a été formé sur plus de 600 000 heures

3:05

d'encadrés multilingues et multitâches

3:08

données collectées sur le Web, ce qui signifie que

3:11

ils ont formé leur modèle audio dans un

3:12

manière similaire à gpt3 avec des données disponibles

3:15

sur Internet, ce qui en fait un grand et

3:18

modèle audio général, il rend également le

3:20

modèle beaucoup plus robuste que d'autres dans

3:23

fait ils ont mentionné ce murmure

3:24

se rapproche de la robustesse au niveau humain en raison de

3:27

être formé sur un ensemble aussi diversifié de

3:29

des données allant de Clips TED Talks

3:32

podcasts interviews et plus encore

3:34

représentent des données du monde réel avec certains

3:36

d'entre eux transcrits à l'aide d'une machine

3:38

des modèles basés sur l'apprentissage et non des humains

3:40

utilisant des données aussi imparfaites certainement

3:43

réduit la précision possible mais je

3:45

diront que cela aide à la robustesse lorsque

3:47

utilisé aussi peu par rapport à l'homme pur

3:49

ensembles de données audio organisés avec une parfaite

3:52

transcriptions ayant un tel caractère général

3:54

modèle n'est pas très puissant en soi car

3:57

il sera battu à la plupart des tâches par

3:58

modèles plus petits et plus spécifiques adaptés

4:01

à la tâche à accomplir, mais il a d'autres

4:03

avantages que vous pouvez utiliser ce genre de

4:05

modèles pré-formés et affinez-les sur

4:08

votre tâche signifie que vous prendrez

4:10

ce modèle puissant et recycler une partie

4:13

de celui-ci ou le tout avec le vôtre

4:15

données que cette technique a démontré

4:17

produire de bien meilleurs modèles que de commencer

4:19

formation à partir de zéro avec vos données et

4:21

ce qui est encore plus cool c'est que openai open

4:24

source leur code et tout

4:25

au lieu d'une API pour que vous puissiez utiliser le chuchotement

4:28

en tant qu'architecture de base pré-formée

4h30

s'appuyer sur et créer des

4:33

modèles pour vous-même certaines personnes ont

4:35

déjà publié les outils comme le

4:37

YouTube Whisperer visage sans câlin par Jeff

4:39

est en train de taper en prenant un lien YouTube et

4:42

générer des transcriptions que j'ai trouvées

4:44

grâce à Yannick kilter ils ont aussi

4:46

a publié un bloc-notes de collaboration Google pour

4:48

jouer avec tout de suite pendant que quelque chose

4:50

la concurrence est la clé, je suis content que openai soit

4:53

diffuser une partie de son travail au public

4:54

Je suis convaincu que de telles collaborations sont

4:57

la meilleure façon d'avancer dans notre domaine

5:00

je sais ce que tu penses si tu veux

5:01

voir plus de versions publiques d'openai ou si

5:04

vous aimez les produits finis qu'ils fabriquent

5:06

comme dally comme toujours vous pouvez trouver plus

5:08

informations sur le chuchotement dans le journal

5:11

et le code lié ci-dessous et j'espère que vous avez

5:13

J'ai aimé cette vidéo, je vous verrai ensuite

5:15

semaine avec un autre papier incroyable