paint-brush
O que é o modelo Whisper da OpenAI?por@whatsai
5,301 leituras
5,301 leituras

O que é o modelo Whisper da OpenAI?

por Louis Bouchard5m2022/10/06
Read on Terminal Reader
Read this story w/o Javascript

Muito longo; Para ler

Você já sonhou com uma boa ferramenta de transcrição que entenderia com precisão o que você diz e anota? Não como as ferramentas automáticas de tradução do YouTube… quero dizer, elas são boas, mas estão longe de serem perfeitas. Basta experimentá-lo e ativar o recurso para o vídeo e você verá do que estou falando. Felizmente, a OpenAI acaba de lançar e abrir o código de um modelo de IA bastante poderoso apenas para isso: Whisper. Ele entende coisas que eu nem consigo compreender, não sendo um falante nativo de inglês (ouça o vídeo) e também funciona para tradução de idiomas! Saiba mais no vídeo abaixo...

Companies Mentioned

Mention Thumbnail
Mention Thumbnail
featured image - O que é o modelo Whisper da OpenAI?
Louis Bouchard HackerNoon profile picture
0-item

Você já sonhou com uma boa ferramenta de transcrição que entenderia com precisão o que você diz e anota? Não como as ferramentas automáticas de tradução do YouTube… quero dizer, elas são boas, mas estão longe de serem perfeitas. Basta experimentá-lo e ativar o recurso para o vídeo e você verá do que estou falando.

Felizmente, a OpenAI acaba de lançar e abrir o código de um modelo de IA bastante poderoso apenas para isso: Whisper.

Ele entende coisas que eu nem consigo compreender, não sendo um falante nativo de inglês (ouça o vídeo) e também funciona para tradução de idiomas! Saiba mais no vídeo abaixo...

Referências

►Leia o artigo completo: https://www.louisbouchard.ai/whisper/
► Radford, A., Kim, JW, Xu, T., Brockman, G., McLeavey, C. e
Sutskever, I., Reconhecimento de Fala Robusto via Fraco em Grande Escala
Supervisão.
►Link do projeto: https://openai.com/blog/whisper/
►Código: https://github.com/openai/whisper
►Caderno do Google Colab: https://colab.research.google.com/github/openai/whisper/blob/master/notebooks/LibriSpeech.ipynb
►Aplicativo YouTube Whisperer: https://huggingface.co/spaces/jeffistyping/Youtube-Whisperer
►Meu boletim informativo (um novo aplicativo de IA explicado semanalmente para seus e-mails!): https://www.louisbouchard.ai/newsletter/

Transcrição de vídeo

0:00

você já sonhou com um bom

0:01

ferramenta de transcrição que irá com precisão

0:03

entenda o que você vê e escreva

0:05

para baixo não como o YouTube automático

0:07

ferramentas de tradução, quero dizer, elas são boas

0:09

mas longe de ser perfeito, apenas experimente e

0:12

ative o recurso para este vídeo e

0:14

você vai ver do que estou falando bem

0:16

open AI acaba de lançar um software de código aberto

0:18

e um modelo de IA bastante poderoso apenas para

0:21

aquele sussurro até entende coisas que eu

0:24

não consigo nem compreender não ser um nativo

0:26

falante de inglês

0:28

este é o homem da micro máquina apresentando

0:29

a comitiva mais miniatura de

0:30

micro máquina cada um tem dramático

0:32

detalhes ótimo acabamento Página de precisão Arte

0:33

Além de um incrível bolso para micro-máquinas

0:34

lugar que diz um PlayStation dispará-lo

0:36

funciona para tradução de idiomas também

0:38

sussurre um consistente o líquido

0:41

soa automaticamente alternador

0:48

os resultados e a precisão são incríveis

0:51

mas o que é ainda mais legal é como funciona

0:53

vamos mergulhar nisso, mas primeiro deixe-me

0:56

apresentar o patrocinador deste episódio que é

0:58

altamente relacionado a esta montagem de pesquisa

1:00

AI assembly AI é a plataforma de API para

1:03

modelos de IA de última geração de startups

1:06

para empresas da Fortune 500 desenvolvedores e

1:08

equipes de produtos em todo o mundo aproveitam

1:10

IA de montagem para construir melhor baseado em IA

1:13

produtos e recursos se você estiver

1:15

criando um podcast de resumo de reunião

1:17

analisador ou realmente qualquer coisa relacionada a

1:19

áudio ou vídeo e deseja aproveitar a IA

1:22

para potencializar a transcrição ou insights em

1:24

escala definitivamente confira sua API

1:26

plataforma mais especificamente eu queria

1:29

compartilham seu modelo de resumo que eu

1:31

achar muito legal como o nome diz com

1:34

neste modelo você pode construir ferramentas que

1:36

resumir automaticamente o seu áudio e

1:38

arquivos de vídeo o modelo é flexível para caber

1:41

seu caso de uso e pode ser personalizado para

1:44

marcadores de diferentes tipos de resumo

1:46

títulos de parágrafos ou ajustar tudo

1:48

Funciona através de simples chamadas de API e você

1:51

pode encontrar todas as informações que você precisa

1:53

para o modelo de compactação e montagem

1:55

AI com o primeiro link abaixo

1:59

quando se trata do próprio modelo

2:01

sussurro é bastante clássico em que é construído

2:04

o empilhamento da arquitetura Transformer

2:06

blocos codificadores e blocos decodificadores com

2:08

o mecanismo de atenção se propagando

2:10

informações entre ambos serão necessários

2:13

a gravação de áudio dividiu em 30

2:16

segundo pedaços e processá-los um por

2:18

um para cada gravação de 30 segundos

2:21

irá codificar o áudio usando o codificador

2:23

seção e salvar a posição de cada

2:25

palavra dita e alavancar este codificado

2:28

informações para encontrar o que foi dito usando

2:30

o decodificador o decodificador irá prever

2:33

o que chamamos de tokens de tudo isso

2:34

informações que são basicamente cada

2:37

palavras sendo ditas, então ele vai repetir

2:39

este processo para a próxima palavra usando todos

2:41

as mesmas informações, bem como o

2:43

palavra anterior prevista ajudando-a a

2:46

adivinha o próximo que vai render mais

2:48

sentido como eu disse a arquitetura geral

2:50

é um codificador e decodificador clássico e eu

2:53

cobriu em vários vídeos semelhantes a

2:55

gpt3 e outros modelos de linguagem que eu

2:58

convido você a conferir mais

3:00

detalhes arquitetônicos isso funciona como

3:02

foi treinado em mais de 600 000 horas

3:05

de supervisão multilíngue e multitarefa

3:08

dados coletados da web, o que significa que

3:11

eles treinaram seu modelo de áudio em um

3:12

maneira semelhante ao gpt3 com dados disponíveis

3:15

na internet tornando-se um grande e

3:18

modelo de áudio geral também faz o

3:20

modelo muito mais robusto do que outros em

3:23

fato de terem mencionado aquele sussurro

3:24

se aproxima da robustez do nível humano devido a

3:27

sendo treinado em um conjunto tão diversificado de

3:29

dados que vão desde Clips TED Talks

3:32

podcasts entrevistas e muito mais que todos

3:34

representam dados do mundo real com alguns

3:36

deles transcritos usando máquina

3:38

modelos baseados em aprendizado e não humanos

3:40

usando tais dados imperfeitos certamente

3:43

reduz a Precisão possível, mas eu

3:45

vai argumentar que ajuda a robustez quando

3:47

usado tão esparsamente em comparação com o humano puro

3:49

conjuntos de dados de áudio curados com perfeito

3:52

transcrições com um caráter tão geral

3:54

modelo não é muito poderoso em si mesmo como

3:57

será derrotado na maioria das tarefas por

3:58

modelos menores e mais específicos adaptados

4:01

para a tarefa em mãos, mas tem outras

4:03

benefícios você pode usar este tipo de

4:05

modelos pré-treinados e ajustá-los em

4:08

sua tarefa, o que significa que você terá

4:10

este poderoso modelo e retreinar uma parte

4:13

dele ou a coisa toda com o seu próprio

4:15

dados que esta técnica demonstrou

4:17

produzir modelos muito melhores do que começar

4:19

treinando do zero com seus dados e

4:21

o que é ainda mais legal é que openai open

4:24

forneceu seu código e tudo

4:25

em vez de uma API para que você possa usar sussurro

4:28

como uma arquitetura de fundação pré-treinada

4:30

para construir e criar mais poderosos

4:33

modelos para si mesmo algumas pessoas têm

4:35

já liberou as ferramentas como o

4:37

Rosto descompactado do Sussurrador do YouTube por Jeff

4:39

está digitando pegando um link do YouTube e

4:42

gerando transcrições que encontrei

4:44

graças a Yannick kilter eles também

4:46

lançou um caderno de colaboração do Google para

4:48

brincar imediatamente enquanto algo

4:50

a competição é a chave, estou feliz que a openai é

4:53

divulgando alguns de seus trabalhos para o público

4:54

Estou convencido de que tais colaborações são

4:57

a melhor maneira de avançar em nosso campo vamos

5:00

me sabe o que você pensa se você gostaria de

5:01

ver mais lançamentos públicos de openai ou se

5:04

você gosta dos produtos finais que eles constroem

5:06

como dally como sempre você pode encontrar mais

5:08

informações sobre sussurro no jornal

5:11

e código vinculado abaixo e espero que você tenha

5:13

gostei desse video até a próxima

5:15

semana com mais um paper incrível