Você já sonhou com uma boa ferramenta de transcrição que entenderia com precisão o que você diz e anota? Não como as ferramentas automáticas de tradução do YouTube… quero dizer, elas são boas, mas estão longe de serem perfeitas. Basta experimentá-lo e ativar o recurso para o vídeo e você verá do que estou falando.
Felizmente, a OpenAI acaba de lançar e abrir o código de um modelo de IA bastante poderoso apenas para isso: Whisper.
Ele entende coisas que eu nem consigo compreender, não sendo um falante nativo de inglês (ouça o vídeo) e também funciona para tradução de idiomas! Saiba mais no vídeo abaixo...
►Leia o artigo completo: https://www.louisbouchard.ai/whisper/
► Radford, A., Kim, JW, Xu, T., Brockman, G., McLeavey, C. e
Sutskever, I., Reconhecimento de Fala Robusto via Fraco em Grande Escala
Supervisão.
►Link do projeto: https://openai.com/blog/whisper/
►Código: https://github.com/openai/whisper
►Caderno do Google Colab: https://colab.research.google.com/github/openai/whisper/blob/master/notebooks/LibriSpeech.ipynb
►Aplicativo YouTube Whisperer: https://huggingface.co/spaces/jeffistyping/Youtube-Whisperer
►Meu boletim informativo (um novo aplicativo de IA explicado semanalmente para seus e-mails!): https://www.louisbouchard.ai/newsletter/
0:00
você já sonhou com um bom
0:01
ferramenta de transcrição que irá com precisão
0:03
entenda o que você vê e escreva
0:05
para baixo não como o YouTube automático
0:07
ferramentas de tradução, quero dizer, elas são boas
0:09
mas longe de ser perfeito, apenas experimente e
0:12
ative o recurso para este vídeo e
0:14
você vai ver do que estou falando bem
0:16
open AI acaba de lançar um software de código aberto
0:18
e um modelo de IA bastante poderoso apenas para
0:21
aquele sussurro até entende coisas que eu
0:24
não consigo nem compreender não ser um nativo
0:26
falante de inglês
0:28
este é o homem da micro máquina apresentando
0:29
a comitiva mais miniatura de
0:30
micro máquina cada um tem dramático
0:32
detalhes ótimo acabamento Página de precisão Arte
0:33
Além de um incrível bolso para micro-máquinas
0:34
lugar que diz um PlayStation dispará-lo
0:36
funciona para tradução de idiomas também
0:38
sussurre um consistente o líquido
0:41
soa automaticamente alternador
0:48
os resultados e a precisão são incríveis
0:51
mas o que é ainda mais legal é como funciona
0:53
vamos mergulhar nisso, mas primeiro deixe-me
0:56
apresentar o patrocinador deste episódio que é
0:58
altamente relacionado a esta montagem de pesquisa
1:00
AI assembly AI é a plataforma de API para
1:03
modelos de IA de última geração de startups
1:06
para empresas da Fortune 500 desenvolvedores e
1:08
equipes de produtos em todo o mundo aproveitam
1:10
IA de montagem para construir melhor baseado em IA
1:13
produtos e recursos se você estiver
1:15
criando um podcast de resumo de reunião
1:17
analisador ou realmente qualquer coisa relacionada a
1:19
áudio ou vídeo e deseja aproveitar a IA
1:22
para potencializar a transcrição ou insights em
1:24
escala definitivamente confira sua API
1:26
plataforma mais especificamente eu queria
1:29
compartilham seu modelo de resumo que eu
1:31
achar muito legal como o nome diz com
1:34
neste modelo você pode construir ferramentas que
1:36
resumir automaticamente o seu áudio e
1:38
arquivos de vídeo o modelo é flexível para caber
1:41
seu caso de uso e pode ser personalizado para
1:44
marcadores de diferentes tipos de resumo
1:46
títulos de parágrafos ou ajustar tudo
1:48
Funciona através de simples chamadas de API e você
1:51
pode encontrar todas as informações que você precisa
1:53
para o modelo de compactação e montagem
1:55
AI com o primeiro link abaixo
1:59
quando se trata do próprio modelo
2:01
sussurro é bastante clássico em que é construído
2:04
o empilhamento da arquitetura Transformer
2:06
blocos codificadores e blocos decodificadores com
2:08
o mecanismo de atenção se propagando
2:10
informações entre ambos serão necessários
2:13
a gravação de áudio dividiu em 30
2:16
segundo pedaços e processá-los um por
2:18
um para cada gravação de 30 segundos
2:21
irá codificar o áudio usando o codificador
2:23
seção e salvar a posição de cada
2:25
palavra dita e alavancar este codificado
2:28
informações para encontrar o que foi dito usando
2:30
o decodificador o decodificador irá prever
2:33
o que chamamos de tokens de tudo isso
2:34
informações que são basicamente cada
2:37
palavras sendo ditas, então ele vai repetir
2:39
este processo para a próxima palavra usando todos
2:41
as mesmas informações, bem como o
2:43
palavra anterior prevista ajudando-a a
2:46
adivinha o próximo que vai render mais
2:48
sentido como eu disse a arquitetura geral
2:50
é um codificador e decodificador clássico e eu
2:53
cobriu em vários vídeos semelhantes a
2:55
gpt3 e outros modelos de linguagem que eu
2:58
convido você a conferir mais
3:00
detalhes arquitetônicos isso funciona como
3:02
foi treinado em mais de 600 000 horas
3:05
de supervisão multilíngue e multitarefa
3:08
dados coletados da web, o que significa que
3:11
eles treinaram seu modelo de áudio em um
3:12
maneira semelhante ao gpt3 com dados disponíveis
3:15
na internet tornando-se um grande e
3:18
modelo de áudio geral também faz o
3:20
modelo muito mais robusto do que outros em
3:23
fato de terem mencionado aquele sussurro
3:24
se aproxima da robustez do nível humano devido a
3:27
sendo treinado em um conjunto tão diversificado de
3:29
dados que vão desde Clips TED Talks
3:32
podcasts entrevistas e muito mais que todos
3:34
representam dados do mundo real com alguns
3:36
deles transcritos usando máquina
3:38
modelos baseados em aprendizado e não humanos
3:40
usando tais dados imperfeitos certamente
3:43
reduz a Precisão possível, mas eu
3:45
vai argumentar que ajuda a robustez quando
3:47
usado tão esparsamente em comparação com o humano puro
3:49
conjuntos de dados de áudio curados com perfeito
3:52
transcrições com um caráter tão geral
3:54
modelo não é muito poderoso em si mesmo como
3:57
será derrotado na maioria das tarefas por
3:58
modelos menores e mais específicos adaptados
4:01
para a tarefa em mãos, mas tem outras
4:03
benefícios você pode usar este tipo de
4:05
modelos pré-treinados e ajustá-los em
4:08
sua tarefa, o que significa que você terá
4:10
este poderoso modelo e retreinar uma parte
4:13
dele ou a coisa toda com o seu próprio
4:15
dados que esta técnica demonstrou
4:17
produzir modelos muito melhores do que começar
4:19
treinando do zero com seus dados e
4:21
o que é ainda mais legal é que openai open
4:24
forneceu seu código e tudo
4:25
em vez de uma API para que você possa usar sussurro
4:28
como uma arquitetura de fundação pré-treinada
4:30
para construir e criar mais poderosos
4:33
modelos para si mesmo algumas pessoas têm
4:35
já liberou as ferramentas como o
4:37
Rosto descompactado do Sussurrador do YouTube por Jeff
4:39
está digitando pegando um link do YouTube e
4:42
gerando transcrições que encontrei
4:44
graças a Yannick kilter eles também
4:46
lançou um caderno de colaboração do Google para
4:48
brincar imediatamente enquanto algo
4:50
a competição é a chave, estou feliz que a openai é
4:53
divulgando alguns de seus trabalhos para o público
4:54
Estou convencido de que tais colaborações são
4:57
a melhor maneira de avançar em nosso campo vamos
5:00
me sabe o que você pensa se você gostaria de
5:01
ver mais lançamentos públicos de openai ou se
5:04
você gosta dos produtos finais que eles constroem
5:06
como dally como sempre você pode encontrar mais
5:08
informações sobre sussurro no jornal
5:11
e código vinculado abaixo e espero que você tenha
5:13
gostei desse video até a próxima
5:15
semana com mais um paper incrível