Você já sonhou com uma boa ferramenta de transcrição que entenderia com precisão o que você diz e anota? Não como as ferramentas automáticas de tradução do YouTube… quero dizer, elas são boas, mas estão longe de serem perfeitas. Basta experimentá-lo e ativar o recurso para o vídeo e você verá do que estou falando. Felizmente, a OpenAI acaba de lançar e abrir o código de um modelo de IA bastante poderoso apenas para isso: Whisper. Ele entende coisas que eu nem consigo compreender, não sendo um falante nativo de inglês (ouça o vídeo) e também funciona para tradução de idiomas! Saiba mais no vídeo abaixo... Referências ►Leia o artigo completo: ► Radford, A., Kim, JW, Xu, T., Brockman, G., McLeavey, C. e Sutskever, I., Reconhecimento de Fala Robusto via Fraco em Grande Escala Supervisão. ►Link do projeto: ►Código: ►Caderno do Google Colab: ►Aplicativo YouTube Whisperer: ►Meu boletim informativo (um novo aplicativo de IA explicado semanalmente para seus e-mails!): https://www.louisbouchard.ai/whisper/ https://openai.com/blog/whisper/ https://github.com/openai/whisper https://colab.research.google.com/github/openai/whisper/blob/master/notebooks/LibriSpeech.ipynb https://huggingface.co/spaces/jeffistyping/Youtube-Whisperer https://www.louisbouchard.ai/newsletter/ Transcrição de vídeo 0:00 você já sonhou com um bom 0:01 ferramenta de transcrição que irá com precisão 0:03 entenda o que você vê e escreva 0:05 para baixo não como o YouTube automático 0:07 ferramentas de tradução, quero dizer, elas são boas 0:09 mas longe de ser perfeito, apenas experimente e 0:12 ative o recurso para este vídeo e 0:14 você vai ver do que estou falando bem 0:16 open AI acaba de lançar um software de código aberto 0:18 e um modelo de IA bastante poderoso apenas para 0:21 aquele sussurro até entende coisas que eu 0:24 não consigo nem compreender não ser um nativo 0:26 falante de inglês 0:28 este é o homem da micro máquina apresentando 0:29 a comitiva mais miniatura de 0:30 micro máquina cada um tem dramático 0:32 detalhes ótimo acabamento Página de precisão Arte 0:33 Além de um incrível bolso para micro-máquinas 0:34 lugar que diz um PlayStation dispará-lo 0:36 funciona para tradução de idiomas também 0:38 sussurre um consistente o líquido 0:41 soa automaticamente alternador 0:48 os resultados e a precisão são incríveis 0:51 mas o que é ainda mais legal é como funciona 0:53 vamos mergulhar nisso, mas primeiro deixe-me 0:56 apresentar o patrocinador deste episódio que é 0:58 altamente relacionado a esta montagem de pesquisa 1:00 AI assembly AI é a plataforma de API para 1:03 modelos de IA de última geração de startups 1:06 para empresas da Fortune 500 desenvolvedores e 1:08 equipes de produtos em todo o mundo aproveitam 1:10 IA de montagem para construir melhor baseado em IA 1:13 produtos e recursos se você estiver 1:15 criando um podcast de resumo de reunião 1:17 analisador ou realmente qualquer coisa relacionada a 1:19 áudio ou vídeo e deseja aproveitar a IA 1:22 para potencializar a transcrição ou insights em 1:24 escala definitivamente confira sua API 1:26 plataforma mais especificamente eu queria 1:29 compartilham seu modelo de resumo que eu 1:31 achar muito legal como o nome diz com 1:34 neste modelo você pode construir ferramentas que 1:36 resumir automaticamente o seu áudio e 1:38 arquivos de vídeo o modelo é flexível para caber 1:41 seu caso de uso e pode ser personalizado para 1:44 marcadores de diferentes tipos de resumo 1:46 títulos de parágrafos ou ajustar tudo 1:48 Funciona através de simples chamadas de API e você 1:51 pode encontrar todas as informações que você precisa 1:53 para o modelo de compactação e montagem 1:55 AI com o primeiro link abaixo 1:59 quando se trata do próprio modelo 2:01 sussurro é bastante clássico em que é construído 2:04 o empilhamento da arquitetura Transformer 2:06 blocos codificadores e blocos decodificadores com 2:08 o mecanismo de atenção se propagando 2:10 informações entre ambos serão necessários 2:13 a gravação de áudio dividiu em 30 2:16 segundo pedaços e processá-los um por 2:18 um para cada gravação de 30 segundos 2:21 irá codificar o áudio usando o codificador 2:23 seção e salvar a posição de cada 2:25 palavra dita e alavancar este codificado 2:28 informações para encontrar o que foi dito usando 2:30 o decodificador o decodificador irá prever 2:33 o que chamamos de tokens de tudo isso 2:34 informações que são basicamente cada 2:37 palavras sendo ditas, então ele vai repetir 2:39 este processo para a próxima palavra usando todos 2:41 as mesmas informações, bem como o 2:43 palavra anterior prevista ajudando-a a 2:46 adivinha o próximo que vai render mais 2:48 sentido como eu disse a arquitetura geral 2:50 é um codificador e decodificador clássico e eu 2:53 cobriu em vários vídeos semelhantes a 2:55 gpt3 e outros modelos de linguagem que eu 2:58 convido você a conferir mais 3:00 detalhes arquitetônicos isso funciona como 3:02 foi treinado em mais de 600 000 horas 3:05 de supervisão multilíngue e multitarefa 3:08 dados coletados da web, o que significa que 3:11 eles treinaram seu modelo de áudio em um 3:12 maneira semelhante ao gpt3 com dados disponíveis 3:15 na internet tornando-se um grande e 3:18 modelo de áudio geral também faz o 3:20 modelo muito mais robusto do que outros em 3:23 fato de terem mencionado aquele sussurro 3:24 se aproxima da robustez do nível humano devido a 3:27 sendo treinado em um conjunto tão diversificado de 3:29 dados que vão desde Clips TED Talks 3:32 podcasts entrevistas e muito mais que todos 3:34 representam dados do mundo real com alguns 3:36 deles transcritos usando máquina 3:38 modelos baseados em aprendizado e não humanos 3:40 usando tais dados imperfeitos certamente 3:43 reduz a Precisão possível, mas eu 3:45 vai argumentar que ajuda a robustez quando 3:47 usado tão esparsamente em comparação com o humano puro 3:49 conjuntos de dados de áudio curados com perfeito 3:52 transcrições com um caráter tão geral 3:54 modelo não é muito poderoso em si mesmo como 3:57 será derrotado na maioria das tarefas por 3:58 modelos menores e mais específicos adaptados 4:01 para a tarefa em mãos, mas tem outras 4:03 benefícios você pode usar este tipo de 4:05 modelos pré-treinados e ajustá-los em 4:08 sua tarefa, o que significa que você terá 4:10 este poderoso modelo e retreinar uma parte 4:13 dele ou a coisa toda com o seu próprio 4:15 dados que esta técnica demonstrou 4:17 produzir modelos muito melhores do que começar 4:19 treinando do zero com seus dados e 4:21 o que é ainda mais legal é que openai open 4:24 forneceu seu código e tudo 4:25 em vez de uma API para que você possa usar sussurro 4:28 como uma arquitetura de fundação pré-treinada 4:30 para construir e criar mais poderosos 4:33 modelos para si mesmo algumas pessoas têm 4:35 já liberou as ferramentas como o 4:37 Rosto descompactado do Sussurrador do YouTube por Jeff 4:39 está digitando pegando um link do YouTube e 4:42 gerando transcrições que encontrei 4:44 graças a Yannick kilter eles também 4:46 lançou um caderno de colaboração do Google para 4:48 brincar imediatamente enquanto algo 4:50 a competição é a chave, estou feliz que a openai é 4:53 divulgando alguns de seus trabalhos para o público 4:54 Estou convencido de que tais colaborações são 4:57 a melhor maneira de avançar em nosso campo vamos 5:00 me sabe o que você pensa se você gostaria de 5:01 ver mais lançamentos públicos de openai ou se 5:04 você gosta dos produtos finais que eles constroem 5:06 como dally como sempre você pode encontrar mais 5:08 informações sobre sussurro no jornal 5:11 e código vinculado abaixo e espero que você tenha 5:13 gostei desse video até a próxima 5:15 semana com mais um paper incrível