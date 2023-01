Você já sonhou com uma boa ferramenta de transcrição que entenderia com precisão o que você diz e anota? Não como as ferramentas automáticas de tradução do YouTube… quero dizer, elas são boas, mas estão longe de serem perfeitas. Basta experimentá-lo e ativar o recurso para o vídeo e você verá do que estou falando. Felizmente, a OpenAI acaba de lançar e abrir o código de um modelo de IA bastante poderoso apenas para isso: Whisper. Ele entende coisas que eu nem consigo compreender, não sendo um falante nativo de inglês (ouça o vídeo) e também funciona para tradução de idiomas! Saiba mais no vídeo abaixo...

Transcrição de vídeo

você já sonhou com um bom

ferramenta de transcrição que irá com precisão

entenda o que você vê e escreva

para baixo não como o YouTube automático

ferramentas de tradução, quero dizer, elas são boas

mas longe de ser perfeito, apenas experimente e

ative o recurso para este vídeo e

você vai ver do que estou falando bem

open AI acaba de lançar um software de código aberto

e um modelo de IA bastante poderoso apenas para

aquele sussurro até entende coisas que eu

não consigo nem compreender não ser um nativo

falante de inglês

este é o homem da micro máquina apresentando

a comitiva mais miniatura de

micro máquina cada um tem dramático

detalhes ótimo acabamento Página de precisão Arte

Além de um incrível bolso para micro-máquinas

lugar que diz um PlayStation dispará-lo

funciona para tradução de idiomas também

sussurre um consistente o líquido

soa automaticamente alternador

os resultados e a precisão são incríveis

mas o que é ainda mais legal é como funciona

vamos mergulhar nisso, mas primeiro deixe-me

apresentar o patrocinador deste episódio que é

altamente relacionado a esta montagem de pesquisa

AI assembly AI é a plataforma de API para

modelos de IA de última geração de startups

para empresas da Fortune 500 desenvolvedores e

equipes de produtos em todo o mundo aproveitam

IA de montagem para construir melhor baseado em IA

produtos e recursos se você estiver

criando um podcast de resumo de reunião

analisador ou realmente qualquer coisa relacionada a

áudio ou vídeo e deseja aproveitar a IA

para potencializar a transcrição ou insights em

escala definitivamente confira sua API

plataforma mais especificamente eu queria

compartilham seu modelo de resumo que eu

achar muito legal como o nome diz com

neste modelo você pode construir ferramentas que

resumir automaticamente o seu áudio e

arquivos de vídeo o modelo é flexível para caber

seu caso de uso e pode ser personalizado para

marcadores de diferentes tipos de resumo

títulos de parágrafos ou ajustar tudo

Funciona através de simples chamadas de API e você

pode encontrar todas as informações que você precisa

para o modelo de compactação e montagem

AI com o primeiro link abaixo

quando se trata do próprio modelo

sussurro é bastante clássico em que é construído

o empilhamento da arquitetura Transformer

blocos codificadores e blocos decodificadores com

o mecanismo de atenção se propagando

informações entre ambos serão necessários

a gravação de áudio dividiu em 30

segundo pedaços e processá-los um por

um para cada gravação de 30 segundos

irá codificar o áudio usando o codificador

seção e salvar a posição de cada

palavra dita e alavancar este codificado

informações para encontrar o que foi dito usando

o decodificador o decodificador irá prever

o que chamamos de tokens de tudo isso

informações que são basicamente cada

palavras sendo ditas, então ele vai repetir

este processo para a próxima palavra usando todos

as mesmas informações, bem como o

palavra anterior prevista ajudando-a a

adivinha o próximo que vai render mais

sentido como eu disse a arquitetura geral

é um codificador e decodificador clássico e eu

cobriu em vários vídeos semelhantes a

gpt3 e outros modelos de linguagem que eu

convido você a conferir mais

detalhes arquitetônicos isso funciona como

foi treinado em mais de 600 000 horas

de supervisão multilíngue e multitarefa

dados coletados da web, o que significa que

eles treinaram seu modelo de áudio em um

maneira semelhante ao gpt3 com dados disponíveis

na internet tornando-se um grande e

modelo de áudio geral também faz o

modelo muito mais robusto do que outros em

fato de terem mencionado aquele sussurro

se aproxima da robustez do nível humano devido a

sendo treinado em um conjunto tão diversificado de

dados que vão desde Clips TED Talks

podcasts entrevistas e muito mais que todos

representam dados do mundo real com alguns

deles transcritos usando máquina

modelos baseados em aprendizado e não humanos

usando tais dados imperfeitos certamente

reduz a Precisão possível, mas eu

vai argumentar que ajuda a robustez quando

usado tão esparsamente em comparação com o humano puro

conjuntos de dados de áudio curados com perfeito

transcrições com um caráter tão geral

modelo não é muito poderoso em si mesmo como

será derrotado na maioria das tarefas por

modelos menores e mais específicos adaptados

para a tarefa em mãos, mas tem outras

benefícios você pode usar este tipo de

modelos pré-treinados e ajustá-los em

sua tarefa, o que significa que você terá

este poderoso modelo e retreinar uma parte

dele ou a coisa toda com o seu próprio

dados que esta técnica demonstrou

produzir modelos muito melhores do que começar

treinando do zero com seus dados e

o que é ainda mais legal é que openai open

forneceu seu código e tudo

em vez de uma API para que você possa usar sussurro

como uma arquitetura de fundação pré-treinada

para construir e criar mais poderosos

modelos para si mesmo algumas pessoas têm

já liberou as ferramentas como o

Rosto descompactado do Sussurrador do YouTube por Jeff

está digitando pegando um link do YouTube e

gerando transcrições que encontrei

graças a Yannick kilter eles também

lançou um caderno de colaboração do Google para

brincar imediatamente enquanto algo

a competição é a chave, estou feliz que a openai é

divulgando alguns de seus trabalhos para o público

Estou convencido de que tais colaborações são

a melhor maneira de avançar em nosso campo vamos

me sabe o que você pensa se você gostaria de

ver mais lançamentos públicos de openai ou se

você gosta dos produtos finais que eles constroem

como dally como sempre você pode encontrar mais

informações sobre sussurro no jornal

e código vinculado abaixo e espero que você tenha

gostei desse video até a próxima

semana com mais um paper incrível