¿Alguna vez has soñado con una buena herramienta de transcripción que comprenda con precisión lo que dices y lo escriba? No como las herramientas de traducción automática de YouTube… Quiero decir, son buenas pero están lejos de ser perfectas. Simplemente pruébelo y active la función para el video, y verá de lo que estoy hablando.  Afortunadamente, OpenAI acaba de lanzar y abrir un modelo de IA bastante poderoso solo para eso: Whisper.  Entiende cosas que ni siquiera puedo comprender, ya que no soy un hablante nativo de inglés (escuchar en el video) ¡y también funciona para la traducción de idiomas! Obtenga más información en el siguiente video...   Referencias  ►Lea el artículo completo:   ► Radford, A., Kim, JW, Xu, T., Brockman, G., McLeavey, C. y  Sutskever, I., Reconocimiento de voz robusto a través de débil a gran escala  Supervisión.  ►Enlace del proyecto:   ►Código:   ►Cuaderno de Google Colab:   ►Aplicación YouTube Whisperer:   ►My Newsletter (¡Una nueva aplicación de IA explicada semanalmente en sus correos electrónicos!):  https://www.louisbouchard.ai/whisper/ https://openai.com/blog/whisper/ https://github.com/openai/whisper https://colab.research.google.com/github/openai/whisper/blob/master/notebooks/LibriSpeech.ipynb https://huggingface.co/spaces/jeffistyping/Youtube-Whisperer https://www.louisbouchard.ai/newsletter/  Transcripción del video  0:00  ¿alguna vez has soñado con un buen  0:01  herramienta de transcripción que le permitirá  0:03  entiende lo que ves y escríbelo  0:05  abajo no como el YouTube automático  0:07  herramientas de traducción quiero decir que son buenas  0:09  pero lejos de ser perfecto, solo pruébalo y  0:12  activa la función para este video y  0:14  verás de lo que hablo bien  0:16  open AI acaba de lanzar un código abierto  0:18  y un modelo de IA bastante poderoso solo para  0:21  ese susurro que hasta entiende cosas que yo  0:24  ni siquiera puedo comprender no ser un nativo  0:26  Inglés hablante  0:28  este es el micro machine man presentando  0:29  la caravana más miniatura de  0:30  micro máquina cada uno tiene dramático  0:32  detalles fabulosa moldura Precisión página Arte  0:33  Además de un increíble bolsillo para micromáquina  0:34  lugar que dice que una PlayStation lo dispara  0:36  también funciona para la traducción de idiomas  0:38  susurro un consistente el liquido  0:41  suena automaticamente alternador  0:48  los resultados y la precisión son increíbles  0:51  pero lo que es aún más genial es cómo funciona  0:53  Sumerjámonos en eso, pero primero déjame  0:56  presentar al patrocinador de este episodio que es  0:58  altamente relacionado con esta asamblea de investigación  1:00  AI ensamblado AI es la plataforma API para  1:03  Modelos de inteligencia artificial de última generación de nuevas empresas  1:06  a los desarrolladores de empresas Fortune 500 y  1:08  equipos de productos de todo el mundo aprovechan  1:10  ensamblar IA para construir mejor basado en IA  1:13  productos y características si está  1:15  creación de un podcast de resumen de reuniones  1:17  analizador o realmente cualquier cosa relacionada con  1:19  audio o video y desea aprovechar la IA  1:22  para potenciar la transcripción o la información en  1:24  scale definitivamente echa un vistazo a su API  1:26  plataforma más específicamente quería  1:29  compartir su modelo de resumen que yo  1:31  encontrar realmente genial como su nombre lo dice con  1:34  este modelo se pueden construir herramientas que  1:36  resumir automáticamente su audio y  1:38  archivos de video el modelo es flexible para adaptarse  1:41  su caso de uso y se puede personalizar para  1:44  diferentes tipos de viñetas de resumen  1:46  encabezados de párrafos o ajustarlo todo  1:48  Funciona a través de simples llamadas a la API y usted  1:51  puede encontrar toda la información que necesita  1:53  para el modelo de integración y montaje  1:55  AI con el primer enlace a continuación  1:59  cuando se trata del modelo en sí  2:01  el susurro es bastante clásico en el que se basa  2:04  el apilamiento de la arquitectura del transformador  2:06  bloques codificadores y bloques decodificadores con  2:08  el mecanismo de atención propagándose  2:10  información entre ambos tomará  2:13  la grabación de audio lo dividió en 30  2:16  segundos trozos y procesarlos uno por  2:18  uno por cada 30 segundos de grabación  2:21  codificará el audio usando el codificador  2:23  sección y guardar la posición de cada  2:25  palabra dicha y aprovechar esta codificada  2:28  información para encontrar lo que se dijo usando  2:30  el decodificador el decodificador predecirá  2:33  lo que llamamos tokens de todo esto  2:34  información que son básicamente cada uno  2:37  las palabras que se dicen luego se repetirán  2:39  este proceso para la siguiente palabra usando todos  2:41  la misma información, así como la  2:43  palabra anterior predicha ayudándola a  2:46  Adivina el próximo que hará más.  2:48  sentido como dije la arquitectura general  2:50  es un codificador y decodificador clásico y yo  2:53  lo cubrió en múltiples videos similares a  2:55  gpt3 y otros modelos de lenguaje que yo  2:58  te invito a ver más  3:00  detalles arquitectónicos esto funciona como  3:02  recibió capacitación en más de 600 000 horas  3:05  multilingüe y multitarea supervisada  3:08  datos recopilados de la web, lo que significa que  3:11  entrenaron su modelo de Audio en un  3:12  manera similar a gpt3 con datos disponibles  3:15  en Internet por lo que es un gran y  3:18  modelo de audio general también hace que el  3:20  modelo mucho más robusto que otros en  3:23  hecho mencionaron ese susurro  3:24  se acerca a la robustez del nivel humano debido a  3:27  ser entrenado en un conjunto tan diverso de  3:29  datos que van desde Clips TED Talks  3:32  podcasts entrevistas y más que todos  3:34  representar datos similares al mundo real con algunos  3:36  de ellos transcritos usando máquina  3:38  modelos basados en el aprendizaje y no en humanos  3:40  usar datos tan imperfectos ciertamente  3:43  reduce la Precisión posible pero yo  3:45  argumentará que ayuda a la robustez cuando  3:47  se usa escasamente en comparación con el humano puro  3:49  conjuntos de datos de audio seleccionados con perfecta  3:52  transcripciones que tienen un carácter tan general  3:54  modelo no es muy poderoso en sí mismo como  3:57  será superado en la mayoría de las tareas por  3:58  modelos más pequeños y específicos adaptados  4:01  a la tarea en cuestión, pero tiene otras  4:03  beneficios que puede utilizar este tipo de  4:05  modelos pre-entrenados y ajustarlos en  4:08  tu tarea, lo que significa que tomarás  4:10  este poderoso modelo y volver a entrenar una parte  4:13  de ella o toda la cosa con su propia  4:15  datos que esta técnica ha demostrado  4:17  producir modelos mucho mejores que empezar  4:19  entrenando desde cero con tus datos y  4:21  lo que es aún más genial es que openai open  4:24  obtuvo su código y todo  4:25  en lugar de una API para que puedas usar susurro  4:28  como una arquitectura de base pre-entrenada  4:30  para construir y crear más poderoso  4:33  modelos para ti mismo que algunas personas tienen  4:35  ya lanzó las herramientas como el  4:37  YouTube Whisperer cara sin abrazar por Jeff  4:39  está escribiendo tomando un enlace de YouTube y  4:42  generar transcripciones que encontré  4:44  gracias a yannick kilter tambien  4:46  lanzó un cuaderno de colaboración de Google para  4:48  jugar con de inmediato mientras algo  4:50  la competencia es clave. Me alegro de que openai lo sea.  4:53  lanzando parte de su trabajo al público  4:54  Estoy convencido de que este tipo de colaboraciones son  4:57  la mejor manera de avanzar en nuestro campo  5:00  sé lo que piensas si quieres  5:01  ver más lanzamientos públicos de openai o si  5:04  te gustan los productos finales que construyen  5:06  like dally como siempre puedes encontrar mas  5:08  información sobre susurro en el periódico  5:11  y el código vinculado a continuación y espero que hayas  5:13  disfruté este video nos vemos la próxima  5:15  semana con otro artículo increíble

This story contains new, firsthand information uncovered by the writer.

Assembly

Google

PlayStation

YouTube

Watch more on YouTube: https://www.youtube.com/c/WhatsAI

I explain Artificial Intelligence terms and news to non-experts.

2021 - HackerNoon Contributor of the Year - FACEBOOK

2022 - Best Data Science Newsletter

2022 - HackerNoon Contributor of the Year - Artificial Intelligence

2022 - HackerNoon Contributor of the Year - Computer Vision

2022 - HackerNoon Contributor of the Year - Data Science

2022 - HackerNoon Contributor of the Year - Google

2022 - HackerNoon Contributor of the Year - Innovation

2022 - HackerNoon Contributor of the Year - Machine Learning

2022 - HackerNoon Contributor of the Year - Natural Language Processing

2022 - Top Tech Youtuber

2021 - HackerNoon Contributor of the Year - DEEP-LEARNING

Nominated for 2022 - Best Data Science Newsletter

Nominated for 2022 - HackerNoon Contributor of the Year - Artificial Intelligence

Nominated for 2022 - Top Tech Youtuber

Nominated for 2022 - HackerNoon Contributor of the Year - Innovation

Nominated for 2022 - HackerNoon Contributor of the Year - Data Science

Nominated for 2022 - HackerNoon Contributor of the Year - Natural Language Processing

¿Qué es el modelo de susurro de OpenAI?

About Author

COMENTARIOS

ETIQUETAS

ESTE ARTÍCULO FUE PRESENTADO EN

Related Stories

¿Quieres ganar un concurso de redacción de HackerNoon? Esto es lo que recomiendan los ganadores del concurso #crypto-api

Toque para ganar: Telegram puede incorporar a los próximos 10 mil millones de usuarios de criptomonedas antes de Solana

Creación de productos criptográficos centrados en el usuario: la importancia de los comentarios de los clientes

Crecimiento de las criptomonedas: creación de perfiles de usuarios eficaces

¿Quieres ganar un concurso de redacción de HackerNoon? Esto es lo que recomiendan los ganadores del concurso #crypto-api

Toque para ganar: Telegram puede incorporar a los próximos 10 mil millones de usuarios de criptomonedas antes de Solana

Creación de productos criptográficos centrados en el usuario: la importancia de los comentarios de los clientes

Crecimiento de las criptomonedas: creación de perfiles de usuarios eficaces

Light-Mode

Classic

Newspaper

Minty

Dark-Mode

Neon Noir

Minty

HN StartUps