Grandes modelos de lenguaje.  Debes haber escuchado estas palabras antes. Representan un tipo específico de algoritmo basado en aprendizaje automático que comprende y puede generar lenguaje, un campo a menudo llamado   o NLP. procesamiento de lenguaje natural  Seguro que has oído hablar del modelo de lenguaje más conocido y potente:   . GPT-3  GPT-3, como lo describí en el video que lo cubre, es capaz de tomar lenguaje, entenderlo y generar lenguaje a cambio. Pero tenga cuidado aquí; realmente no lo entiende. De hecho, está lejos de comprender. GPT-3 y otros modelos basados en lenguaje simplemente usan lo que llamamos diccionarios de palabras para representarlas como números, recuerdan sus posiciones en la oración y eso es todo.  Profundicemos en esos poderosos modelos de aprendizaje automático e intentemos comprender lo que ven en lugar de palabras, llamadas incrustaciones de palabras, y cómo producirlas con un ejemplo proporcionado por Cohere.  Conoce más en el vídeo...   Referencias  ►Lea el artículo completo:   ►Tutorial de incrustaciones de palabras BERT:   ►Cohere's Notebook del ejemplo de código:   ►Cohere Repos enfocado en incrustaciones:   ►My Newsletter (¡Una nueva aplicación de IA explicada semanalmente en sus correos electrónicos!):  https://www.louisbouchard.ai/text-embedding/ https://mccormickml.com/2019/05/14/BERT-word-embeddings-tutorial/#why-bert-embeddings https://colab.research.google.com/github/cohere-ai/notebooks/blob/main/notebooks/Basic_Semantic_Search.ipynb https://github.com/cohere-ai/notebooks https://www.louisbouchard.ai/newsletter/  Transcripción del vídeo ﻿0:07  modelos de lenguaje que debes haber escuchado  0:10  estas palabras antes de que representen un  0:13  tipo específico de aprendizaje automático  0:14  algoritmos que entienden y pueden  0:16  generar lenguaje un campo a menudo llamado  0:19  procesamiento de lenguaje natural o NLP  0:22  seguro que has oído hablar de los más conocidos  0:24  y poderosos modelos de lenguaje como gpt3  0:26  gpt3 como lo he descrito en el video  0:28  cubriéndolo es capaz de tomar lenguaje  0:30  entenderlo y generar lenguaje en  0:33  regresa pero ten cuidado aqui no  0:35  realmente lo entiendo, de hecho, está lejos  0:38  de entender gbd3 y otros  0:41  los modelos basados en el lenguaje simplemente usan lo que  0:44  llamar diccionarios de palabras para representar  0:46  ellos como números recuerdan sus posiciones  0:49  en la oración y eso es todo usando un  0:52  pocos números y números posicionales  0:53  llamados incrustaciones que son capaces de  0:55  reagrupar oraciones similares que también  0:58  significa que son capaces de tipo de  1:00  entender frases comparándolas  1:02  a oraciones conocidas como nuestro conjunto de datos  1:05  es el mismo proceso para la oración de imagen  1:07  modelos que llevan tu frase a  1:10  generar una imagen que en realidad no  1:11  entenderlo pero pueden compararlo con  1:13  imágenes similares que producen algún tipo de  1:16  comprensión de los conceptos en su  1:18  frase en este video tendremos una  1:20  mira lo que hacen esas poderosas maquinas  1:22  modelos de aprendizaje ver en lugar de palabras  1:24  llamadas incrustaciones de palabras y cómo  1:27  producirlos con un ejemplo proporcionado por  1:29  el patrocinador de este video un gran  1:31  empresa en el campo de la PNL coherente que yo  1:35  hablare al final del video  1:36  ya que tienen una plataforma fantástica para  1:39  PNL hemos hablado de incrustaciones y  1:42  gpt3 pero cuál es el vínculo entre los dos  1:44  las emisiones son lo que ven los modelos  1:47  y cómo procesan las palabras que conocemos  1:50  y por qué usar incrustaciones bien porque como  1:53  de ahora las máquinas no pueden procesar palabras y  1:56  necesitamos números para entrenar a esos  1:59  modelos grandes gracias a nuestro cuidado  2:01  conjunto de datos construido podemos usar las matemáticas para  2:04  medir la distancia entre incrustaciones  2:06  y corregir nuestra red en base a esto  2:08  distancia obteniendo iterativamente nuestra  2:10  predicciones más cercanas al significado real  2:12  y mejorando los resultados y reuniones  2:15  son también lo que les gusta a las modelos clip  2:17  difusión estable o Dali solía  2:19  comprender oraciones y generar imágenes  2:21  esto se hace comparando ambas imágenes  2:24  y texto en el mismo espacio de incrustación  2:26  lo que significa que el modelo no  2:28  entender el texto o las imágenes, pero  2:31  puede entender si una imagen es similar a  2:33  un texto específico o no así si encontramos  2:36  suficientes pares de subtítulos de imagen que podemos entrenar  2:38  un modelo enorme y poderoso como Dalí para  2:41  tomar una oración incrustarla encontrar su  2:43  clon de imagen más cercano y generarlo en  2:46  regresar para que el aprendizaje automático con texto sea  2:48  todo sobre comparar incrustaciones, pero cómo  2:51  ¿Conseguimos esas incrustaciones? Las conseguimos  2:53  usando otro modelo entrenado para encontrar el  2:56  la mejor manera de generar incrustaciones similares  2:58  para oraciones similares manteniendo el  3:01  diferencias en el significado de palabras similares  3:03  en comparación con el uso de uno por uno directo  3:06  diccionario las frases suelen ser  3:08  representado con marcas especiales de fichas  3:10  el principio y el final de nuestro texto entonces  3:13  como dije tenemos nuestras poses de todos  3:15  incrustaciones que indican la posición  3:17  de cada palabra en relación con los demás  3:19  a menudo usando funciones sinusoidales I  3:22  vinculó un gran artículo sobre esto en el  3:25  descripción si desea obtener más información  3:26  finalmente tenemos nuestras incrustaciones de palabras  3:29  empezar con todas nuestras palabras divididas  3:31  en una matriz como una tabla de palabras  3:34  a partir de ahora ya no hay palabras  3:36  son solo fichas o números de la  3:40  todo el diccionario de ingles se puede ver  3:42  aquí que todas las palabras ahora son  3:44  representado por un número que indica dónde  3:46  están en el diccionario teniendo así  3:49  el mismo número para la palabra banco incluso  3:51  aunque su significado es diferente en  3:53  la oración que tenemos ahora necesitamos agregar  3:56  un poco de inteligencia a eso pero  3:58  no demasiado esto se hace gracias a un  4:00  modelo entrenado para tomar esta nueva lista de  4:03  números y luego codificarlo en  4:05  otra lista de números que mejor  4:08  representar la frase por ejemplo it  4:10  ya no tendrá la misma incrustación  4:13  para el banco de dos palabras aquí esto es  4:15  posible porque el modelo solía hacer  4:17  que ha sido entrenado en un montón de  4:19  anotó datos de texto y aprendió a  4:21  codificar oraciones de significado similar junto a  4:24  entre sí y oraciones opuestas lejos  4:27  unos de otros permitiendo así que nuestros  4:29  incrustaciones para estar menos sesgados por nuestra  4:31  elección de palabras luego el simple inicial  4:34  uno por una palabra incrustando nosotros inicialmente  4:37  tenía esto es lo que parece el uso de imágenes  4:39  como en un ejemplo muy corto de PNL allí  4:42  hay más enlaces a continuación para obtener más información sobre  4:44  incrustaciones y cómo codificarlas tú mismo  4:46  aquí tomaremos algunas publicaciones de Hacker News  4:49  y construya una etiqueta de modelo para recuperar el  4:51  publicación más similar de una nueva entrada  4:53  oración para comenzar necesitamos un conjunto de datos en  4:56  este caso es un conjunto pre-incrustado de  4:58  3000 publicaciones de Hacker News que ya han  5:01  se ha emitido en números y luego construimos  5:04  un recuerdo guardando todas esas incrustaciones para  5:07  comparación futura básicamente solo  5:09  guardó estas incrustaciones en un eficiente  5:11  manera cuando se realiza una nueva consulta, por ejemplo  5:13  aqui preguntando cual es tu mas profundo  5:16  la vida dentro de ti puede generar su  5:18  incrustación usando la misma incrustación  5:20  Red por lo general es pájaro o una versión  5:23  de ella y comparamos la distancia  5:25  entre el espacio de incrustación a todos los demás  5:27  Publicaciones de Hacker News en nuestra nota de memoria  5:30  que es muy importante aquí para  5:32  utilice siempre la misma red, ya sea para  5:34  generar su conjunto de datos o para consultar  5:36  como dije no hay real  5:38  inteligencia aquí ni que en realidad  5:40  entiende las palabras que acaba de ser  5:42  entrenado para incrustar oraciones similares  5:45  cerca en el espacio sin tripulación nada  5:47  más si envías tu sentencia a un  5:50  red diferente para generar una  5:51  incrustación y comparar la incrustación con  5:53  las que tenías de otra Red  5:55  nada funcionará solo será como  5:58  la gente agradable que trata de hablar conmigo  5:59  en hebreo en eccv la semana pasada solo  6:02  no estaba en un espacio incrustado mi cerebro  6:04  pudo entender afortunadamente para nosotros nuestro  6:06  el cerebro puede aprender a transferir de una  6:08  incrustando espacio a otro como puedo con  6:11  Francés e inglés pero requiere mucho  6:13  de trabajo y práctica y es lo mismo  6:16  para máquinas de todos modos volviendo a nuestro  6:18  problema podríamos encontrar el más similar  6:21  publicaciones que son geniales, pero ¿cómo podría  6:23  logramos esto como mencioné es  6:25  por el nacimiento de la red en este  6:28  caso de que aprenda a crear similares  6:30  incrustaciones de oraciones similares podemos  6:32  incluso visualizarlo en dos dimensiones como  6:35  aquí donde se puede ver cómo dos similares  6:37  los puntos representan temas similares que usted  6:39  puede hacer muchas otras cosas una vez que tiene  6:41  esas incrustaciones como extraer  6:43  palabras clave realizando una búsqueda semántica  6:45  hacer análisis de sentimientos o incluso  6:47  generando imágenes como decíamos y  6:49  demostrado en videos anteriores tengo un  6:52  muchos videos que cubren esos y enumerados  6:55  unos cuantos cuadernos interesantes para aprender a  6:57  jugar con codificaciones gracias al cohere  6:59  equipo ahora déjame hablar un poco sobre  7:02  kohilu ya que son muy relevantes para  7:05  este video cook aquí proporciona una  7:07  todo lo que necesitas si estas trabajando  7:09  en el campo de la PNL incluyendo un super  7:11  forma sencilla de utilizar modelos incrustados en  7:14  su aplicación literalmente con solo un  7:16  Llamada API puede incrustar el texto sin  7:18  saber algo acerca de cómo la incrustación  7:21  los modelos funcionan, la API lo hace por usted en  7:23  el fondo aquí se puede ver el  7:25  cuaderno de búsqueda semántica que utiliza  7:27  cohere API para crear incrustaciones de un  7:30  archivo de preguntas y preguntas  7:32  consultas para luego realizar la búsqueda de  7:34  preguntas similares usando cook here you  7:37  puede hacer fácilmente cualquier cosa relacionada con el texto  7:39  generar categorizar y organizar en  7:42  casi cualquier escala que puedas integrar  7:44  grandes modelos de lenguaje entrenados en  7:46  miles de millones de palabras con unas pocas líneas de  7:48  código y funciona en cualquier biblioteca que  7:51  ni siquiera necesita habilidades de aprendizaje automático  7:53  para empezar tienen hasta aprendizaje  7:55  recursos como el reciente cohere para  7:57  el programa de colores de ai que me gusta mucho  8:00  este programa es increible  8:01  oportunidad para el talento emergente en PNL  8:04  investigar alrededor del mundo si es seleccionado  8:06  trabajarás junto a su equipo  8:08  y tener acceso a gran escala  8:10  marco experimental y coherencia  8:12  expertos, lo cual es genial, yo también  8:15  te invito a unirte a su gran Discord  8:17  Comunidad ingeniosamente llamada Co Unidad I  8:21  espero que hayas disfrutado este video y  8:23  intente cohesionarse usted mismo con el  8:25  primer enlace a continuación, estoy seguro de que lo hará  8:27  Benefíciese de ello muchas gracias por  8:29  viendo el video completo y gracias a  8:31  cualquiera que apoye mi trabajo dejando un  8:33  como comentar o probar nuestros patrocinadores  8:36  que selecciono cuidadosamente para estos videos

Watch more on YouTube: https://www.youtube.com/c/WhatsAI

I explain Artificial Intelligence terms and news to non-experts.

2021 - HackerNoon Contributor of the Year - FACEBOOK

2022 - Best Data Science Newsletter

2022 - HackerNoon Contributor of the Year - Artificial Intelligence

2022 - HackerNoon Contributor of the Year - Computer Vision

2022 - HackerNoon Contributor of the Year - Data Science

2022 - HackerNoon Contributor of the Year - Google

2022 - HackerNoon Contributor of the Year - Innovation

2022 - HackerNoon Contributor of the Year - Machine Learning

2022 - HackerNoon Contributor of the Year - Natural Language Processing

2022 - Top Tech Youtuber

2021 - HackerNoon Contributor of the Year - DEEP-LEARNING

Nominated for 2022 - Best Data Science Newsletter

Nominated for 2022 - HackerNoon Contributor of the Year - Artificial Intelligence

Nominated for 2022 - Top Tech Youtuber

Nominated for 2022 - HackerNoon Contributor of the Year - Innovation

Nominated for 2022 - HackerNoon Contributor of the Year - Data Science

Nominated for 2022 - HackerNoon Contributor of the Year - Natural Language Processing

Incrustación de texto explicada: cómo la IA entiende las palabras

About Author

COMENTARIOS

ETIQUETAS

ESTE ARTÍCULO FUE PRESENTADO EN

Related Stories

Creación de productos criptográficos centrados en el usuario: la importancia de los comentarios de los clientes

Navegando por las aguas: desarrollo de aplicaciones RAG de nivel de producción con lagos de datos

¿Quieres ganar un concurso de redacción de HackerNoon? Esto es lo que recomiendan los ganadores del concurso #crypto-api

De los foros a los feeds: cómo los algoritmos de las redes sociales influyen en la interacción digital

Creación de productos criptográficos centrados en el usuario: la importancia de los comentarios de los clientes

Navegando por las aguas: desarrollo de aplicaciones RAG de nivel de producción con lagos de datos

¿Quieres ganar un concurso de redacción de HackerNoon? Esto es lo que recomiendan los ganadores del concurso #crypto-api

De los foros a los feeds: cómo los algoritmos de las redes sociales influyen en la interacción digital

Light-Mode

Classic

Newspaper

Minty

Dark-Mode

Neon Noir

Minty

HN StartUps