paint-brush
Cómo utiliza LinkedIn la PNL para diseñar su sistema de búsqueda de ayudapor@harshit158
568 lecturas
568 lecturas

Cómo utiliza LinkedIn la PNL para diseñar su sistema de búsqueda de ayuda

por Harshit Sharma2m2022/07/18
Read on Terminal Reader
Read this story w/o Javascript

Demasiado Largo; Para Leer

El sistema de búsqueda de ayuda de LinkedIn se está utilizando (a partir de 2019**) en el diseño de su sistema de búsqueda de ayuda. Esto destaca la declaración del problema y las diferentes iteraciones de soluciones que se adoptaron junto con sus deficiencias. Este es el resumen y mis conclusiones clave de la publicación original de LinkedIn sobre cómo se utiliza la PNL en el diseño de sistemas de búsqueda de ayuda. La consulta dada se usa para obtener todos los documentos relevantes (hits) usando la indexación de Lucene. Cada resultado se califica con el algoritmo [BM25F](https://www.google.com/article/53174626597/).

Companies Mentioned

Mention Thumbnail
Mention Thumbnail

Coin Mentioned

Mention Thumbnail
featured image - Cómo utiliza LinkedIn la PNL para diseñar su sistema de búsqueda de ayuda
Harshit Sharma HackerNoon profile picture

Este es el resumen y mis conclusiones clave de la publicación original por LinkedIn sobre cómo se utiliza la PNL (a partir de 2019 ) en el diseño de su sistema de búsqueda de ayuda. Esto destaca la declaración del problema y las diferentes iteraciones de soluciones que se adoptaron junto con sus deficiencias.

Planteamiento del problema:

Ante una consulta de un usuario, obtenga el artículo de ayuda más relevante de la base de datos.

(Imagen del autor) Declaración del problema

Iteración 1: Solución inicial

  1. Indizó todos los artículos de ayuda (documentos) en la base de datos usando Lucene Index . En resumen, genera un diccionario invertido que asigna términos a todos los documentos en los que apareció. Fuente: Blog original

2. La consulta dada se usa para obtener todos los documentos relevantes (hits) usando la indexación de Lucene.

3. Cada acierto se puntúa con el algoritmo BM25F , que tiene en cuenta la estructura del documento , otorgando los pesos más altos a los aciertos en el Título , luego a los aciertos en las Palabras clave y luego en el Cuerpo , y devuelve una puntuación ponderada.

4. Devolver los artículos mejor puntuados.

por qué falló

Dado que el sistema de recuperación de documentos está basado en términos ( sintáctica ), sin tener en cuenta la semántica , los siguientes son dos casos de falla de ejemplo: (Imagen del autor) Ejemplos de casos de uso que fallaron

Iteración 2: Solución final

Paso 1: Normalización de texto

cómo cancelar mis cuentas premium inmediatamente” normalizado a “ cancelar cuenta premium” Fuente: Blog original

Paso 2: Asignación de consultas

Puede suceder que la consulta normalizada no tenga palabras en común con las palabras de los artículos. Por lo tanto, cada consulta se asigna a una consulta más representativa para llenar el vacío entre la terminología de un usuario y la terminología del artículo.

Realizado en los siguientes dos pasos:

  1. Agrupación de consultas: las consultas se agrupan en función de las métricas de similitud (Imagen del autor) Ilustración de la agrupación de consultas

2. Topic Mining and Rep Scoring: Para cada una de las consultas en el grupo de consultas, se calcula un repScore y las K consultas principales se seleccionan como consultas de representantes. (Imagen del autor) Ilustración de Topic Mining y puntuación Rep

sim(RQ, Q2) es la similitud entre la consulta sin procesar y otra consulta en el grupo

sim(Q2, título) es la máxima similitud entre Q2 y uno de los temas del título (de manera similar para el cuerpo)

Paso 3: Clasificación de intención

Es posible que las consultas de cola larga no tengan una consulta de representante, en cuyo caso se usa una CNN para clasificar la intención de la consulta.

Por ejemplo: "Cancelar su suscripción premium" y "Cancelar o actualizar una suscripción premium comprada en su dispositivo Apple" se considera que tienen la misma intención que "cancelar premium".

Flujo general (Imagen del autor) Flujo general


También publicado aquí