Este es el resumen y mis conclusiones clave de la por LinkedIn sobre cómo se utiliza la PNL (a partir de ) en el diseño de su sistema de búsqueda de ayuda. Esto destaca la declaración del problema y las diferentes iteraciones de soluciones que se adoptaron junto con sus deficiencias. publicación original 2019 Planteamiento del problema: Ante una consulta de un usuario, obtenga el artículo de ayuda más relevante de la base de datos. Iteración 1: Solución inicial Indizó todos los artículos de ayuda (documentos) en la base de datos usando . En resumen, genera un diccionario invertido que asigna términos a todos los documentos en los que apareció. Lucene Index 2. La consulta dada se usa para obtener todos los documentos relevantes (hits) usando la indexación de Lucene. 3. Cada acierto se puntúa con el algoritmo , que tiene en cuenta la , otorgando los pesos más altos a los aciertos en el , luego a los aciertos en las y luego en el , y devuelve una puntuación ponderada. BM25F estructura del documento Título Palabras clave Cuerpo 4. Devolver los artículos mejor puntuados. por qué falló Dado que el sistema de recuperación de documentos está ), sin tener en cuenta la , los siguientes son dos casos de falla de ejemplo: basado en términos ( sintáctica semántica Iteración 2: Solución final Paso 1: Normalización de texto “ normalizado a “ cómo cancelar mis cuentas premium inmediatamente” cancelar cuenta premium” Paso 2: Asignación de consultas Puede suceder que la consulta normalizada no tenga palabras en común con las palabras de los artículos. Por lo tanto, cada consulta se asigna a una consulta más representativa para llenar el vacío entre la terminología de un usuario y la terminología del artículo. Realizado en los siguientes dos pasos: las consultas se agrupan en función de las métricas de similitud Agrupación de consultas: Para cada una de las consultas en el grupo de consultas, se calcula un y las K consultas principales se seleccionan como consultas de representantes. 2. Topic Mining and Rep Scoring: repScore es la similitud entre la consulta sin procesar y otra consulta en el grupo sim(RQ, Q2) es la máxima similitud entre Q2 y uno de los temas del título (de manera similar para el cuerpo) sim(Q2, título) Paso 3: Clasificación de intención Es posible que las consultas de cola larga no tengan una consulta de representante, en cuyo caso se usa una para clasificar la de la consulta. CNN intención Por ejemplo: "Cancelar su suscripción premium" y "Cancelar o actualizar una suscripción premium comprada en su dispositivo Apple" se considera que tienen la misma intención que "cancelar premium". Flujo general También publicado aquí