Ceci est le résumé et mes principales conclusions de la par LinkedIn sur la façon dont la PNL est utilisée (à partir de ) dans la conception de son système de recherche d'aide. Cela met en évidence l'énoncé du problème et les différentes itérations de solutions qui ont été adoptées ainsi que leurs lacunes. message d'origine 2019 Énoncé du problème : À partir d'une requête d'un utilisateur, récupérez l'article d'aide le plus pertinent dans la base de données. Itération 1 : Solution initiale Indexé tous les articles d'aide (documents) dans la base de données à l'aide . En bref, il génère un dictionnaire inversé qui associe les termes à tous les documents dans lesquels ils sont apparus. de Lucene Index 2. La requête donnée est utilisée pour récupérer tous les documents pertinents (hits) à l'aide de l'indexation Lucene. 3. Chaque correspondance est notée à l'aide de l'algorithme , qui tient compte de la en attribuant les poids les plus élevés aux correspondances dans le , puis aux correspondances dans les puis dans le , et renvoie un score pondéré. BM25F structure du document, titre mots clés corps 4. Renvoyez les articles les mieux notés. Pourquoi ça a échoué Étant donné que le système de recherche de documents est ), sans tenir compte de la , voici deux exemples de cas d'échec : basé sur Term ( syntaxe sémantique Itération 2 : Solution finale Étape 1 : Normalisation du texte " normalisé à " comment annuler mes comptes premium immédiatement" annuler le compte premium" Étape 2 : Mappage des requêtes Il peut arriver que la requête normalisée n'ait aucun mot en commun avec les mots des articles. Par conséquent, chaque requête est mappée à une requête plus représentative pour combler l'écart entre la terminologie d'un utilisateur et la terminologie de l'article. Réalisé en deux étapes : les requêtes sont regroupées en fonction des métriques de similarité Regroupement des requêtes : Pour chacune des requêtes du groupe Query, un est calculé et les K requêtes les plus importantes sont sélectionnées comme requêtes Rep. 2. Topic Mining et Rep Scoring : repScore est la similarité entre la requête brute et une autre requête du groupe sim(RQ, Q2) est la similarité maximale entre Q2 et l'un des sujets du titre (de même pour le corps) sim(Q2, title) Étape 3 : Classification de l'intention Les requêtes à longue queue peuvent ne pas avoir de requête Rep, auquel cas un est utilisé pour classer l' de la requête. CNN intention Par exemple : "Annuler votre abonnement Premium" et "Annuler ou mettre à jour un abonnement Premium acheté sur votre appareil Apple" sont considérés comme ayant la même intention d'"annuler la prime". Flux global Également publié ici