Ceci est le résumé et mes principales conclusions de la  par LinkedIn sur la façon dont la PNL est utilisée (à partir de   ) dans la conception de son système de recherche d'aide. Cela met en évidence l'énoncé du problème et les différentes itérations de solutions qui ont été adoptées ainsi que leurs lacunes.   message d'origine 2019  Énoncé du problème :  À partir d'une requête d'un utilisateur, récupérez l'article d'aide le plus pertinent dans la base de données.   Itération 1 : Solution initiale  Indexé tous les articles d'aide (documents) dans la base de données à l'aide   . En bref, il génère un dictionnaire inversé qui associe les termes à tous les documents dans lesquels ils sont apparus.  de Lucene Index  2. La requête donnée est utilisée pour récupérer tous les documents pertinents (hits) à l'aide de l'indexation Lucene.  3. Chaque correspondance est notée à l'aide de l'algorithme   , qui tient compte de la   en attribuant les poids les plus élevés aux correspondances dans le   , puis aux correspondances dans les   puis dans le   , et renvoie un score pondéré. BM25F structure du document, titre mots clés corps  4. Renvoyez les articles les mieux notés.  Pourquoi ça a échoué  Étant donné que le système de recherche de documents est   ), sans tenir compte de la   , voici deux exemples de cas d'échec :  basé sur Term (  syntaxe sémantique  Itération 2 : Solution finale  Étape 1 : Normalisation du texte  "   normalisé à "    comment annuler mes comptes premium immédiatement" annuler le compte premium"  Étape 2 : Mappage des requêtes  Il peut arriver que la requête normalisée n'ait aucun mot en commun avec les mots des articles. Par conséquent, chaque requête est mappée à une requête plus représentative pour combler l'écart entre la terminologie d'un utilisateur et la terminologie de l'article.  Réalisé en deux étapes :    les requêtes sont regroupées en fonction des métriques de similarité  Regroupement des requêtes :    Pour chacune des requêtes du groupe Query, un   est calculé et les K requêtes les plus importantes sont sélectionnées comme requêtes Rep.  2. Topic Mining et Rep Scoring : repScore    est la similarité entre la requête brute et une autre requête du groupe sim(RQ, Q2)    est la similarité maximale entre Q2 et l'un des sujets du titre (de même pour le corps) sim(Q2, title)  Étape 3 : Classification de l'intention  Les requêtes à longue queue peuvent ne pas avoir de requête Rep, auquel cas un   est utilisé pour classer l'   de la requête. CNN intention  Par exemple : "Annuler votre abonnement Premium" et "Annuler ou mettre à jour un abonnement Premium acheté sur votre appareil Apple" sont considérés comme ayant la même intention d'"annuler la prime".  Flux global   Également publié  ici

Flow

Apple

Fetch

Google

Intuitive Shorts @ Substack

ML Engineer @ Juniper Networks

Cet audio est produit dans la langue originale de l'histoire !

Comment LinkedIn utilise la PNL pour concevoir son système de recherche d'aide

About Author

COMMENTAIRES

ÉTIQUETTES

CET ARTICLE A ÉTÉ PARU DANS

Related Stories

State of the Noonion: Green Clock Strikes Noon

Comment améliorer votre flux de travail par 10 : 17 applications essentielles

Naviguer sur les eaux : développer des applications RAG de qualité production avec des lacs de données

Télégramme : le pont de Crypto Island vers le continent

State of the Noonion: Green Clock Strikes Noon

Comment améliorer votre flux de travail par 10 : 17 applications essentielles

Naviguer sur les eaux : développer des applications RAG de qualité production avec des lacs de données

Télégramme : le pont de Crypto Island vers le continent

Light-Mode

Classic

Newspaper

Minty

Dark-Mode

Neon Noir

Minty

HN StartUps