paint-brush
Comment LinkedIn utilise la PNL pour concevoir son système de recherche d'aideby@harshit158
564
564

Comment LinkedIn utilise la PNL pour concevoir son système de recherche d'aide

Harshit Sharma2m2022/07/18
Read on Terminal Reader
Read this story w/o Javascript

Le système de recherche d'aide de LinkedIn est utilisé (à partir de 2019**) pour concevoir son système de recherche d'aide. Cela met en évidence l'énoncé du problème et les différentes itérations de solutions qui ont été adoptées ainsi que leurs lacunes. Ceci est le résumé et mes principales conclusions du message original de LinkedIn sur la façon dont la PNL est utilisée dans la conception de systèmes de recherche d'aide. La requête donnée est utilisée pour récupérer tous les documents pertinents (hits) à l'aide de l'indexation Lucene. Chaque correspondance est notée à l'aide de l'algorithme [BM25F](https://www.google.com/article/53174626597/).

Companies Mentioned

Mention Thumbnail
Mention Thumbnail

Coin Mentioned

Mention Thumbnail
featured image - Comment LinkedIn utilise la PNL pour concevoir son système de recherche d'aide
Harshit Sharma HackerNoon profile picture

Ceci est le résumé et mes principales conclusions de la message d'origine par LinkedIn sur la façon dont la PNL est utilisée (à partir de 2019 ) dans la conception de son système de recherche d'aide. Cela met en évidence l'énoncé du problème et les différentes itérations de solutions qui ont été adoptées ainsi que leurs lacunes.

Énoncé du problème :

À partir d'une requête d'un utilisateur, récupérez l'article d'aide le plus pertinent dans la base de données.

(Image de l'auteur) Énoncé du problème

Itération 1 : Solution initiale

  1. Indexé tous les articles d'aide (documents) dans la base de données à l'aide de Lucene Index . En bref, il génère un dictionnaire inversé qui associe les termes à tous les documents dans lesquels ils sont apparus. Source : Blog d'origine

2. La requête donnée est utilisée pour récupérer tous les documents pertinents (hits) à l'aide de l'indexation Lucene.

3. Chaque correspondance est notée à l'aide de l'algorithme BM25F , qui tient compte de la structure du document, en attribuant les poids les plus élevés aux correspondances dans le titre , puis aux correspondances dans les mots clés puis dans le corps , et renvoie un score pondéré.

4. Renvoyez les articles les mieux notés.

Pourquoi ça a échoué

Étant donné que le système de recherche de documents est basé sur Term ( syntaxe ), sans tenir compte de la sémantique , voici deux exemples de cas d'échec : (Image de l'auteur) Exemples de cas d'utilisation qui ont échoué

Itération 2 : Solution finale

Étape 1 : Normalisation du texte

" comment annuler mes comptes premium immédiatement" normalisé à " annuler le compte premium" Source : Blog d'origine

Étape 2 : Mappage des requêtes

Il peut arriver que la requête normalisée n'ait aucun mot en commun avec les mots des articles. Par conséquent, chaque requête est mappée à une requête plus représentative pour combler l'écart entre la terminologie d'un utilisateur et la terminologie de l'article.

Réalisé en deux étapes :

  1. Regroupement des requêtes : les requêtes sont regroupées en fonction des métriques de similarité (Image de l'auteur) Illustration du regroupement de requêtes

2. Topic Mining et Rep Scoring : Pour chacune des requêtes du groupe Query, un repScore est calculé et les K requêtes les plus importantes sont sélectionnées comme requêtes Rep. (Image de l'auteur) Illustration de l'exploration de sujets et de la notation des représentants

sim(RQ, Q2) est la similarité entre la requête brute et une autre requête du groupe

sim(Q2, title) est la similarité maximale entre Q2 et l'un des sujets du titre (de même pour le corps)

Étape 3 : Classification de l'intention

Les requêtes à longue queue peuvent ne pas avoir de requête Rep, auquel cas un CNN est utilisé pour classer l' intention de la requête.

Par exemple : "Annuler votre abonnement Premium" et "Annuler ou mettre à jour un abonnement Premium acheté sur votre appareil Apple" sont considérés comme ayant la même intention d'"annuler la prime".

Flux global (Image de l'auteur) Flux global


Également publié ici