Este é o resumo e minhas principais conclusões do pelo LinkedIn sobre como o NLP está sendo usado (a partir de ) ao projetar seu sistema de pesquisa de ajuda. Isso destaca a declaração do problema e as diferentes iterações de soluções que foram adotadas junto com suas deficiências. postagem original 2019 Declaração do problema: Dada uma consulta de um usuário, busque o artigo de ajuda mais relevante do banco de dados. Iteração 1: Solução Inicial Indexou todos os artigos de ajuda (documentos) no banco de dados usando . Resumindo, ele gera um dicionário invertido que mapeia os termos para todos os documentos em que apareceu. Lucene Index 2. A consulta fornecida é usada para buscar todos os documentos relevantes (ocorrências) usando a indexação Lucene. 3. Cada acerto é pontuado usando o algoritmo , que leva em consideração a , dando os pesos mais altos aos acertos no , depois aos acertos nas -chave e depois no , e retorna uma pontuação ponderada. BM25F estrutura do documento Título Palavras Corpo 4. Retorne os artigos com melhor pontuação. Por que falhou Como o sistema de recuperação de documentos é ), sem levar em conta a , seguem-se dois exemplos de casos de falha: baseado em Termo ( sintática semântica Iteração 2: solução final Etapa 1: normalização de texto “ normalizado para “ como cancelar minhas contas premium imediatamente” cancelar conta premium” Etapa 2: mapeamento de consultas Pode acontecer que a consulta normalizada não tenha nenhuma palavra em comum com as palavras dos artigos. Portanto, cada consulta é mapeada para uma consulta mais representativa para preencher a lacuna entre a terminologia do usuário e a terminologia do artigo. Feito nas duas etapas a seguir: as consultas são agrupadas com base em métricas de similaridade Agrupamento de consultas: Para cada uma das consultas no grupo Query, um é calculado e as K principais consultas são selecionadas como Rep Queries 2. Mineração de Tópicos e Pontuação Rep: repScore é a semelhança entre a consulta bruta e outra consulta no grupo sim(RQ, Q2) é a similaridade máxima entre Q2 e um dos tópicos do título (da mesma forma para o corpo) sim(Q2, título) Etapa 3: classificação de intenção Consultas de cauda longa podem não ter uma Consulta Rep, caso em que uma é usada para classificar a da consulta. CNN Intenção Por exemplo: “Cancelar sua assinatura premium” e “Cancelar ou atualizar uma assinatura premium comprada em seu dispositivo Apple” são considerados como tendo a mesma intenção de “cancelar premium”. Fluxo geral Também publicado aqui