Jan 01, 1970
这是总结和我的主要收获
给定用户的查询,从数据库中获取最相关的帮助文章。
2. 给定查询用于使用 Lucene 索引获取所有相关文档(命中)。
3. 使用BM25F算法对每个命中进行评分,该算法考虑到文档结构,对Title中的命中赋予最高权重,然后是Keywords中的命中,然后是Body中的命中,并返回加权分数。
4. 返回评分最高的文章。
由于文档检索系统是基于 Term 的(句法),没有考虑语义,以下是两个示例失败案例:
“如何立即取消我的高级帐户”正常化为“取消高级帐户”
规范化查询可能与文章中的单词没有任何共同的单词。因此,每个查询都映射到更具代表性的查询,以填补用户术语和文章术语之间的空白。
分以下两步完成:
2. Topic Mining and Rep Scoring:对Query组中的每一个query,计算一个repScore ,选出前K个query作为Rep Queries
sim(RQ, Q2)是原始查询与组中另一个查询之间的相似度
sim(Q2, title)是 Q2 与标题中的一个主题之间的最大相似度(与正文类似)
长尾查询可能没有 Rep Query,在这种情况下, CNN用于对查询的Intent进行分类。
例如:“取消您的高级订阅”和“取消或更新在您的 Apple 设备上购买的高级订阅”被认为与“取消高级订阅”具有相同的意图。
也在这里发布