Đây là bản tóm tắt và những điều quan trọng của tôi từ của LinkedIn về cách NLP đang được sử dụng (kể từ ) trong việc thiết kế Hệ thống Tìm kiếm Trợ giúp của nó. Điều này làm nổi bật tuyên bố vấn đề và các lần lặp lại khác nhau của các giải pháp đã được thông qua cùng với những thiếu sót của chúng. bài gốc năm 2019 Báo cáo vấn đề: Người dùng đưa ra một truy vấn, hãy tìm nạp Bài viết trợ giúp có liên quan nhất từ cơ sở dữ liệu. Lặp lại 1: Giải pháp ban đầu Đã lập chỉ mục tất cả các bài báo trợ giúp (tài liệu) trong cơ sở dữ liệu bằng . Nói tóm lại, nó tạo ra một từ điển đảo ngược ánh xạ các thuật ngữ cho tất cả các tài liệu mà nó xuất hiện. Lucene Index 2. Truy vấn đã cho được sử dụng để tìm nạp tất cả các tài liệu có liên quan (lượt truy cập) bằng cách sử dụng lập chỉ mục Lucene. 3. Mỗi lần truy cập được tính điểm bằng cách sử dụng thuật toán , có tính đến , đưa ra trọng số cao nhất cho các lần truy cập trong , sau đó truy cập trong và sau đó là dung và trả về điểm số có trọng số. BM25F cấu trúc tài liệu Tiêu đề Từ khóa Nội 4. Trả lại những bài báo được điểm cao nhất. Tại sao nó không thành công Vì hệ thống truy xuất tài liệu ), không tính đến , sau đây là hai trường hợp lỗi ví dụ: dựa trên thuật ngữ ( cú pháp ngữ nghĩa Lặp lại 2: Giải pháp cuối cùng Bước 1: Chuẩn hóa văn bản " được chuẩn hóa thành " Cách hủy tài khoản trả phí của tôi ngay lập tức" hủy tài khoản trả phí" Bước 2: Ánh xạ truy vấn Có thể xảy ra trường hợp truy vấn chuẩn hóa không có bất kỳ từ nào chung với các từ trong bài viết. Do đó, mỗi truy vấn được ánh xạ tới một truy vấn đại diện hơn để lấp đầy khoảng cách giữa thuật ngữ của người dùng và thuật ngữ của bài báo. Thực hiện theo hai bước sau: Các truy vấn được nhóm lại với nhau dựa trên các chỉ số tương tự Nhóm truy vấn: Đối với mỗi truy vấn trong nhóm Truy vấn, điểm được tính và K truy vấn hàng đầu được chọn làm Truy vấn đại diện 2. Khai thác chủ đề và tính điểm đại diện: tổng là điểm giống nhau giữa truy vấn thô và một truy vấn khác trong nhóm sim (RQ, Q2) là độ tương đồng tối đa giữa Q2 và một trong các chủ đề từ tiêu đề (tương tự đối với nội dung) sim (Q2, tiêu đề) Bước 3: Phân loại ý định Các truy vấn dài có thể không có Truy vấn đại diện, trong trường hợp đó, được sử dụng để phân loại của truy vấn. CNN Mục đích Ví dụ: “Hủy Đăng ký Đặc biệt của bạn” và “Hủy hoặc Cập nhật Đăng ký Đặc biệt đã Mua trên Thiết bị Apple của bạn” được coi là có cùng mục đích là “hủy bỏ phí bảo hiểm”. Lưu lượng tổng thể Cũng được xuất bản tại đây