Đây là bản tóm tắt và những điều quan trọng của tôi từ
Người dùng đưa ra một truy vấn, hãy tìm nạp Bài viết trợ giúp có liên quan nhất từ cơ sở dữ liệu.
2. Truy vấn đã cho được sử dụng để tìm nạp tất cả các tài liệu có liên quan (lượt truy cập) bằng cách sử dụng lập chỉ mục Lucene.
3. Mỗi lần truy cập được tính điểm bằng cách sử dụng thuật toán BM25F , có tính đến cấu trúc tài liệu , đưa ra trọng số cao nhất cho các lần truy cập trong Tiêu đề , sau đó truy cập trong Từ khóa và sau đó là Nội dung và trả về điểm số có trọng số.
4. Trả lại những bài báo được điểm cao nhất.
Vì hệ thống truy xuất tài liệu dựa trên thuật ngữ ( cú pháp ), không tính đến ngữ nghĩa , sau đây là hai trường hợp lỗi ví dụ:
" Cách hủy tài khoản trả phí của tôi ngay lập tức" được chuẩn hóa thành " hủy tài khoản trả phí"
Có thể xảy ra trường hợp truy vấn chuẩn hóa không có bất kỳ từ nào chung với các từ trong bài viết. Do đó, mỗi truy vấn được ánh xạ tới một truy vấn đại diện hơn để lấp đầy khoảng cách giữa thuật ngữ của người dùng và thuật ngữ của bài báo.
Thực hiện theo hai bước sau:
2. Khai thác chủ đề và tính điểm đại diện: Đối với mỗi truy vấn trong nhóm Truy vấn, điểm tổng được tính và K truy vấn hàng đầu được chọn làm Truy vấn đại diện
sim (RQ, Q2) là điểm giống nhau giữa truy vấn thô và một truy vấn khác trong nhóm
sim (Q2, tiêu đề) là độ tương đồng tối đa giữa Q2 và một trong các chủ đề từ tiêu đề (tương tự đối với nội dung)
Các truy vấn dài có thể không có Truy vấn đại diện, trong trường hợp đó, CNN được sử dụng để phân loại Mục đích của truy vấn.
Ví dụ: “Hủy Đăng ký Đặc biệt của bạn” và “Hủy hoặc Cập nhật Đăng ký Đặc biệt đã Mua trên Thiết bị Apple của bạn” được coi là có cùng mục đích là “hủy bỏ phí bảo hiểm”.
Cũng được xuất bản tại đây