Có thể khó hiểu khi nghe các công ty tìm kiếm giải thích cách hoạt động của tìm kiếm và AI. Bing đã thêm ChatGPT sử dụng các mô hình ngôn ngữ lớn (LLM), nhưng ngay cả trước đó chúng đã có khả năng học sâu. Google gần đây đã công bố khả năng tìm kiếm hình ảnh mới và dịch vụ LLM của riêng mình. Tại Algolia, chúng tôi cũng sắp giới thiệu công nghệ hỗ trợ AI của riêng mình sử dụng hàm băm thần kinh để mở rộng quy mô tìm kiếm thông minh cho bất kỳ ứng dụng nào. Tất cả các thuật ngữ này có thể gây nhầm lẫn.
Hãy khắc phục điều đó bằng cách chia nhỏ các công nghệ liên quan đến tìm kiếm.
Công cụ tìm kiếm từ khóa đã tồn tại trong nhiều thập kỷ. Dự án Apache Lucene là một trong những công cụ tìm kiếm nguồn mở nổi tiếng nhất cung cấp chức năng tìm kiếm từ khóa. Loại công cụ tìm kiếm này sử dụng các kỹ thuật thống kê để khớp các truy vấn với các mục trong chỉ mục. Chúng hoạt động giống như chỉ mục ở mặt sau của một cuốn sách bằng cách chỉ vào tất cả các vị trí trong cuốn sách có chứa thông tin. Các công nghệ xử lý truy vấn như khả năng chịu lỗi chính tả, phân đoạn từ và bắt đầu từ cũng được sử dụng để giúp các công cụ tìm kiếm hiểu và hiểu chính tả cũng như hiểu truy vấn.
Tìm kiếm từ khóa có xu hướng rất nhanh và hoạt động tốt đối với các kết hợp từ khóa truy vấn chính xác. Tuy nhiên, họ thường gặp khó khăn với các truy vấn đuôi dài, tìm kiếm khái niệm, tìm kiếm kiểu câu hỏi, từ đồng nghĩa và các cụm từ khác mà truy vấn không khớp chính xác với nội dung trong chỉ mục. Vì lý do này, nhiều công ty đã thêm các tính năng bổ sung như tạo từ đồng nghĩa AI để trợ giúp.
Tìm kiếm ngữ nghĩa liên quan đến việc hiểu ý nghĩa của các từ và cụm từ trong truy vấn tìm kiếm và trả về kết quả có liên quan về mặt ngữ nghĩa với truy vấn. Các công cụ tìm kiếm ngữ nghĩa sử dụng các kỹ thuật xử lý ngôn ngữ tự nhiên (NLP) để hiểu ý nghĩa của các từ và cụm từ cũng như để tìm các khái niệm, từ đồng nghĩa và thông tin liên quan khác có liên quan đến truy vấn tìm kiếm.
Tìm kiếm AI là một thuật ngữ chung và rộng hơn bao gồm tìm kiếm ngữ nghĩa cũng như các kỹ thuật máy học khác để cung cấp kết quả tìm kiếm. Tìm kiếm AI thường bao gồm một số bước, bao gồm xử lý truy vấn, truy xuất và xếp hạng.
Xử lý truy vấn : Bước này liên quan đến việc phân tích truy vấn của người dùng để hiểu ý định, phạm vi và các ràng buộc của nó. Quá trình xử lý truy vấn có thể bao gồm các tác vụ như phân tích cú pháp truy vấn thành các phần cấu thành, hiểu ngữ nghĩa của từ khóa và cụm từ, chuẩn hóa truy vấn thành định dạng chuẩn, v.v.
Truy xuất : Sau khi truy vấn đã được xử lý, hệ thống sẽ truy xuất một bộ tài liệu hoặc mục dữ liệu phù hợp với tiêu chí truy vấn. Tìm kiếm bằng trí tuệ nhân tạo thường sử dụng các thuật toán học máy để xác định sự tương đồng và đo lường mức độ liên quan giữa các cụm từ để mang lại kết quả phù hợp.
Xếp hạng : Sau khi các tài liệu hoặc mục dữ liệu đã được truy xuất, hệ thống sẽ xếp hạng chúng dựa trên mức độ liên quan và tầm quan trọng của chúng đối với truy vấn của người dùng. Các mô hình học để xếp hạng như học tăng cường được sử dụng để liên tục tối ưu hóa kết quả.
ChatGPT của OpenAI, Bard của Google, Midjourney và công nghệ AI tương tự khác được gọi là AI tổng quát . Các giải pháp có mục đích chung này cố gắng dự đoán kết quả dựa trên thông tin đầu vào và sẽ thực sự tạo ra phản hồi mới. Họ sử dụng văn bản và nội dung hình ảnh có sẵn để tạo ra một cái gì đó mới.
Mặt khác, các công cụ tìm kiếm có thể sử dụng AI để cải thiện kết quả tìm kiếm. Cũng giống như AI tổng quát, AI tìm kiếm có thể được sử dụng để hiểu đầu vào ngôn ngữ tự nhiên. Không giống như AI tổng quát, các công cụ tìm kiếm không tạo ra bất kỳ nội dung mới lạ nào. Cả hai công nghệ có thể được sử dụng cùng nhau hoặc độc lập. Các công nghệ AI sáng tạo có thể được sử dụng để hỗ trợ đầu ra sáng tạo và tìm kiếm được sử dụng để lọc và xếp hạng các kết quả theo thứ tự. Ai đó đang tìm kiếm ý tưởng thời trang mới có thể hỏi bot trò chuyện xu hướng mới nhất là gì, nhận kết quả và sau đó sử dụng tìm kiếm để tìm kết quả. Hoặc, bạn có thể sử dụng tính năng tìm kiếm để tìm sản phẩm, sau đó yêu cầu trò chuyện giải thích ưu và nhược điểm của từng kết quả.
Cả AI trò chuyện chung và AI tìm kiếm thường cung cấp trải nghiệm người dùng tốt hơn thông qua việc hiểu ngôn ngữ tự nhiên.
Các mô hình ngôn ngữ lớn (LLM) đã xuất hiện được một thời gian, nhưng GPT đã đưa chúng trở thành tiêu điểm. LLM là các mô hình trí tuệ nhân tạo được đào tạo để xử lý và tạo văn bản ngôn ngữ tự nhiên. Các mô hình này thường được xây dựng bằng kỹ thuật học sâu và yêu cầu một lượng lớn dữ liệu và tài nguyên máy tính để đào tạo. Tại Algolia, chúng tôi cũng sử dụng LLM, nhưng để hỗ trợ hiểu máy. Chúng tôi sử dụng LLM để tạo các vectơ mà chúng tôi có thể sử dụng để so sánh các truy vấn với kết quả.
Vectorization là quá trình chuyển đổi từ thành vectơ (số) cho phép ý nghĩa của chúng được mã hóa và xử lý bằng toán học. Bạn có thể nghĩ về các vectơ như các nhóm số đại diện cho một cái gì đó. Trong thực tế, các vectơ được sử dụng để tự động hóa các từ đồng nghĩa, phân cụm tài liệu, phát hiện ý nghĩa và mục đích cụ thể trong các truy vấn và xếp hạng kết quả. Các phần nhúng rất linh hoạt và các đối tượng khác — như toàn bộ tài liệu, hình ảnh, video, âm thanh, v.v. — cũng có thể được nhúng.
Tìm kiếm vectơ là một cách sử dụng các từ nhúng (hoặc hình ảnh, video, tài liệu, v.v.) để tìm các đối tượng liên quan có các đặc điểm tương tự bằng cách sử dụng các mô hình học máy phát hiện mối quan hệ ngữ nghĩa giữa các đối tượng trong một chỉ mục.
Có nhiều thuật toán hàng xóm gần nhất (ANN) gần đúng khác nhau để tính toán độ tương tự của vectơ. Các kỹ thuật như HNSW (Thế giới nhỏ có thể điều hướng theo cấp bậc), IVF (Tệp đảo ngược) hoặc PQ (Lượng tử hóa sản phẩm, một kỹ thuật để giảm số lượng kích thước của vectơ) là một số phương pháp ANN phổ biến nhất để tìm sự giống nhau giữa các vectơ. Mỗi kỹ thuật tập trung vào việc cải thiện một thuộc tính hiệu suất cụ thể, chẳng hạn như giảm bộ nhớ với PQ hoặc thời gian tìm kiếm nhanh nhưng chính xác với HNSW và IVF. Thực tế phổ biến là trộn một số thành phần để tạo chỉ mục 'tổng hợp' nhằm đạt được hiệu suất tối ưu cho một trường hợp sử dụng nhất định.
Một trong những thách thức khi làm việc với vectơ là kích thước của chúng. Chúng có xu hướng là các chuỗi rất lớn yêu cầu cơ sở dữ liệu chuyên dụng và quản lý GPU. Băm thần kinh là một quy trình mới sử dụng mạng thần kinh để nén các vectơ để chúng có thể được xử lý nhanh hơn tới 500 lần so với phép tính vectơ tiêu chuẩn và chạy trên phần cứng hàng hóa.
Tìm kiếm hỗn hợp là sự kết hợp của tìm kiếm véc tơ với tìm kiếm từ khóa. Tìm kiếm véc tơ là tuyệt vời cho các tìm kiếm mờ hoặc rộng, nhưng tìm kiếm từ khóa vẫn quy định các truy vấn chính xác. Ví dụ: khi bạn truy vấn “Adidas” trên công cụ từ khóa, theo mặc định, bạn sẽ chỉ thấy thương hiệu Adidas. Hành vi mặc định trong một công cụ vectơ là trả về các kết quả tương tự — Nike, Puma, Adidas, v.v., bởi vì tất cả chúng đều nằm trong cùng một không gian khái niệm. Tìm kiếm từ khóa vẫn cung cấp kết quả tốt hơn cho các truy vấn ngắn với mục đích cụ thể.
Tìm kiếm kết hợp cung cấp tốt nhất cả hai từ cung cấp tốc độ và độ chính xác cho các đối sánh chính xác và cụm từ đơn giản, trong khi vectơ cải thiện các truy vấn đuôi dài và mở ra cơ hội cho các giải pháp tìm kiếm mới. Tại Algolia, giải pháp AI lai của chúng tôi — Algolia NeuralSearch — sắp ra mắt. Tìm hiểu thêm .
Cũng được xuất bản ở đây .