paint-brush
Bạn có nói được véc tơ không? Hiểu ngôn ngữ của LLM và AI sáng tạoby@datastax
1,572
1,572

Bạn có nói được véc tơ không? Hiểu ngôn ngữ của LLM và AI sáng tạo

DataStax4m2023/07/24
Read on Terminal Reader

Đọc phần này để hiểu rõ hơn về vectơ, tìm kiếm vectơ và các loại cơ sở dữ liệu có thể lưu trữ và truy vấn vectơ.
featured image - Bạn có nói được véc tơ không? Hiểu ngôn ngữ của LLM và AI sáng tạo
DataStax HackerNoon profile picture

Chúng tôi thích nói rằng không có trí tuệ nhân tạo nếu không có dữ liệu. Nhưng nó không thể là bất kỳ loại dữ liệu nào. Lấy các mô hình ngôn ngữ lớn hoặc LLM – các mô hình học sâu, như GPT-4 của OpenAI có thể tạo văn bản khá giống với những gì con người sẽ viết.


Để các LLM “hiểu” các từ, chúng cần được lưu trữ dưới dạng “vectơ” văn bản – một cách nắm bắt ý nghĩa của từ và kiểu sử dụng bằng các con số. Bạn có thể nói rằng vectơ là ngôn ngữ chung của AI.


Các vectơ đã xuất hiện được một thời gian, nhưng với sự phổ biến và khả năng truy cập của giao diện AI tổng quát ChatGPT, chúng đã trở thành một chủ đề nóng, đặc biệt là vì các ứng dụng phổ biến nhất mà các tổ chức sẽ xây dựng bằng các công nghệ này sẽ tận dụng dữ liệu riêng tư của riêng họ cho LLM bằng cách soạn các vectơ của riêng họ.


Nhưng chúng hoạt động như thế nào, chúng được lưu trữ như thế nào, làm thế nào để các ứng dụng tìm kiếm chúng và làm thế nào để chúng giúp biến AI thành hiện thực? Hãy tìm hiểu về vectơ, tìm kiếm vectơ và các loại cơ sở dữ liệu có thể lưu trữ và truy vấn vectơ.

vectơ

Một vectơ đề cập đến một đại diện số của các thuộc tính của một phần dữ liệu. Mỗi điểm dữ liệu được biểu diễn dưới dạng một vectơ có nhiều giá trị số, trong đó mỗi giá trị tương ứng với một tính năng hoặc thuộc tính cụ thể của dữ liệu.


Khi bạn chuyển đổi dữ liệu như hình ảnh hoặc văn bản thành biểu diễn véc tơ, nó được gọi là "nhúng".


Ví dụ: việc lựa chọn nhúng hình ảnh cho tìm kiếm vectơ phụ thuộc vào nhiều yếu tố khác nhau như trường hợp sử dụng cụ thể, tài nguyên có sẵn và đặc điểm của bộ dữ liệu hình ảnh.


Trong các ứng dụng tìm kiếm hình ảnh sản phẩm hoặc thương mại điện tử, có thể hữu ích khi sử dụng các nhúng được đào tạo cụ thể về hình ảnh sản phẩm; mặt khác, cái gọi là truy xuất thể hiện liên quan đến việc tìm kiếm các thể hiện của các đối tượng trong một cảnh hoặc hình ảnh lớn hơn.


Lưu trữ dữ liệu dưới dạng biểu diễn véc-tơ cho phép bạn thực hiện nhiều thao tác và tính toán khác nhau trên dữ liệu, quan trọng nhất là tìm kiếm. Việc chọn các thuộc tính véc-tơ rất quan trọng đối với các loại câu hỏi mà bạn muốn có thể hỏi sau này.


Ví dụ: nếu bạn chỉ lưu trữ thông tin về màu sắc trong hình ảnh thực vật, thì bạn không thể hỏi về các yêu cầu chăm sóc. Bạn sẽ chỉ có thể tìm thấy những cây tương tự về mặt hình ảnh.

Tìm kiếm véc tơ

Bằng cách biểu diễn dữ liệu dưới dạng vectơ, bạn có thể tận dụng các kỹ thuật toán học để tìm kiếm và so sánh hiệu quả các tập dữ liệu rất lớn mà không cần khớp chính xác.


Hàng triệu hồ sơ khách hàng, hình ảnh hoặc bài báo được biểu thị dưới dạng vectơ – một danh sách các số nắm bắt các đặc điểm chính của từng mặt hàng – có thể được lọc rất nhanh bằng tìm kiếm tương tự vectơ (hoặc “tìm kiếm hàng xóm gần nhất”).


Không giống như tìm kiếm dựa trên từ khóa truyền thống, so khớp các tài liệu dựa trên sự xuất hiện của các thuật ngữ cụ thể, tìm kiếm theo vectơ tập trung vào sự giống nhau của các truy vấn; chẳng hạn, ý nghĩa ngữ nghĩa của chúng có giống nhau không?


Khả năng này cho phép tìm các mục tương tự dựa trên biểu diễn véc-tơ của chúng. Các thuật toán tìm kiếm tương tự có thể đo “khoảng cách” hoặc độ tương tự giữa các vectơ để xác định mức độ liên quan chặt chẽ của chúng.


Trong các hệ thống đề xuất, tìm kiếm vectơ có thể được sử dụng để tìm các mục hoặc người dùng giống và khác nhau nhất dựa trên sở thích của họ. Trong xử lý hình ảnh, nó cho phép các tác vụ như nhận dạng đối tượng và truy xuất hình ảnh.


Chẳng hạn, Google, công cụ tìm kiếm lớn nhất thế giới, dựa vào tìm kiếm véc-tơ để cung cấp năng lượng cho phần phụ trợ của Tìm kiếm Hình ảnh của Google, YouTube và các dịch vụ truy xuất thông tin khác. (Tìm hiểu thêm về tìm kiếm véc tơ đây .)

Vectơ và cơ sở dữ liệu

Có các công nghệ tìm kiếm vectơ độc lập, bao gồm cả các công cụ như Elaticsearch. Nhưng các vectơ cần được lưu trữ và truy xuất từ cơ sở dữ liệu nhanh và có thể mở rộng để mang lại khả năng đáp ứng và quy mô theo yêu cầu của các ứng dụng AI.


Ngày nay, có một số cơ sở dữ liệu cung cấp tính năng tìm kiếm vectơ.


Ưu điểm chính của cơ sở dữ liệu cho phép tìm kiếm vectơ là tốc độ. Cơ sở dữ liệu truyền thống phải so sánh một truy vấn với mọi mục trong cơ sở dữ liệu.


Ngược lại, tìm kiếm vectơ tích hợp cho phép một hình thức lập chỉ mục và bao gồm các thuật toán tìm kiếm giúp tăng tốc đáng kể quá trình, giúp có thể tìm kiếm lượng dữ liệu khổng lồ trong một khoảng thời gian ngắn so với cơ sở dữ liệu tiêu chuẩn.


Trong bối cảnh kinh doanh, điều này cực kỳ có giá trị khi sử dụng các ứng dụng AI để đề xuất các sản phẩm tương tự như các giao dịch mua trước đây hoặc xác định các giao dịch gian lận giống với các mẫu đã biết hoặc các điểm bất thường trông không giống với tiêu chuẩn.


Một ví dụ về cơ sở dữ liệu cung cấp tìm kiếm véc-tơ là DataStax's Astra DB , được xây dựng trên Apache Cassandra mã nguồn mở, có khả năng mở rộng cao, thông lượng cao. Cassandra đã được chứng minh ở quy mô lớn về khả năng cung cấp năng lượng cho AI bởi những ứng dụng như Netflix, Uber và Apple cho các ứng dụng AI.


Việc bổ sung tính năng tìm kiếm véc-tơ giúp Astra DB trở thành một cửa duy nhất cho các hoạt động cơ sở dữ liệu quy mô lớn.


Việc tích hợp tìm kiếm véc-tơ với kho lưu trữ dữ liệu có thể mở rộng như Astra DB cho phép tính toán và xếp hạng trực tiếp trong cơ sở dữ liệu, loại bỏ nhu cầu chuyển một lượng lớn dữ liệu sang hệ thống bên ngoài.


Điều này làm giảm độ trễ và cải thiện hiệu suất truy vấn tổng thể. Tìm kiếm vectơ có thể được kết hợp với các chỉ mục khác trong Astra DB để có các truy vấn mạnh mẽ hơn nữa. (Tìm hiểu thêm về cơ sở dữ liệu vector đây .)

Tầm quan trọng ngày càng tăng của tìm kiếm Vector

Các vectơ và cơ sở dữ liệu lưu trữ chúng đóng một vai trò lớn trong việc cho phép tìm kiếm hiệu quả, tính toán độ tương tự và khám phá dữ liệu trong lĩnh vực AI.


Khi các tổ chức mở rộng quy mô các nỗ lực AI tổng quát của họ và tìm cách tùy chỉnh trải nghiệm của người dùng cuối với dữ liệu của họ, các biểu diễn véc-tơ và khả năng làm việc với các cơ sở dữ liệu nhanh, có thể mở rộng được kích hoạt tính năng tìm kiếm véc-tơ sẽ ngày càng trở nên quan trọng.


Bởi Tiến sĩ Charna Parkey, DataStax