paint-brush
CassIO: Thư viện tốt nhất dành cho AI sáng tạo, lấy cảm hứng từ OpenAItừ tác giả@datastax
4,452 lượt đọc
4,452 lượt đọc

CassIO: Thư viện tốt nhất dành cho AI sáng tạo, lấy cảm hứng từ OpenAI

từ tác giả DataStax5m2023/06/07
Read on Terminal Reader

dài quá đọc không nổi

Tìm hiểu cách một cuộc thảo luận với ChatGPT biến thành CassIO, một thư viện tuyệt vời dành cho người dùng Apache Cassandra.
featured image - CassIO: Thư viện tốt nhất dành cho AI sáng tạo, lấy cảm hứng từ OpenAI
DataStax HackerNoon profile picture
0-item
1-item
2-item
3-item

Nếu bạn là người thường xuyên sử dụng ChatGPT, bạn sẽ biết xu hướng mà nó phải đi lang thang vào thứ được gọi là ảo giác. Một bộ sưu tập tuyệt vời các từ chính xác được thống kê không có cơ sở trong thực tế. Một vài tháng trước, lời nhắc về việc sử dụng Apache Cassandra cho các mô hình ngôn ngữ lớn (LLM) và LangChain đã dẫn đến một phản hồi gây tò mò. ChatGPT đã báo cáo rằng Cassandra không chỉ là một lựa chọn công cụ tốt khi tạo LLM, OpenAI còn sử dụng Cassandra với thư viện Python được MIT cấp phép mà họ gọi là CassIO.


Chúng tôi đã đi vào lỗ thỏ và thông qua nhiều lời nhắc hơn, ChatGPT đã mô tả nhiều chi tiết về cách CassIO được sử dụng. Nó thậm chí còn bao gồm một số mã mẫu và một trang web. Nghiên cứu sau đó không tìm thấy bằng chứng nào về CassIO ngoài các phản hồi ChatGPT, nhưng hạt giống đã được gieo. Nếu thư viện này không tồn tại thì nó cần phải có và chúng tôi đã bắt đầu làm việc với nó ngay sau đó.


Ảo giác tốt nhất bao giờ hết.

CassIO thực sự sẽ đứng lên chứ?

Ý tưởng tuyệt vời mà ChatGPT (và theo hiệp hội, OpenAI) đã truyền cảm hứng là gì? Một thư viện Python tuyệt vời cho phép các nhà phát triển làm được nhiều việc hơn với chi phí ít hơn. DataStaxAnant kết hợp lực lượng trong việc phát triển Cassio để làm cho việc tích hợp Cassandra với trí tuệ nhân tạo tổng quát và các khối lượng công việc máy học khác trở nên liền mạch. Mục đích chính của nó là trừu tượng hóa quá trình truy cập cơ sở dữ liệu Cassandra, bao gồm cả tìm kiếm véc tơ khả năng, cung cấp một bộ công cụ sẵn sàng sử dụng giúp giảm thiểu nhu cầu về mã bổ sung. Do đó, các nhà phát triển có thể tập trung vào việc thiết kế và triển khai các hệ thống AI của họ, biết rằng CassIO đã xử lý sự phức tạp của cơ sở dữ liệu cơ bản. Kết quả là quyền truy cập vào cơ sở dữ liệu đã được kiểm chứng với quy mô phải chăng và độ trễ thấp. Bản chất của CassIO là hỗ trợ và đơn giản hóa quá trình thực hiện.


Sức mạnh của CassIO nằm ở tính bất khả tri của nó đối với các khung AI cụ thể. Nó không liên quan đến các chi tiết triển khai cụ thể của các giao diện như LangChain , Llama Index , Hạt nhân ngữ nghĩa của Microsoft hoặc nhiều bộ công cụ AI tổng quát khác. Thay vào đó, nó cung cấp một bộ "bộ điều hợp mỏng" phù hợp với giao diện của khung trong khi sử dụng các khả năng của CassIO. Điều này cho phép CassIO thu hẹp khoảng cách giữa ứng dụng AI của bạn và cơ sở dữ liệu, do đó cho phép ứng dụng tận dụng sức mạnh của Cassandra mà không bị vướng vào các chi tiết của nó.

Tích hợp với LangChain

LangChain tự động hóa phần lớn các nhiệm vụ quản lý và tương tác với LLM. Nó cung cấp hỗ trợ cho bộ nhớ, tìm kiếm tương tự dựa trên véc-tơ, trừu tượng hóa dấu nhắc nâng cao và nhiều tính năng khác. CassIO tích hợp hoàn hảo với LangChain, mở rộng các công cụ dành riêng cho Cassandra để hợp lý hóa các tác vụ như:

  • Mô-đun bộ nhớ dành cho LLM sử dụng Cassandra để lưu trữ, có thể ghi nhớ các trao đổi gần đây trong tương tác trò chuyện hoặc thậm chí giữ bản tóm tắt toàn bộ cuộc trò chuyện trước đây.

  • Một tính năng để lưu trữ các phản hồi LLM trên Cassandra, do đó tiết kiệm độ trễ và mã thông báo nếu có thể. Tự động đưa dữ liệu từ Cassandra vào lời nhắc hoặc trong cuộc hội thoại LLM dài hơn.

  • Hỗ trợ "chia nhỏ" lời nhắc, để lại một số đầu vào không xác định cho nguồn cung cấp trong tương lai.

  • Tự động tiêm dữ liệu từ một Tiệc cửa hàng tính năng (có khả năng được hỗ trợ bởi Cassandra ) vào dấu nhắc.


Các thành phần này hoạt động cùng nhau để hợp lý hóa quy trình kết hợp dữ liệu vào lời nhắc và đảm bảo tương tác suôn sẻ giữa LLM và cơ sở dữ liệu.

Tích hợp với tìm kiếm vector

sự bao gồm của tìm kiếm véc tơ các khả năng trong Cassandra và DataStax Astra DB gần đây đã tích hợp một tính năng chính vào cơ sở dữ liệu đã phổ biến cho dữ liệu giao dịch. Danh tiếng về quy mô lớn của Cassandra có nghĩa là bạn có một nơi duy nhất để lưu trữ và xử lý dữ liệu mà không phải di chuyển dữ liệu trong các hoạt động tốn kém. Việc bổ sung tìm kiếm vectơ đã mở ra cánh cửa cho một bộ công cụ "nhận thức ngữ nghĩa" có sẵn trong CassIO, chẳng hạn như:

  • Bộ đệm chứa các phản hồi LLM không phụ thuộc vào cách diễn đạt chính xác của truy vấn.
  • Một "chỉ mục ngữ nghĩa" có thể lưu trữ cơ sở tri thức và truy xuất các phần có liên quan để xây dựng câu trả lời tốt nhất cho một câu hỏi nhất định. Công cụ này có thể được điều chỉnh để phù hợp với nhiều nhu cầu cụ thể và có thể được định cấu hình để truy xuất thông tin đa dạng nhằm tối đa hóa thông tin thực tế đưa vào câu trả lời.
  • Yếu tố "bộ nhớ ngữ nghĩa" cho các tương tác trò chuyện LLM, có thể truy xuất các trao đổi trong quá khứ có liên quan ngay cả khi chúng đã xảy ra trong quá khứ xa xôi.


Sự kết hợp giữa CassIO và LangChain tiếp tục mở rộng và tinh chỉnh các khả năng này theo thời gian để đáp ứng nhu cầu không ngừng phát triển của quản lý LLM. Công nghệ tiên tiến nhất hiện nay là xâu chuỗi các lời nhắc để nhận được phản hồi chính xác hơn từ các LLM. Trong một bài báo gần đây mô tả một kỹ thuật gọi là cây tư tưởng , vai trò của tìm kiếm vectơ đóng một vai trò quan trọng trong sự bền bỉ từ lời nhắc này sang lời nhắc tiếp theo. Khi những ý tưởng này chuyển từ giới hàn lâm sang sản xuất, Cassandra sẽ đóng vai trò quan trọng trong việc triển khai.

Lời nhắc tiếp theo: Điều gì ở phía trước cho CassIO

Là một công cụ đang phát triển, CassIO đang phát triển nhanh chóng với các phát triển và cập nhật mới thường xuyên được bổ sung. Tại thời điểm viết bài, CassIO hỗ trợ LangChain, với LlamaIndex sắp ra mắt. Mục tiêu dài hạn của dự án này là hỗ trợ bộ nhớ quy mô lớn cho các tác nhân AI tự trị như JARVIS dự án. Đại lý có LLM là một sự phát triển thú vị sẽ có tác động đáng kinh ngạc đến nhiều ngành có khả năng xử lý nhiệm vụ phức tạp. Các tác nhân này sẽ cần theo dõi nhiều khía cạnh của dữ liệu và tương tác, và Cassandra là cơ sở dữ liệu phù hợp cho công việc. Đáng tin cậy và hiệu quả.


Một trại huấn luyện sắp tới, “ NoCode, Data & AI: Bootcamp LLM với Cassandra ,” sẽ mang đến cho các nhà phát triển cơ hội làm việc thực tế với thư viện để xây dựng bot trò chuyện. Tìm kiếm nhiều hoạt động như thế này đến một thành phố gần bạn! Chúng tôi khuyến khích người dùng khám phá Cassio ĐẾN vấn đề tập tin , tham gia diễn đàn và giúp chúng tôi cải thiện ảo giác vật chất hóa nhanh chóng này.


Biết đâu giờ phút này lịch sử sẽ phán xét? Đó có phải là sự rò rỉ thông tin nội bộ từ OpenAI không? Hoặc, suy nghĩ đen tối hơn một chút, đây có phải là bước đầu tiên của AI để khiến con người thực hiện mệnh lệnh của mình không? Dù bằng cách nào, các nhà phát triển hiện có một thư viện dễ sử dụng để khai thác quy mô gần như vô hạn của Cassandra khi bước vào thế giới AI tổng quát.


ChatGPT đã tặng chúng tôi một món quà, vậy bạn sẽ xây dựng cái gì với món quà này? Tôi sẽ đi sâu vào tìm kiếm vectơ trong một hội thảo trực tuyến sắp tới (đăng ký đây !), và nếu bạn chỉ muốn tham gia và bắt đầu làm việc ngay hôm nay, Dữ liệuStax Astra có một số hướng dẫn tuyệt vời.



Bởi Patrick McFadin, DataStax

Patrick McFadin là đồng tác giả của cuốn sách O'Reilly 'Quản lý dữ liệu gốc trên đám mây trên Kubernetes'. Anh ấy hiện đang làm việc tại DataStax trong lĩnh vực quan hệ với nhà phát triển và là người đóng góp cho dự án Apache Cassandra. Patrick đã từng làm việc với tư cách là người truyền bá chính cho Apache Cassandra (anh ấy cũng là một người mới thành lập Cassandra!) và là cố vấn cho DataStax, nơi anh ấy đã có thời gian tuyệt vời để xây dựng một số triển khai lớn nhất trong sản xuất.