paint-brush
CassIO: OpenAI에서 영감을 받은 생성적 AI를 위한 최고의 라이브러리~에 의해@datastax
4,452 판독값
4,452 판독값

CassIO: OpenAI에서 영감을 받은 생성적 AI를 위한 최고의 라이브러리

~에 의해 DataStax5m2023/06/07
Read on Terminal Reader
Read this story w/o Javascript

너무 오래; 읽다

ChatGPT와의 토론이 어떻게 Apache Cassandra 사용자를 위한 놀라운 라이브러리인 CassIO로 전환되었는지 알아보세요.
featured image - CassIO: OpenAI에서 영감을 받은 생성적 AI를 위한 최고의 라이브러리
DataStax HackerNoon profile picture
0-item
1-item
2-item
3-item

ChatGPT를 자주 사용하는 분이라면 환각이라는 현상에 빠지는 경향이 있다는 것을 아실 것입니다. 현실에 근거가 없는 통계적으로 정확한 단어들의 방대한 모음입니다. 몇 달 전, LLM(대형 언어 모델) 및 LangChain에 Apache Cassandra를 사용하라는 메시지가 표시되자 흥미로운 반응이 나왔습니다. ChatGPT는 LLM을 생성할 때 Cassandra가 좋은 도구 선택일 뿐만 아니라 OpenAI가 CassIO라고 하는 MIT 라이선스 Python 라이브러리와 함께 Cassandra를 사용했다고 보고했습니다.


우리는 토끼 굴로 들어가 더 많은 메시지를 통해 ChatGPT가 CassIO 사용 방법에 대한 많은 세부 정보를 설명했습니다. 여기에는 일부 샘플 코드와 웹사이트도 포함되어 있습니다. 후속 연구에서는 ChatGPT 응답 외부에서 CassIO에 대한 증거를 발견하지 못했지만 씨앗이 뿌려졌습니다. 이 라이브러리가 없었다면 그래야 했고 우리는 곧 이에 대한 작업을 시작했습니다.


최고의 환각.

진짜 CassIO가 일어나주실 수 있을까요?

ChatGPT(및 OpenAI 협회)가 영감을 준 이 훌륭한 아이디어는 무엇이었나요? 훌륭한 Python 라이브러리를 사용하면 개발자는 더 적은 자원으로 더 많은 작업을 수행할 수 있습니다. DataStaxAnant가 힘을 합쳐 개발 중 카시오 Cassandra를 생성 인공 지능 및 기타 기계 학습 워크로드와 원활하게 통합할 수 있습니다. 주요 목적은 다음을 포함하여 Cassandra 데이터베이스에 액세스하는 프로세스를 추상화하는 것입니다. 벡터 검색 추가 코드의 필요성을 최소화하는 즉시 사용 가능한 도구 세트를 제공합니다. 결과적으로 개발자는 CassIO가 기본 데이터베이스 복잡성을 처리했다는 사실을 알고 AI 시스템을 설계하고 구현하는 데 집중할 수 있습니다. 그 결과 합리적인 규모와 낮은 대기 시간을 제공하는 입증된 데이터베이스에 액세스할 수 있습니다. CassIO의 핵심은 구현 프로세스를 촉진하고 단순화하는 것입니다.



CassIO의 강점은 특정 AI 프레임워크에 대한 불가지론에 있습니다. 다음과 같은 인터페이스의 특정 구현 세부 사항에는 관심이 없습니다. 랭체인 , 라마인덱스 , Microsoft 시맨틱 커널 , 또는 기타 다양한 생성 AI 툴킷. 대신 CassIO의 기능을 사용하면서 프레임워크의 인터페이스를 준수하는 "씬 어댑터" 세트를 제공합니다. 이를 통해 CassIO는 AI 애플리케이션과 데이터베이스 사이의 격차를 해소할 수 있으므로 애플리케이션이 세부 사항에 얽매이지 않고 Cassandra의 기능을 활용할 수 있습니다.

LangChain과의 통합

랭체인 대부분의 관리 작업과 LLM과의 상호 작용을 자동화합니다. 이는 메모리, 벡터 기반 유사성 검색, 고급 프롬프트 템플릿 추상화 및 기타 다양한 기능을 지원합니다. CassIO는 LangChain과 원활하게 통합되어 Cassandra 전용 도구를 확장하여 다음과 같은 작업을 간소화합니다.

  • Cassandra를 저장용으로 사용하는 LLM용 메모리 모듈로, 채팅 상호 작용에서 최근 교환 내용을 기억하거나 전체 과거 대화 요약을 유지할 수도 있습니다.

  • Cassandra에서 LLM 응답을 캐시하여 가능한 경우 대기 시간과 토큰을 절약하는 기능입니다. Cassandra의 데이터를 프롬프트 또는 더 긴 LLM 대화 내에 자동으로 삽입합니다.

  • 프롬프트의 "부분화"를 지원하여 향후 제공을 위해 일부 입력을 지정하지 않은 상태로 둡니다.

  • 다음에서 데이터 자동 주입 잔치 특성 저장소(잠재적으로 카산드라의 지원을 받는 ) 프롬프트로 전환합니다.


이러한 구성 요소는 함께 작동하여 데이터를 프롬프트에 통합하는 프로세스를 간소화하고 LLM과 데이터베이스 간의 원활한 상호 작용을 보장합니다.

벡터 검색과의 통합

포함 벡터 검색 Cassandra 및 DataStax Astra DB의 기능은 최근( 여기에서 뉴스 읽기) 이미 널리 사용되는 트랜잭션 데이터용 데이터베이스에 핵심 기능을 통합했습니다. 높은 확장성에 대한 Cassandra의 명성은 비용이 많이 드는 작업으로 데이터를 이동하지 않고도 데이터를 저장하고 처리할 수 있는 단일 장소가 있다는 것을 의미합니다. 벡터 검색을 추가하면 다음과 같이 CassIO에서 사용할 수 있는 "의미 인식" 도구 모음을 사용할 수 있게 되었습니다.

  • 쿼리의 정확한 문구에 의존하지 않는 LLM 응답 캐시입니다.
  • 지식 기반을 저장하고 관련 부분을 검색하여 주어진 질문에 대한 최선의 답변을 구성할 수 있는 "의미론적 색인"입니다. 이 도구는 다양한 특정 요구 사항에 맞게 조정할 수 있으며 다양한 정보를 검색하여 답변에 전달되는 실제 정보를 최대화하도록 구성할 수 있습니다.
  • 먼 과거에 발생한 관련 과거 교환을 검색할 수 있는 LLM 채팅 상호 작용을 위한 "의미적 메모리" 요소입니다.


CassIO와 LangChain의 결합은 LLM 관리의 끊임없이 진화하는 요구 사항을 충족하기 위해 시간이 지남에 따라 이러한 기능을 지속적으로 확장하고 개선합니다. 현재 최첨단 기술은 LLM으로부터 보다 정확한 응답을 얻기 위해 프롬프트를 연결하는 것입니다. 라는 기술을 설명하는 최근 논문에서 생각의 나무 , 벡터 검색의 역할은 한 프롬프트에서 다음 프롬프트까지의 지속성에 중요한 역할을 합니다. 이러한 아이디어가 학계에서 프로덕션으로 이동함에 따라 Cassandra는 구현의 중요한 부분이 될 것입니다.

다음 메시지: CassIO의 미래는 무엇입니까?

진화하는 도구로서 CassIO는 새로운 개발과 업데이트가 자주 추가되면서 빠르게 성장하고 있습니다. 이 글을 쓰는 시점에서 CassIO는 LangChain을 지원하며 LlamaIndex는 곧 출시될 예정입니다. 이 프로젝트의 장기 목표는 자율 AI 에이전트를 위한 대용량 메모리를 지원하는 것입니다. 자비스 프로젝트. LLM을 갖춘 에이전트는 복잡한 작업 처리를 통해 많은 산업에 놀라운 영향을 미칠 흥미로운 개발입니다. 이러한 에이전트는 데이터와 상호 작용의 여러 측면을 추적해야 하며 Cassandra는 작업에 적합한 데이터베이스입니다. 신뢰성 있고 성능이 뛰어납니다.


다가오는 부트 캠프, “ NoCode, 데이터 및 AI: Cassandra와 함께하는 LLM 부트캠프 ,”는 개발자에게 라이브러리와 직접 협력하여 채팅 봇을 구축할 수 있는 기회를 제공합니다. 가까운 도시에서 이와 같은 더 많은 활동을 찾아보세요! 사용자의 탐색을 권장합니다. 카시오 에게 파일 문제 , 참여하다 포럼 빠르게 현실화되는 환각을 개선할 수 있도록 도와주세요.


역사가 이 순간을 어떻게 판단할지 누가 알겠습니까? OpenAI 내부 정보 유출이었나? 아니면 좀 더 어둡게 생각해보면 이것이 인간이 명령을 따르도록 하는 AI의 첫 번째 단계일까요? 어느 쪽이든 이제 개발자는 생성 AI 세계에 뛰어들 때 거의 무한한 규모의 Cassandra를 활용할 수 있는 사용하기 쉬운 라이브러리를 갖게 되었습니다.


ChatGPT가 우리에게 선물을 줬는데, 이걸로 무엇을 만들 예정인가요? 다가오는 웹세미나(등록)에서 벡터 검색에 대해 자세히 알아볼 예정입니다. 여기 !) 그리고 오늘 당장 들어가서 일을 시작하고 싶다면, 데이터스택스 아스트라 훌륭한 튜토리얼이 있습니다.



작성자: Patrick McFadin, DataStax

Patrick McFadin은 O'Reilly 저서 'Managing Cloud Native Data on Kubernetes'의 공동 저자입니다. 그는 현재 DataStax에서 개발자 관계로 일하고 있으며 Apache Cassandra 프로젝트의 기여자로 일하고 있습니다. Patrick은 Apache Cassandra의 수석 전도사(그는 또한 새로 임명된 Cassandra 커미터이기도 합니다!)와 DataStax의 컨설턴트로 일하면서 프로덕션에서 가장 큰 규모의 배포를 구축하는 데 즐거운 시간을 보냈습니다.