4,460 讀數

CassIO：受 OpenAI 启发的最佳生成 AI 库

经过 DataStax5m2023/06/07

太長; 讀書

了解与 ChatGPT 的讨论如何转变为 CassIO，这是一个对 Apache Cassandra 用户来说非常棒的库。

featured image - CassIO：受 OpenAI 启发的最佳生成 AI 库

如果您是 ChatGPT 的常客，您就会知道它有一种迷失方向的倾向，即所谓的幻觉。大量统计上正确的单词，但没有现实依据。几个月前，有关将 Apache Cassandra 用于大型语言模型 (LLM) 和 LangChain 的提示引起了好奇的回应。 ChatGPT 报告说，在创建 LLM 时，Cassandra 不仅是一个很好的工具选择，OpenAI 还使用 Cassandra 和一个他们称为 CassIO 的 MIT 许可的 Python 库。

我们进入了兔子洞，通过更多的提示，ChatGPT 描述了有关如何使用 CassIO 的许多细节。它甚至包括一些示例代码和一个网站。随后的研究发现，除了 ChatGPT 响应之外，没有发现 CassIO 的证据，但种子已经播下。如果这个库不存在，它就需要存在，我们很快就开始研究它。

有史以来最好的幻觉。

请真正的 CassIO 站出来好吗？

ChatGPT（以及与之相关的 OpenAI）启发的这个好主意是什么？出色的 Python 库使开发人员能够事半功倍。 DataStax和Anant联手开发卡西欧使 Cassandra 与生成式人工智能和其他机器学习工作负载无缝集成。它的主要目的是抽象访问 Cassandra 数据库的过程，包括它的矢量搜索能力，提供一组随时可用的工具，最大限度地减少对额外代码的需求。因此，开发人员可以专注于设计和实施他们的 AI 系统，因为他们知道 CassIO 已经处理了底层数据库的复杂性。结果是访问经过验证的数据库，以实现经济实惠的规模和低延迟。 CassIO 的本质就是促进和简化实施过程。

CassIO 的优势在于它对特定 AI 框架的不可知论。它不关心接口的具体实现细节，比如浪链,骆驼指数,微软语义内核，或各种其他生成式 AI 工具包。相反，它提供了一组“瘦适配器”，这些适配器在使用 CassIO 的功能时符合框架的接口。这使 CassIO 能够弥合您的 AI 应用程序和数据库之间的差距，从而使应用程序能够利用 Cassandra 的强大功能，而不会纠缠于其细节。

与朗链整合

浪链自动执行大部分管理任务以及与 LLM 的交互。它支持内存、基于向量的相似性搜索、高级提示模板抽象以及大量其他功能。 CassIO 与 LangChain 无缝集成，扩展了 Cassandra 特定的工具以简化任务，例如：

LLM的记忆模块，使用Cassandra进行存储，可以记住聊天交互中最近的交流，甚至可以保留过去整个对话的摘要。
在 Cassandra 上缓存 LLM 响应的功能，从而在可能的情况下节省延迟和令牌。自动将来自 Cassandra 的数据注入提示或更长的 LLM 对话中。
支持“partialing”提示，留下一些未指定的输入以备将来使用。
自动注入数据盛宴特征存储（潜在由卡桑德拉支持) 变成提示符。

这些组件协同工作以简化将数据合并到提示中的过程，并确保 LLM 与数据库之间的交互顺畅。

与矢量搜索集成

列入矢量搜索Cassandra 和 DataStax 中的功能 Astra DB 最近将一项关键功能集成到一个已经流行的事务数据数据库中。 Cassandra 在大规模方面的声誉意味着您可以在一个地方存储和处理数据，而无需在昂贵的操作中四处移动数据。矢量搜索的加入为 CassIO 中提供的一套“语义感知”工具打开了大门，例如：

不依赖于查询的确切措辞的 LLM 响应缓存。
一种“语义索引”，可以存储知识库并检索相关部分以构建给定问题的最佳答案。该工具可以进行调整以满足许多特定需求，并且可以配置为检索不同的信息，以最大限度地利用实际信息流入答案。
LLM 聊天交互的“语义记忆”元素，它可以检索相关的过去交流，即使它们发生在遥远的过去。

随着时间的推移，CassIO 和 LangChain 的结合不断扩展和完善这些功能，以满足 LLM 管理不断变化的需求。当前最先进的技术是链接提示，以获得 LLM 更准确的响应。在最近的一篇论文中描述了一种称为思想之树，矢量搜索的作用在从一个提示到下一个提示的持久性中起着至关重要的作用。随着这些想法从学术界走向生产，Cassandra 将成为实施的重要组成部分。

下一个提示：CassIO 的未来

作为一个不断发展的工具，CassIO 正在迅速发展，并经常添加新的开发和更新。在撰写本文时，CassIO 支持 LangChain，LlamaIndex 即将推出。该项目的长期目标是支持自主 AI 代理的大规模内存，例如贾维斯项目。具有 LLM 的代理是一项令人兴奋的发展，它将对许多具有复杂任务处理的行业产生不可思议的影响。这些代理需要跟踪数据和交互的许多方面，而 Cassandra 是完成这项工作的合适数据库。可靠且高性能。

即将到来的新兵训练营，“ NoCode、数据和人工智能：LLM Bootcamp with Cassandra ”，将为开发人员提供亲身体验该库以构建聊天机器人的机会。在您附近的城市寻找更多这样的活动！我们鼓励用户探索卡西欧到文件问题, 参加论坛并帮助我们改善这种迅速实现的幻觉。

谁知道历史会如何评判这一刻呢？是 OpenAI 的内部信息泄露吗？或者，更阴暗地思考一下，这是人工智能让人类听命的第一步吗？无论哪种方式，开发人员现在都有一个简单易用的库，可以在进入生成 AI 世界时利用 Cassandra 近乎无限的规模。

ChatGPT 给了我们一份礼物，那么您打算用它来构建什么？我将在即将举行的网络研讨会（注册这里!)，如果您只想立即开始工作， DataStax阿斯特拉有一些很棒的教程。

作者：Patrick McFadin，DataStax

Patrick McFadin 是 O'Reilly 图书“在 Kubernetes 上管理云原生数据”的合著者。他目前在 DataStax 从事开发人员关系工作，并且是 Apache Cassandra 项目的贡献者。 Patrick 曾担任 Apache Cassandra 的首席布道师（他也是新成立的 Cassandra 提交者！），并担任 DataStax 的顾问，在那里他在生产中构建了一些最大的部署。