Si eres un usuario frecuente de ChatGPT, conoces la tendencia que tiene a perderse en lo que se conoce como alucinaciones. Una gran colección de palabras estadísticamente correctas que no tienen ninguna base en la realidad. Hace unos meses, un aviso sobre el uso de Apache Cassandra para modelos de lenguaje grandes (LLM) y LangChain resultó en una respuesta curiosa. ChatGPT informó que Cassandra no solo era una buena opción de herramienta al crear LLM, sino que OpenAI usó Cassandra con una biblioteca de Python con licencia de MIT que llamaron CassIO.
Entramos en la madriguera del conejo y, a través de más indicaciones, ChatGPT describió muchos detalles sobre cómo se usaba CassIO. Incluso incluía un código de muestra y un sitio web. La investigación posterior no encontró evidencia de CassIO fuera de las respuestas de ChatGPT, pero se sembró la semilla. Si esta biblioteca no existía, tenía que existir y comenzamos a trabajar en ella poco después.
La mejor alucinación de la historia.
¿Cuál fue esta gran idea que inspiró ChatGPT (y, por asociación, OpenAI)? Una gran biblioteca de Python permite a los desarrolladores hacer más con menos. DataStax y Anant combinaron fuerzas para desarrollar
La fuerza de CassIO radica en su agnosticismo hacia marcos de trabajo de IA específicos. No se preocupa por los detalles de implementación específicos de interfaces como
Un módulo de memoria para LLM que usa Cassandra para el almacenamiento, que puede recordar intercambios recientes en una interacción de chat, o incluso mantener un resumen de toda la conversación pasada.
Una función para almacenar en caché las respuestas de LLM en Cassandra, ahorrando así latencia y tokens cuando sea posible. Inyección automática de datos de Cassandra en un aviso o dentro de una conversación de LLM más larga.
Compatibilidad con la "parcialización" de las indicaciones, dejando algunas entradas sin especificar para el suministro futuro.
Inyección automática de datos desde un
Estos componentes trabajan juntos para agilizar el proceso de incorporación de datos en indicaciones y garantizar una interacción fluida entre el LLM y la base de datos.
la inclusión de
La combinación de CassIO y LangChain continúa expandiendo y refinando estas capacidades con el tiempo para satisfacer las necesidades en constante evolución de la gestión de LLM. El estado actual del arte está en el encadenamiento de avisos para obtener respuestas más precisas de los LLM. En un artículo reciente que describe una técnica llamada
Como herramienta en evolución, CassIO está creciendo rápidamente, con nuevos desarrollos y actualizaciones que se agregan con frecuencia. En el momento de escribir este artículo, CassIO es compatible con LangChain, y LlamaIndex estará disponible próximamente. El objetivo a largo plazo de este proyecto es admitir memoria a gran escala para agentes de IA autónomos como el
Un próximo campo de entrenamiento, “
¿Quién sabe cómo juzgará la historia este momento? ¿Fue una fuga de información interna de OpenAI? O, pensando un poco más oscuro, ¿es este el primer paso de la IA para lograr que los humanos cumplan sus órdenes? De cualquier manera, los desarrolladores ahora tienen una biblioteca fácil de usar para aprovechar la escala casi infinita de Cassandra cuando se lanzan al mundo de la IA generativa.
ChatGPT nos ha dado un regalo, entonces, ¿qué vas a construir con esto? Voy a sumergirme en la búsqueda de vectores en un próximo seminario web (regístrese
Por Patrick McFadin, DataStax
Patrick McFadin es coautor del libro de O'Reilly 'Managing Cloud Native Data on Kubernetes'. Actualmente trabaja en DataStax en relaciones con desarrolladores y como colaborador del proyecto Apache Cassandra. Patrick ha trabajado como evangelista jefe de Apache Cassandra (¡también es un committer recién nombrado de Cassandra!) y como consultor de DataStax, donde se divirtió mucho creando algunas de las implementaciones más grandes en producción.