Como fundador de una startup de IA, es probable que sepa cuán impactantes han sido los modelos de lenguaje grande como ChatGPT en el avance de la IA conversacional.
Sin embargo, con los costos de las licencias comerciales, los problemas de censura, el rendimiento degradado, las preocupaciones sobre la privacidad y las cajas negras, estos modelos patentados siguen estando fuera del alcance de muchas empresas emergentes.
Aquí es donde entra en juego un proyecto de código abierto llamado Vicuna. Desarrollado por un equipo de investigadores de instituciones como Stanford, Vicuna es un modelo conversacional de código abierto que logra más del 90 % de la calidad de ChatGPT. Esto lo convierte en una alternativa interesante a los modelos cerrados como GPT-4.
¡ Suscríbete o sígueme en Twitter para más contenido como este!
En este artículo, exploraremos qué es Vicuna, cómo funciona, sus capacidades y cómo puede aprovecharla como fundador de IA. Veremos cómo se compara con competidores como ChatGPT y el modelo base LLaMA.
También compartiré algunos consejos y guías útiles que puede seguir para obtener más información sobre aspectos específicos del modelo.
Nos concentraremos en Vicuna-13b para este artículo, pero hay muchos modelos de Vicuna de diferentes tamaños para que los pruebe. ¡Vamos a empezar!
Nota: Vicuña no es el único modelo que ha perfeccionado LLaMA para el chat. Consulte nuestras guías sobre el uso de LLaMA v2 , Alpaca y LLaMA-v2-chat para aplicaciones conversacionales.
En el mundo de la IA conversacional, recientemente hemos visto un progreso asombroso con modelos como ChatGPT que demuestran habilidades notables de lenguaje natural. Sin embargo, como modelo propietario con todos los problemas descritos anteriormente, ChatGPT sigue siendo una mala opción para muchos desarrolladores.
Por lo tanto, existe la necesidad de modelos más accesibles y abiertos que puedan potenciar la innovación en las aplicaciones conversacionales.
Aquí es donde entra en juego Vicuna. Desarrollado por investigadores de instituciones líderes como Stanford, Berkeley y MBZUAI, Vicuna representa una IA conversacional abierta de vanguardia.
Fue creado ajustando el modelo LLaMA en datos de diálogo seleccionados, lo que demuestra el poder de transferir el aprendizaje desde un modelo básico de código abierto.
A pesar de ser más pequeño que ChatGPT, Vicuna iguala su calidad conversacional y supera significativamente a otros modelos abiertos.
Pero no se trata solo de la tecnología con Vicuña. Lo que lo hace verdaderamente impactante es su disponibilidad bajo una licencia de investigación no comercial. Esto abre el acceso a la IA conversacional de última generación que anteriormente estaba restringida solo a las grandes empresas tecnológicas.
Finalmente tenemos un modelo abierto que puede impulsar la próxima generación de chatbots, asistentes virtuales, motores de búsqueda conversacionales y otras aplicaciones innovadoras.
La promesa de Vicuña ya se ha demostrado a través de proyectos geniales que la aprovechan. Por ejemplo, MiniGPT4 usó Vicuna para construir un asistente virtual inteligente, LLaVA creó un motor de búsqueda conversacional con él y ToolLLaMA aprovecha las habilidades de Vicuna para la creación de contenido en lenguaje natural.
Y, por supuesto, ¡puedes agregar tu propio proyecto a esta lista algún día!
Para los desarrolladores de IA y las nuevas empresas, Vicuna representa una nueva y emocionante oportunidad. Su alta capacidad, disponibilidad gratuita y licencia de investigación permisiva permiten la creación rápida de prototipos de aplicaciones conversacionales.
En lugar de estar limitados por el acceso a modelos patentados, las nuevas empresas ahora pueden validar y crear productos con IA conversacional de vanguardia. El campo de juego acaba de nivelarse.
Entonces, en resumen, Vicuña promete democratizar el acceso a la inteligencia conversacional de primer nivel. Su aparición representa un hito importante en la creación de modelos abiertos de IA que potencien la innovación.
Para cualquier startup que busque aprovechar la IA conversacional, ¡Vicuna es definitivamente un proyecto al que vale la pena prestarle atención!
La historia de Vicuña comienza con LLaMA, un modelo de lenguaje de código abierto desarrollado por Meta AI. Si bien era capaz, LLaMA no tenía habilidades conversacionales inherentes, centrándose principalmente en el lenguaje en sí más que en el arte de la conversación.
Investigadores de instituciones como Stanford, Berkeley y MBZUAI se propusieron cambiar esto. Su objetivo era crear un modelo conversacional de código abierto que rivalizara con los chatbots propietarios como ChatGPT.
Por cierto, ¿cuál es la diferencia entre un modelo de IA entrenado para procesar y analizar texto (como LLaMA) y uno especializado en chat (como Vicuña)? Hay algunos factores clave que diferencian a los dos:
Mientras que un modelo de lenguaje general como LLaMA se centra más en el análisis y la generación de texto, sin los requisitos específicos de los agentes de diálogo, el objetivo de la IA conversacional es fundamentalmente más complejo que la evaluación pasiva de texto.
Con ese fin, los investigadores que crearon Vicuna ajustaron LLaMA en más de 70 000 intercambios de diálogo humano-ChatGPT, especializando el modelo para conversación y enseñándole las características naturales del texto en contextos conversacionales.
Este ajuste fino fue crucial para darle a su versión de LLaMA la inteligencia conversacional de la que antes carecía. A través del entrenamiento iterativo en los datos de diálogo, LLaMA se transformó en Vicuna, un transformador codificador-decodificador optimizado para conversaciones de varios turnos.
¿Qué tan bien funcionaron sus esfuerzos?
Para evaluar las capacidades de Vicuña, los investigadores la probaron en 200 indicaciones de conversación diversas. Para una mayor evaluación, hicieron que el modelo GPT-4 juzgara comparativamente las respuestas de Vicuña.
Los resultados demostraron que Vicuña logró más del 90 % de la calidad de ChatGPT en la capacidad de conversación, a pesar de ser de menor tamaño. Superó significativamente al modelo LLaMA original.
Al combinar las optimizaciones de la arquitectura con el ajuste fino especializado de los datos de diálogo humano, los investigadores mejoraron con éxito LLaMA en un modelo conversacional de código abierto a la par de los chatbots propietarios.
Echemos un vistazo a una prueba cara a cara como ejemplo, tomada del sitio oficial del proyecto .
Ejemplo de desafío cara a cara entre Vicuña y modelos de la competencia, en este caso, usando ChatGPT-3.5 como una posible alternativa.
El sitio del proyecto tiene una colección de tareas de ejemplo, en las que tanto Vicuña-13b como los modelos de la competencia deben enfrentarse cara a cara. Luego, el modelo GPT-4 se usa como juez para calificar cada modelo y exponer su razonamiento.
Esto produce algunas comparaciones realmente reveladoras. Un ejemplo se proporciona en la imagen de arriba. Otro es este desafío, que se muestra a continuación:
Respuesta de LLaMA-13b:
"Soy un caballero valiente, leal al rey. Haré todo lo posible para defender su honor y proteger a su país. (¡Lame! Puntuación 7/10 por GPT-4, muy generoso en mi opinión)".
Vicuña-13b:
**"**Como caballero medieval, me presentaba en un banquete real con una profunda reverencia y un discurso respetuoso, reconociendo mi origen humilde y mi lealtad a la corona. Diría algo como:
"Mis señores y señoras, soy un humilde caballero, juré servir y proteger el reino. Vengo de una larga línea de guerreros que han luchado para defender este reino durante generaciones. Me siento honrado de estar aquí hoy, en presencia de tan estimada compañía, y espero ganar su confianza y respeto con mis hechos y acciones. Ofrezco mi espada, mi escudo y mi vida al servicio de mi rey y mi pueblo ".
Entonces tomaría mi asiento en el banquete, listo para escuchar y aprender de los sabios consejos de mis superiores, y para servirles en todo lo que pueda".
¡Guau! Mucho mejor respuesta de Vicuña. Este es el razonamiento de GPT-4 que explica por qué Vicuña es una alternativa superior a LLaMA.
El Asistente 1 [LLaMA] brindó una respuesta breve y relevante, pero careció del detalle y la formalidad que se espera en la presentación de un caballero medieval. El Asistente 2 [Vicuña] , por otro lado, ofreció una respuesta más completa y bien estructurada, incluyendo un discurso respetuoso que mostró la humildad, lealtad y dedicación del caballero al reino. Esta respuesta fue más adecuada para el contexto de un banquete real y demostró una mejor comprensión del papel y la etiqueta del caballero medieval.
Si bien los LLM no son jueces infalibles de otros LLM, tampoco lo son los humanos. Creo que el uso de la IA para juzgar y evaluar la IA es una forma bastante escalable y consistente de decidir qué alternativas son las mejores.
Debe consultar algunas de las respuestas y tareas de otros competidores en el sitio LMSYS.org .
Ahora que hemos visto cómo el modelo se compara con algunas alternativas, veamos cómo podemos construir un chatbot simple con el que podamos interactuar desde nuestra línea de comandos. ¡Los pasos de la guía proporcionada aquí se pueden ampliar aún más para que pueda continuar y crear su propio chatbot para su proyecto de IA!
Instale Node.js : asegúrese de que Node.js esté instalado en su sistema.
Cree un directorio de proyectos : ejecute lo siguiente en su terminal:
mkdir my-chatbot cd my-chatbot npm init -y npm install replicate
Establezca su token de API : Reemplace your_api_token_here
con su token de API real:
export REPLICATE_API_TOKEN=your_api_token_here
Cree un archivo llamado chatbot.js
y agregue el siguiente código:
const Replicate = require("replicate"); const replicate = new Replicate({ auth: process.env.REPLICATE_API_TOKEN, }); async function generateResponse(prompt) { const output = await replicate.run( "replicate/vicuna-13b:version_hash_here", { input: { prompt: prompt }, } ); return output.items[0]; } const readline = require('readline'); const rl = readline.createInterface({ input: process.stdin, output: process.stdout }); function askQuestion() { rl.question('You: ', async (userInput) => { const botResponse = await generateResponse(userInput); console.log(`Bot: ${botResponse}`); askQuestion(); }); } askQuestion();
Reemplace version_hash_here
con el hash de la versión correcta para el modelo Vicuña 13b.
Ejecute el chatbot ejecutando:
node chatbot.js
¡Ahora puede enviar un mensaje a su chatbot a través de la línea de comando!
La página de detalles del modelo para Vicuña-13b-v1.3 incluye un par de demostraciones que puede usar para jugar con el modelo. Aquí hay uno incrustado para que lo pruebe (también puede usar este enlace para acceder a él si no está disponible en el enlace a continuación).
Esta demostración, creada por zeno-ml, le permite comparar modelos y parámetros adicionales para ver qué tan bien se desempeña Vicuna frente a competidores como LLaMA, GPT2 y MPT mientras también varía la temperatura u otros parámetros.
Si bien las tecnologías conversacionales han avanzado rápidamente, los modelos aún enfrentan desafíos importantes.
Si bien se ha logrado un gran progreso, estas limitaciones resaltan áreas clave para mejorar.
Avanzar en la base del conocimiento, el razonamiento, la evaluación, los datos de capacitación, la personalización y la eficiencia de implementación podría permitir el siguiente nivel de inteligencia conversacional con modelos como Vicuna.
El desarrollo de Vicuna demuestra un progreso prometedor en el avance de la IA conversacional de código abierto.
Al afinar la arquitectura del modelo LLaMA y la metodología de capacitación específicamente para aplicaciones de diálogo, los investigadores pudieron crear un agente conversacional de libre acceso competitivo con las principales alternativas propietarias.
Sin embargo, queda trabajo por hacer para abordar las limitaciones en torno al razonamiento, la evaluación, la personalización y otras áreas. Si bien los modelos como Vicuna logran resultados sólidos en muchos puntos de referencia, no replican completamente la conversación humana integral.
La investigación en curso sobre la alineación de estos modelos será importante.
No obstante, Vicuña representa un valioso paso adelante en la democratización del acceso a la inteligencia conversacional de última generación.
Para las nuevas empresas y los desarrolladores que crean chatbots, asistentes y otras aplicaciones, las opciones de código abierto como Vicuna brindan capacidades bienvenidas sin licencias comerciales restrictivas.
Los orígenes y los detalles técnicos detrás de Vicuna ofrecen información útil sobre enfoques de capacitación especializados para la IA conversacional. A medida que continúa la investigación, podemos esperar ver más innovaciones que se basen en estos métodos.
Los autores detrás de Vicuna han hecho una importante contribución al código abierto de un agente de diálogo tan capaz.
Si bien aún se necesita más progreso, Vicuña demuestra los resultados significativos que pueden surgir del desarrollo de modelos conversacionales abiertos. Para la comunidad de IA, representa un paso prometedor, no el destino final.
Con el trabajo continuo en el avance de estas tecnologías, el potencial por delante sigue siendo emocionante.
¡ Suscríbete o sígueme en Twitter para más contenido como este!
Es posible que estos otros artículos le resulten útiles en su búsqueda para crear el chatbot definitivo para su nuevo producto o proyecto.
También publicado aquí