Los archivos en formato de documento portátil (PDF) son omnipresentes en nuestro mundo digital. Los usamos para todo, desde compartir documentos hasta completar formularios en línea. Pero trabajar con archivos PDF no siempre es fácil. Ahí es donde entra en juego la inteligencia artificial.
Veremos qué tan bien el asistente de IA Claude 2 maneja las tareas relacionadas con PDF. Claude 2, creado por Anthropic, está diseñado para ser útil, inofensivo y honesto. Lo pondremos a prueba en algunas acciones comunes de PDF para ver si está a la altura de estos ideales al trabajar con este importante formato de archivo.
Es fundamental poner a prueba los asistentes de IA en escenarios del mundo real. Dado que la IA se está convirtiendo en una parte tan importante de nuestras vidas, es crucial saber en qué se destacan y en qué pueden fallar. Claude parece estar emergiendo como un contendiente sólido, posiblemente a la par de modelos como el GPT-4. Estamos seguros de que los usuarios que comprendan estas tecnologías desempeñarán un papel importante en su adopción exitosa.
Únase a nosotros mientras exploramos si Claude 2 puede facilitar el trabajo con archivos PDF o si sus habilidades aún necesitan mejorar. Los resultados pueden sorprenderle.
Claude 2 se destaca de otros asistentes de inteligencia artificial por su capacidad incorporada para analizar y trabajar con archivos PDF. Los investigadores de Anthropic diseñaron Claude 2 para analizar y comprender la estructura de documentos PDF utilizando técnicas de aprendizaje automático. Esto le da a Claude 2 una ventaja inherente en el procesamiento de archivos PDF en comparación con otros chatbots que tendrían dificultades para entenderlos. Como uno de los primeros modelos de IA con un componente analizador de PDF dedicado, Claude 2 está en una posición única para sobresalir en tareas relacionadas con PDF. En esta publicación de blog, examinaremos cómo su ingeniería especializada se traduce en competencia en el mundo real al trabajar con este formato de documento omnipresente. Nuestras pruebas revelarán si Claude 2 puede cumplir su promesa de brindar asistencia útil, inofensiva y honesta con la manipulación de archivos PDF. Además, tenga en cuenta que 10 MB es el tamaño máximo de archivo.
Por el bien de nuestro tutorial, usaremos un PDF de tutorial de Python y veremos qué podemos obtener de él.
Comencemos haciéndole preguntas que sabemos que están en el documento. Le preguntaremos "¿Qué son los literales de cadena formateados?". La respuesta también está bastante profunda en el PDF, por lo que sería interesante si pudiera responder textos al principio de los documentos pero no al final.
Aquí está el resultado. Las respuestas son bastante concisas en el PDF.
Ahora, intentemos obtener citas directas del archivo. Nuestro mensaje ahora será “¿Qué son las anotaciones de funciones? Dame una cita del documento”.
Aquí está el resultado.
¡Lo cual confirma ser una cotización directa! Incluso pudo mostrar el fragmento de código.
Ahora probaremos con los documentos financieros. Agregaremos el informe trimestral más reciente de Microsoft. Le indicaremos “Según el documento. ¿Cuáles fueron los ingresos totales de Microsoft durante el trimestre? Aquí está la captura de pantalla de nuestros resultados.
Podemos ver que Claude proporcionó la información sobre ingresos que solicitamos y, tras verificar los hechos, podemos validar con confianza su exactitud. Claude incluso señaló la página exacta donde se podía encontrar esta información, y también es correcta.
Luego le preguntamos: "¿Cuál fue el cambio porcentual en los ingresos con respecto al año pasado?". Quería ver si podía hacer algún análisis.
Para mi sorpresa, pudo resolverlo. También proporcionó el número de página de los resultados. Ni siquiera sabía que estos datos estaban en los documentos. Pensé que tomaría los ingresos del tercer trimestre del año pasado y los de este año, luego haría los cálculos para calcular la diferencia porcentual.
Actualmente, Claude impone limitaciones en la cantidad de solicitudes que puedes realizar e incluso puede tener una lista de espera para acceder. Teniendo en cuenta estas limitaciones, vale la pena explorar algunas opciones alternativas.
Perplexity AI es una excelente herramienta de inteligencia artificial para PNL con documentos. Los usuarios pueden cargar archivos PDF en formato de texto sin formato, código o PDF, y Perplexity utilizará el contenido del archivo para formular respuestas. Para archivos cortos, el modelo de lenguaje analizará todo el documento. Perplexity también puede dividir manualmente archivos PDF largos en áreas temáticas y enviarlos a GPT-4 para escritura creativa. Perplexity puede analizar archivos PDF para responder preguntas directamente desde los documentos, proporcionar citas de fuentes para las respuestas que da, comparar y contrastar artículos de investigación, encontrar documentos relacionados o artículos basados en una consulta, analizar datos y generar conocimientos de varias fuentes, visualizar datos y crear gráficos de diversas fuentes y traducir texto de un idioma a otro. Si tiene una cuenta gratuita, solo puede realizar una cierta cantidad de solicitudes. Si desea una carga de archivos ilimitada, deberá suscribirse por $20 al mes.
ChatGPT ha anunciado el análisis de PDF como una nueva característica en su última actualización para los suscriptores de ChatGPT Plus. Esta función permite a los usuarios cargar archivos PDF y otros documentos, que luego ChatGPT puede analizar. El chatbot puede extraer resúmenes y varios puntos de datos o incluso escribir gráficos y tablas basados en esos datos. La funcionalidad se encuentra actualmente en versión beta y disponible para miembros de ChatGPT Plus. La actualización también incluye el cambio automático de herramientas, lo que permite a ChatGPT adivinar lo que quieren los usuarios según el contexto. Las nuevas funciones han estado disponibles para los clientes de ChatGPT Plus desde octubre de 2023.
Por último, pero no menos importante, las soluciones de código abierto ofrecen una alternativa convincente. Hay disponible una gran cantidad de herramientas de código abierto para el análisis de PDF, que aprovechan diversas tecnologías como Langchain o Python, a menudo integradas con bases de datos vectoriales. Vale la pena señalar que las soluciones de bases de datos vectoriales como Pgvector pueden ofrecer una opción significativamente más rentable en comparación con servicios comerciales como Pinecone. Sin embargo, la comunidad de código abierto en plataformas como GitHub ofrece una gran cantidad de modelos accesibles y personalizables para satisfacer sus necesidades de análisis de PDF.
Me emocioné mucho cuando probamos por primera vez el analizador de PDF de Claude. Los primeros resultados parecían fantásticos. Pero ya sabes cómo sucede con los modelos de IA: no son perfectos. Definitivamente hubo algunos errores aquí y allá. Cuando comencé a charlar con Claude sobre archivos PDF, a menudo me confundía. Pero me ha impresionado continuamente lo mucho que ha mejorado. Los errores son muy bajos, si es que hay alguno, en comparación con antes.
Es realmente prometedor ver este tipo de mejora con el tiempo. No estoy diciendo que esté listo todavía para reemplazar la experiencia humana; Obviamente, querrás volver a verificar las cosas. Aún debemos estar atentos a cualquier problema potencial. Pero soy optimista acerca de hacia dónde se dirigen las habilidades PDF de Claude. Esto podría terminar siendo una herramienta increíblemente útil. Por supuesto, hay muchas opciones, pero esta es una excelente de ellas.