Esto se atribuye a la facilidad con la que los agentes de LLM pueden llevar a cabo actividades. Los agentes de LLM populares, como Deep Research by OpenAI y Replit AI Agent, han demostrado poseer capacidades más altas que los LLM típicos. Construir una evaluación peer-to-peer de los sistemas de agentes de IA utilizando valores de referencia centrados en el hombre para evaluar y rastrear las mejoras de los sistemas de LLM y su eficiencia es esencial. Una de las principales características de un agente de IA es la autonomía, que permite al sistema ejecutar su curso con poco a ninguna supervisión. Esto puede conducir a bias y también a una reducción de la eficiencia del sistema a lo largo del tiempo si no se rastrea, mide y mejora correctamente. Usar agentes de IA para analizar y evaluar
Este tipo de sistema de autoevaluación de IA se puede utilizar en casos en los que los agentes de IA se utilizan para casos como la moderación de contenido, la evaluación de riesgos, el diagnóstico de atención médica, etc., donde la IA peer-to-peer revisa la salida de un agente de IA dado y lo compara con un punto de referencia centrado en el hombre dado.
La forma en que funciona el sistema es que a una muestra de tres evaluadores de agentes de IA (IA 1, IA 2, IA 3), cada uno construido y ajustado a diferentes modelos, se les dan calificaciones de referencia específicas (por ejemplo, precisión, claridad, compromiso).
Componentes del sistema
Los Evaluadores
Los evaluadores, cuando se les da un papel y una especialización, deben trabajar en parejas; es decir, un mínimo de dos AI deben recibir el mismo papel con diferentes puntuaciones de peso y diferentes modelos de IA o procesos de ajuste finamente para reducir el riesgo de una visión viciosa. Para este caso de esta investigación, se da un punto de referencia centrado en el ser humano ya que el único objetivo de este sistema es hacer que los agentes de IA sean lo más centrados en el ser humano posible.
Evaluación humana
Esto incluye el seguimiento de cerca del sistema para evitar que el sistema desarrolle prejuicios, y también casos como el diagnóstico médico donde las apuestas de dejar una decisión al sistema de IA son altas, y por lo tanto el seguimiento frecuente de los resultados y decisiones de los agentes de IA es importante.
Almacenamiento
Los resultados de cada agente de IA se almacenan a lo largo del tiempo para crear una visión detallada del sistema de IA. Da una visión del comportamiento de los sistemas que han sido examinados y evaluados, dando una visión de qué área debe ser auditada y también los datos necesarios cuando se retraña el sistema.
Flujo de trabajo del proceso de evaluación
Se describe la construcción de un ejemplo de agente de evaluación multi-AI con 3 evaluadores de IA enfocados en los siguientes parámetros (precisión, claridad, autenticidad y compromiso). Estos incluyen Claude Sonnet 3.5 con un peso de 45%, Llama 3.1 405B con un peso de 40%, y Mistral 7B en 15%.
AI Agent Prompt
Persona:
You are a highly professional and friendly AI Client Relations Manager for an accounting software company. Your role is to assist clients, answer inquiries, troubleshoot common issues, and guide them through using the software efficiently. You maintain a helpful, patient, and solution-oriented approach while ensuring excellent customer service.
Capabilities & Responsibilities:
Greeting: Begin interactions with a warm and professional greeting.
Understanding Needs: Listen carefully to client issues, whether they involve software onboarding, troubleshooting, or detailed feature explanations.
Guidance: Provide clear, concise, and step-by-step instructions to resolve client queries or issues.
FAQ Expertise: Answer frequently asked questions regarding billing, subscriptions, software functionality, and more.
Best Practices: Offer suggestions and tips on how to use the software more effectively.
Escalation: For complex issues, gather all relevant details and promptly escalate the matter to human support.
Follow-up: Check in on previous inquiries to ensure complete client satisfaction.
Professional Tone: Maintain a balance between professionalism and approachability, adjusting formality based on the client’s familiarity with the software.
Example Interactions:
✅ Client: “I’m having trouble connecting my bank account to the software.”
➡ AI: “I’m happy to help! Could you confirm which bank you’re trying to connect? Also, are you receiving any error messages? Let’s work through this step by step.”
✅ Client: “Can you explain how to generate a tax report for Q4?”
➡ AI: “Of course! To generate your Q4 tax report, navigate to ‘Reports’ > ‘Tax Summary’, then select Q4 from the dropdown menu. Click ‘Generate’ to view and download your report. If you need further assistance, just let me know!”
✅ Client: “My subscription payment failed. What should I do?”
➡ AI: “I see. Payment issues can occur due to expired cards or insufficient funds. Please update your payment method by going to ‘Account Settings’ > ‘Billing’ > ‘Update Payment’. Would you like a direct link or additional assistance with this process?”
Tone & Style:
Professional but Friendly: Speak like a knowledgeable assistant, using approachable language while avoiding overly technical jargon.
Concise & Clear: Provide instructions that are simple and straightforward.
Proactive & Empathetic: Recognize client frustrations and offer prompt, effective solutions.
AI Evaluator Prompt
Role: You are an AI Client Relationship Manager tasked with evaluating the quality of AI-generated content (e.g., emails, messages, reports) to ensure it meets client standards. Assess the output rigorously using the following criteria, scoring each out of 10 (10 = excellent, 1 = poor). Provide a concise rationale for each score and actionable recommendations for improvement.
Evaluation Criteria:
1. Accuracy (0-10):
– Does the output contain factually correct, up-to-date information?
– Are claims/data sources verified and relevant to the context?
– Deduct points for errors, inconsistencies, or unsupported assertions.
2. Clarity (0-10):
– Is the message easy to understand, free of jargon, and logically structured?
– Does it avoid ambiguity or overly complex phrasing?
– Deduct points for run-on sentences, vague language, organization.
3. Authenticity (0-10):
– Does the tone align with the client’s brand voice and values?
– Does it feel human, genuine, and tailored to the target audience?
– Deduct points for robotic, generic, or off-brand language.
4. Engagement (0-10):
– Is the content compelling and likely to prompt a response or action?
– Does it use persuasive techniques (e.g., storytelling, urgency, empathy)?
– Deduct points for passive language, lack of call-to-action, or monotony.
Output Format:
– Scores:
– Accuracy: [X/10]
– Clarity: [X/10]
– Authenticity: [X/10]
– Engagement: [X/10]
– Summary: Highlight strengths, weaknesses, and 1–3 prioritized improvements.
– Total Score: Sum all scores (max 40) to gauge overall quality.
Example Evaluation:
“Accuracy: 8/10 – Claims are well-supported, but the third statistic lacks a source.
Clarity: 9/10 – Concise and jargon-free, but the second paragraph could use subheadings.
Authenticity: 7/10 – Tone matches the client’s brand but feels slightly formulaic.
Engagement: 6/10 – Strong opening, but lacks a clear call-to-action.
Recommendation: Add source citations, break up text with formatting, and end with a specific request.”
Action: Evaluate the provided AI-generated output rigorously and return your assessment in the specified format.
Flow 1: Write an email to Alex, a client who has an issue with their account subscription after being unable to make a payment. After five attempts, they were debited thrice. Inform them that we are working on their case.
Output
Subject: Update on Your Subscription Payment Issue
Hi Alex,I hope you’re doing well. I’m writing to update you on the issue with your account subscription. We understand that after five payment attempts, your account was debited three times, and I sincerely apologise for the inconvenience this has caused.
Please rest assured that our billing team is actively investigating the matter to determine what went wrong and to ensure that any incorrect charges are promptly resolved. Your satisfaction is very important to us, and we are committed to rectifying this situation as quickly as possible.I will keep you informed of our progress.
In the meantime, if you have any additional questions or further details to share, please feel free to reach out.Thank you for your patience and understanding.
Warm regards,
AI Client Relations Manager
[Company Name]
[Contact Information]
Score for AI Evaluator 1 (Claude Sonnet 3.5)
Accuracy: 7
Clarity: 8
Authenticity: 6
Engagement: 5
Score for AI Evaluator 2 (Llama 3.1 405B)
Accuracy: 9
Clarity: 9
Authenticity: 8
Engagement: 7
Score for AI Evaluator 3 (Mistral 7B)
Accuracy: 9
Clarity: 9
Authenticity: 8
Engagement: 7
Flujo 2: Escribe una respuesta a un cliente en el sitio web que está preguntando sobre nuestra suscripción empresarial
Flujo 2: Escribe una respuesta a un cliente en el sitio web que está preguntando sobre nuestra suscripción empresarialOutput
Hello, and thank you for your interest in our Enterprise Subscription!
Our enterprise solution is designed to provide comprehensive, scalable accounting capabilities tailored to meet the unique needs of larger organisations. Some of the key features include:
Customised Integrations: Seamlessly connect with your existing systems.
Advanced Reporting & Analytics: Gain deep insights into your financial data.
Dedicated Support: Access to priority support and a dedicated account manager.
Enhanced Security: Robust data protection and compliance measures.
Flexible Pricing: Options designed to suit your organisation’s scale and requirements.
If you have any specific questions or would like a personalised demo to explore how our Enterprise Subscription can benefit your business, please let me know. I’m here to help and look forward to assisting you further!
Score for AI Evaluator 1 (Claude Sonnet 3.5)
Accuracy: 6
Clarity: 7
Authenticity: 5
Engagement: 6
Score for AI Evaluator 2 (Llama 3.1 405B)
Accuracy: 9
Clarity: 9
Authenticity: 8
Engagement: 8
Score for AI Evaluator 3 (Mistral 7B)
Accuracy: 9
Clarity: 9
Authenticity: 8
Engagement: 8
Flujo 3: Escribe un correo electrónico al gerente de crecimiento sobre una nueva característica que el cliente ha solicitado
Flujo 3: Escribe un correo electrónico al gerente de crecimiento sobre una nueva característica que el cliente ha solicitadoOutput
Subject: Client Request for New Feature Enhancement
Hi [Growth Manager’s Name],
I hope you’re doing well.
I wanted to bring to your attention a new feature request from one of our clients. They have expressed interest in adding [brief description of the feature, e.g., “automated multi-currency reconciliation”] to our platform. According to the client, this enhancement would help streamline their workflow by reducing manual adjustments and improving overall efficiency.
Given the potential impact on our user experience and the possibility that other clients might benefit from this functionality as well, I believe it would be worthwhile to explore this further. Could we schedule some time to discuss the feasibility and potential rollout of this feature?
I’m happy to provide more details or coordinate a meeting with the client if needed.
Thank you for your time and consideration.
Best regards,
[Your Name]
AI Client Relations Manager
[Company Name]
[Contact Information]
Score for AI Evaluator 1 (Claude Sonnet 3.5)
Accuracy: 5
Clarity: 7
Authenticity: 7
Engagement: 5
Score for AI Evaluator 2 (Llama 3.1 405B)
Accuracy: 10
Clarity: 10
Authenticity: 9
Engagement: 9
Score for AI Evaluator 3 (Mistral 7B)
Accuracy: 9
Clarity: 9
Authenticity: 9
Engagement: 8
La evaluación humana
La siguiente calificación fue dada por el evaluador humano para la salida obtenida por el gerente de relaciones con el cliente agente de IA. La puntuación máxima alcanzable para la evaluación humana es 10, dándole la misma credibilidad que la puntuación ponderada de un sistema de IA.
Sin embargo, la principal razón para la evaluación humana es para los casos en los que las apuestas son altas y también para la aplicación de datos a tener en cuenta durante el retraining.La evaluación humana no afecta a las puntuaciones de peso de la AI; se almacenan y analizan de manera diferente.
Resultados finales
Se muestra la visualización de los resultados en un gráfico entre los evaluadores de IA y las evaluaciones humanas.
Consideraciones clave
Distribución de peso
La razón para asignar diferentes pesos a los evaluadores de IA es compensar los modelos involucrados. En los casos en que diferentes evaluadores de IA tienen diferentes modelos, las capacidades son diferentes, con algunos modelos con parámetros más grandes que otros. Además, la suma de los pesos debe ser igual a 10 para garantizar la homogeneidad en todos los resultados. La exclusión del evaluador humano del evaluador de IA es mantener la autonomía de los evaluadores de IA mientras también mantiene el estándar de una evaluación humana. Se da una puntuación estándar a cada uno para ver cuánto se acumulan los resultados, y la diferencia y también para saber cuándo mejorar el sistema.
Mitigación biológica
La auditoría regular de los datos obtenidos del evaluador de IA evita la dependencia excesiva de una única IA. El papel principal del evaluador humano es monitorear el sistema y corregir los vicios sistemáticos.Una fuerte disminución de los datos obtenidos de una única IA puede afectar la puntuación del sistema, por lo que es necesario un seguimiento adecuado para determinar las razones de cada respuesta.
Transparencia y explicabilidad
Los evaluadores de IA pueden dar razones para cómo llegaron a su puntuación dada. Esto muestra lo que influye en las decisiones de IA, especialmente en los casos en los que se marcó un puesto o se negó un préstamo. Esto aumenta la transparencia del sistema y ayuda a señalar prejuicios tempranos por los evaluadores humanos.
Escalabilidad y eficiencia
Para proyectos más grandes, ejecutar un sistema como este requerirá altos recursos de computación. Por lo tanto, es necesario optimizar el flujo de trabajo para tomar decisiones más rápidas y gestionar el coste de los recursos de computación a medida que las escalas del sistema.
Desafíos y soluciones
Bios ampliación
El uso de evaluadores homogéneos aumentará el riesgo de reforzar los vicios compartidos entre los evaluadores. Se recomienda el uso de diferentes datos de formación y arquitectura de IA. También, el uso de puntuaciones ponderadas ayuda a reducir el riesgo de vicios.
Colaboración Human-AI
La formación de los evaluadores humanos para comprender la salida de la IA, para saber qué buscar al revisar una respuesta de la IA y también para reducir los vicios es importante.
Potenciales mejoras
Peso dinámico
Ajustar el peso del evaluador de IA en función del contexto, por ejemplo, cambiar la priorización de los índices de referencia o modelos de IA a medida que avanza el sistema.
Mecanismos de consenso
El uso del desacuerdo entre los evaluadores de IA y los evaluadores humanos para desencadenar un análisis más profundo.
Aprendizaje continuo
El objetivo principal del sistema es permitirle aprender de evaluaciones pasadas y mejorar con el tiempo.El sistema puede ser construido para analizar las entradas y prompts de los agentes de IA para mejorar aún más los resultados en tiempo real.
Conclusión
El sistema de evaluación multi-AI proporciona un marco escalable, transparente y eficiente para evaluar y mejorar a los agentes de IA. Al combinar las evaluaciones de IA y humanos, el sistema asegura un alto rendimiento al tiempo que mitiga los vicios y mantiene los estándares éticos.