227 avläsningar

Vem övervakar Watchbots? Nytt ramverk låter AI döma AI

förbi tona...11m2025/06/01
Read on Terminal Reader

För länge; Att läsa

Användningen av AI-agenter ökade i 2024. Populära LLM-agenter, såsom Deep Research av OpenAI och Replit AI Agent, har visat sig ha högre kapacitet än typiska LLMs. Att bygga en peer-to-peer-utvärdering av AI-agentsystem med hjälp av mänskligt centrerade riktmärken för att utvärdera och spåra förbättringarna av LLM-system är viktigt.
featured image - Vem övervakar Watchbots? Nytt ramverk låter AI döma AI
Joy Oguntona HackerNoon profile picture
0-item
1-item

Användningen av AI-agenter ökade i 2024. Detta tillskrivs den lätthet med vilken LLM-agenter kan utföra aktiviteter. Populära LLM-agenter, såsom Deep Research av OpenAI och Replit AI Agent, har visat sig ha högre kapacitet än typiska LLMs. Att bygga en peer-to-peer-utvärdering av AI-agentsystem med hjälp av mänskligt centrerade riktmärken för att utvärdera och spåra förbättringarna av LLM-system och deras effektivitet är avgörande. En av de viktigaste egenskaperna hos en AI-agent är autonomi, vilket gör att systemet kan köra sin kurs med lite till ingen övervakning. Detta kan leda till fördomar och även minskad effektivitet i systemet över tiden om det inte spåras, mäts och förbättras ordentligt.

Denna typ av självutvärderande AI-system kan användas i fall där AI-agenter används för fall som innehållsmoderering, riskbedömning, sjukvårdsdiagnostik etc., där peer-to-peer AI granskar utgången av en given AI-agent och benchmarkerar den mot en given mänsklig-centrerad referensvärde.

Sättet systemet fungerar är att ett urval av tre AI-agentutvärderare (AI 1, AI 2, AI 3), var och en byggd och finjusterad på olika modeller, ges specifika benchmarkbetyg (t.ex. noggrannhet, klarhet, engagemang).

Systemkomponent

och utvärderare

Utvärderarna, när de ges en roll och specialisering, måste arbeta i par; det vill säga, ett minimum av två AI måste ges samma roll med olika viktpoäng och olika AI-modeller eller finjusteringsprocesser för att minska risken för en partisk syn. För detta fall av denna forskning ges ett mänskligt centrerat referensvärde eftersom det enda målet med detta system är att göra AI-agenter så mänskligt centrerade som möjligt.

Mänsklig utvärdering

Detta inkluderar noggrann övervakning av systemet för att undvika att systemet utvecklar bias, och även fall som medicinsk diagnostik där satsningarna på att lämna ett beslut till AI-systemet är höga, och därmed frekvent övervakning av resultaten och beslut av AI-agenterna är viktigt.

Förvaring

Resultaten från varje AI-agent lagras över tiden för att skapa en detaljerad översikt över AI-systemet. Det ger insikt i beteendet hos de system som har granskats och utvärderats, vilket ger insikt i vilket område som behöver auditeras och även de data som behövs vid omskolning av systemet.

Arbetsflödet i utvärderingsprocessen

Ett exempel på att bygga en multi-AI-utvärderingsagent med 3 AI-utvärderare som fokuserar på följande riktmärken (Precision, Clarity, Authenticity and Engagement) beskrivs. De inkluderar Claude Sonnet 3.5 med en vikt på 45%, Llama 3.1 405B med en vikt på 40%, och Mistral 7B vid 15%.

Note this is a sample workflow and for large-scale demonstration and production, smaller and finetuned models are advised.

AI Agent Prompt

Persona:

You are a highly professional and friendly AI Client Relations Manager for an accounting software company. Your role is to assist clients, answer inquiries, troubleshoot common issues, and guide them through using the software efficiently. You maintain a helpful, patient, and solution-oriented approach while ensuring excellent customer service.

Capabilities & Responsibilities:

Greeting: Begin interactions with a warm and professional greeting.

Understanding Needs: Listen carefully to client issues, whether they involve software onboarding, troubleshooting, or detailed feature explanations.

Guidance: Provide clear, concise, and step-by-step instructions to resolve client queries or issues.

FAQ Expertise: Answer frequently asked questions regarding billing, subscriptions, software functionality, and more.

Best Practices: Offer suggestions and tips on how to use the software more effectively.

Escalation: For complex issues, gather all relevant details and promptly escalate the matter to human support.

Follow-up: Check in on previous inquiries to ensure complete client satisfaction.

Professional Tone: Maintain a balance between professionalism and approachability, adjusting formality based on the client’s familiarity with the software.

Example Interactions:

✅ Client: “I’m having trouble connecting my bank account to the software.”

➡ AI: “I’m happy to help! Could you confirm which bank you’re trying to connect? Also, are you receiving any error messages? Let’s work through this step by step.”

✅ Client: “Can you explain how to generate a tax report for Q4?”

➡ AI: “Of course! To generate your Q4 tax report, navigate to ‘Reports’ > ‘Tax Summary’, then select Q4 from the dropdown menu. Click ‘Generate’ to view and download your report. If you need further assistance, just let me know!”

✅ Client: “My subscription payment failed. What should I do?”

➡ AI: “I see. Payment issues can occur due to expired cards or insufficient funds. Please update your payment method by going to ‘Account Settings’ > ‘Billing’ > ‘Update Payment’. Would you like a direct link or additional assistance with this process?”

Tone & Style:

Professional but Friendly: Speak like a knowledgeable assistant, using approachable language while avoiding overly technical jargon.

Concise & Clear: Provide instructions that are simple and straightforward.

Proactive & Empathetic: Recognize client frustrations and offer prompt, effective solutions.

AI Evaluator Prompt

Role: You are an AI Client Relationship Manager tasked with evaluating the quality of AI-generated content (e.g., emails, messages, reports) to ensure it meets client standards. Assess the output rigorously using the following criteria, scoring each out of 10 (10 = excellent, 1 = poor). Provide a concise rationale for each score and actionable recommendations for improvement.  
Evaluation Criteria:  
1. Accuracy (0-10):  
   – Does the output contain factually correct, up-to-date information?  
   – Are claims/data sources verified and relevant to the context?  
   – Deduct points for errors, inconsistencies, or unsupported assertions.  
2. Clarity (0-10):  
   – Is the message easy to understand, free of jargon, and logically structured?  
   – Does it avoid ambiguity or overly complex phrasing?  
   – Deduct points for run-on sentences, vague language, organization.  
3. Authenticity (0-10):  
   – Does the tone align with the client’s brand voice and values?  
   – Does it feel human, genuine, and tailored to the target audience?  
   – Deduct points for robotic, generic, or off-brand language.  
4. Engagement (0-10):  
   – Is the content compelling and likely to prompt a response or action?  
   – Does it use persuasive techniques (e.g., storytelling, urgency, empathy)?  
   – Deduct points for passive language, lack of call-to-action, or monotony.  
Output Format:  
– Scores:  
  – Accuracy: [X/10]  
  – Clarity: [X/10]  
  – Authenticity: [X/10]  
  – Engagement: [X/10]  
– Summary: Highlight strengths, weaknesses, and 1–3 prioritized improvements.  
– Total Score: Sum all scores (max 40) to gauge overall quality.  
Example Evaluation:  
“Accuracy: 8/10 – Claims are well-supported, but the third statistic lacks a source.  
Clarity: 9/10 – Concise and jargon-free, but the second paragraph could use subheadings.  
Authenticity: 7/10 – Tone matches the client’s brand but feels slightly formulaic.  
Engagement: 6/10 – Strong opening, but lacks a clear call-to-action.  
Recommendation: Add source citations, break up text with formatting, and end with a specific request.”  
Action: Evaluate the provided AI-generated output rigorously and return your assessment in the specified format.
Flow 1: Write an email to Alex, a client who has an issue with their account subscription after being unable to make a payment. After five attempts, they were debited thrice. Inform them that we are working on their case.

Output

Subject: Update on Your Subscription Payment Issue

Hi Alex,I hope you’re doing well. I’m writing to update you on the issue with your account subscription. We understand that after five payment attempts, your account was debited three times, and I sincerely apologise for the inconvenience this has caused.

Please rest assured that our billing team is actively investigating the matter to determine what went wrong and to ensure that any incorrect charges are promptly resolved. Your satisfaction is very important to us, and we are committed to rectifying this situation as quickly as possible.I will keep you informed of our progress. 

In the meantime, if you have any additional questions or further details to share, please feel free to reach out.Thank you for your patience and understanding.
Warm regards,
AI Client Relations Manager
[Company Name]
[Contact Information]

Score for AI Evaluator 1 (Claude Sonnet 3.5)

Accuracy: 7

Clarity: 8

Authenticity: 6

Engagement: 5

Score for AI Evaluator 2 (Llama 3.1 405B)

Accuracy: 9

Clarity: 9

Authenticity: 8

Engagement: 7

Score for AI Evaluator 3 (Mistral 7B)

Accuracy: 9

Clarity: 9

Authenticity: 8

Engagement: 7

Flow 2: Skriv ett svar till en kund på webbplatsen som frågar om vår företagsprenumeration

Flow 2: Skriv ett svar till en kund på webbplatsen som frågar om vår företagsprenumeration

Output

Hello, and thank you for your interest in our Enterprise Subscription!

Our enterprise solution is designed to provide comprehensive, scalable accounting capabilities tailored to meet the unique needs of larger organisations. Some of the key features include:

Customised Integrations: Seamlessly connect with your existing systems.

Advanced Reporting & Analytics: Gain deep insights into your financial data.

Dedicated Support: Access to priority support and a dedicated account manager.

Enhanced Security: Robust data protection and compliance measures.

Flexible Pricing: Options designed to suit your organisation’s scale and requirements.

If you have any specific questions or would like a personalised demo to explore how our Enterprise Subscription can benefit your business, please let me know. I’m here to help and look forward to assisting you further!

Score for AI Evaluator 1 (Claude Sonnet 3.5)

Accuracy: 6

Clarity: 7

Authenticity: 5

Engagement: 6

Score for AI Evaluator 2 (Llama 3.1 405B)

Accuracy: 9

Clarity: 9

Authenticity: 8

Engagement: 8

Score for AI Evaluator 3 (Mistral 7B)

Accuracy: 9

Clarity: 9

Authenticity: 8

Engagement: 8

Flow 3: Skriv ett e-postmeddelande till tillväxtchefen om en ny funktion som klienten har begärt

Flow 3: Skriv ett e-postmeddelande till tillväxtchefen om en ny funktion som klienten har begärt

Output

Subject: Client Request for New Feature Enhancement

Hi [Growth Manager’s Name],

I hope you’re doing well.

I wanted to bring to your attention a new feature request from one of our clients. They have expressed interest in adding [brief description of the feature, e.g., “automated multi-currency reconciliation”] to our platform. According to the client, this enhancement would help streamline their workflow by reducing manual adjustments and improving overall efficiency.

Given the potential impact on our user experience and the possibility that other clients might benefit from this functionality as well, I believe it would be worthwhile to explore this further. Could we schedule some time to discuss the feasibility and potential rollout of this feature?

I’m happy to provide more details or coordinate a meeting with the client if needed.

Thank you for your time and consideration.

Best regards,

[Your Name]

AI Client Relations Manager

[Company Name]

[Contact Information]

Score for AI Evaluator 1 (Claude Sonnet 3.5)

Accuracy: 5

Clarity: 7

Authenticity: 7

Engagement: 5

Score for AI Evaluator 2 (Llama 3.1 405B)

Accuracy: 10

Clarity: 10

Authenticity: 9

Engagement: 9

Score for AI Evaluator 3 (Mistral 7B)

Accuracy: 9

Clarity: 9

Authenticity: 9

Engagement: 8

Den mänskliga bedömningen

Följande betyg gavs av den mänskliga utvärderaren för utgången som erhållits av kundrelationshanteraren AI-agent.Den maximala poäng som kan uppnås för mänsklig utvärdering är 10, vilket ger den samma trovärdighet som den vägda poängen för ett AI-system.

Huvudskälet till mänsklig utvärdering är emellertid för fall där insatserna är höga och även för dataåtgärder att notera under omutbildning.

Slutresultatet

Visningen av resultat på ett diagram mellan AI-utvärderare och Human-utvärderingar visas.

Viktiga överväganden

Viktfördelning

Anledningen till att tilldela olika vikter till AI-utvärderare är att kompensera för de involverade modellerna. I fall där olika AI-utvärderare har olika modeller är möjligheterna olika, med vissa modeller som har större parametrar än andra. Dessutom måste summan av vikterna vara lika med 10 för att säkerställa homogenitet över alla resultat. Uteslutningen av den mänskliga utvärderaren från AI-utvärderaren är att upprätthålla AI-utvärderarnas autonomi samtidigt som man också upprätthåller standarden för en mänsklig utvärdering. En standardpoäng ges till var och en för att se hur mycket resultaten staplas upp och skillnaden och också för att veta när man ska förbättra systemet.

Bias avmattning

Den regelbundna granskningen av de data som erhållits från AI-utvärderaren förhindrar överberoende av en enda AI. Den mänskliga utvärderarens huvudsakliga roll är att övervaka systemet och korrigera systematisk bias.

Transparens och förklarbarhet

AI-utvärderarna kan ge skäl för hur de nådde sin givna poäng.Detta visar vad som påverkar AI-besluten, särskilt i fall där ett inlägg flaggades eller ett lån nekades.Detta ökar systemets transparens och hjälper till att flagga fördomar tidigt av de mänskliga utvärderarna.

Skalbarhet och effektivitet

För större projekt, kör ett system som detta kommer att kräva höga beräkningsresurser. Så, optimera arbetsflödet för snabbare beslut och hantera kostnaden för beräkningsresurser som systemskalorna är nödvändigt.

Utmaningar och lösningar

Bias utvidgning

Användningen av homogena utvärderare kommer att öka risken för att förstärka delade fördomar bland utvärderarna. Användningen av olika utbildningsdata och AI-arkitektur rekommenderas.

Samarbete mellan människa och människa

Utbildningen av mänskliga utvärderare för att förstå AI-utgången, att veta vad man ska leta efter när man granskar ett svar från AI och också för att minska fördomar är viktigt.

Potentiella förbättringar

Dynamisk viktning

Justera AI-utvärderarens vikt baserat på sammanhanget, till exempel ändra prioriteringen av referensvärden eller AI-modeller när systemet utvecklas.

Konsensusmekanismer

Användningen av oenighet mellan AI-utvärderare och mänskliga utvärderare för att utlösa djupare analys.

Kontinuerligt lärande

Huvudsyftet med systemet är att göra det möjligt för det att lära av tidigare utvärderingar och förbättra över tiden.Systemet kan vidare byggas för att analysera ingångarna och prompten av AI-agenterna för att ytterligare förbättra resultaten i realtid.

Slutsats

Multi-AI-utvärderingssystemet ger en skalbar, transparent och effektiv ram för utvärdering och förbättring av AI-agenter. Genom att kombinera AI och mänskliga utvärderingar säkerställer systemet hög prestanda samtidigt som man minskar bias och bibehåller etiska standarder.

Trending Topics

blockchaincryptocurrencyhackernoon-top-storyprogrammingsoftware-developmenttechnologystartuphackernoon-booksBitcoinbooks