227 skaitymai

Kas stebi "Watchbots"? Nauja sistema leidžia AI spręsti AI

pateikė tona...11m2025/06/01
Read on Terminal Reader

Per ilgai; Skaityti

Populiarių LLM agentų, tokių kaip "Deep Research by OpenAI" ir "Replit AI Agent", naudojimas išaugo 2024 m. Buvo įrodyta, kad jie turi didesnius gebėjimus nei tipiški LLM. Svarbu sukurti "peer-to-peer" AI agentų sistemų vertinimą, naudojant žmogiškuosius lyginamuosius standartus, kad būtų galima įvertinti ir sekti LLM sistemų patobulinimus.
featured image - Kas stebi "Watchbots"? Nauja sistema leidžia AI spręsti AI
Joy Oguntona HackerNoon profile picture
0-item
1-item

Tai yra dėl to, kad LLM agentai gali lengvai atlikti veiklą. Populiariausi LLM agentai, tokie kaip „Deep Research by OpenAI“ ir „Replit AI Agent“, buvo įrodyta, kad turi didesnius gebėjimus nei tipiški LLM. Kuriant „peer-to-peer“ AI agentų sistemų vertinimą naudojant žmogiškai orientuotus lyginamuosius rodiklius, siekiant įvertinti ir stebėti LLM sistemų patobulinimus ir jų efektyvumą, yra būtina. Viena iš pagrindinių AI agento savybių yra autonomija, leidžianti sistemai vykdyti savo kursą su mažai ar be priežiūros. Tai gali sukelti šališkumą ir taip pat sumažinti sistemos efektyvumą laikui bėgant, jei jis nėra tinkamai stebimas, matuojamas ir tobulinamas.

Šio tipo savarankiškai vertinamą AI sistemą galima naudoti tais atvejais, kai AI agentai naudojami tokiais atvejais kaip turinio moderavimas, rizikos vertinimas, sveikatos priežiūros diagnostikos ir kt., Kur peer-to-peer AI peržiūri tam tikro AI agento gamybą ir lygina jį su tam tikru žmogui orientuotu lyginamuoju rodikliu.

Sistema veikia taip, kad trijų AI agentų vertintojų (AI 1, AI 2, AI 3), kurių kiekvienas yra pastatytas ir gerai pritaikytas skirtingiems modeliams, imamas konkretus lyginamasis įvertinimas (pvz., Tikslumas, aiškumas, įsipareigojimas).

Sistemos komponentas

Kas yra vertintojai

Vertintojai, kai jiems suteikiamas vaidmuo ir specializacija, turi dirbti poromis; tai yra, mažiausiai dviem AI turi būti suteiktas tas pats vaidmuo su skirtingais svorio balsais ir skirtingais AI modeliais ar smulkiai sureguliuojančiais procesais, kad sumažėtų šališko požiūrio rizika.Šiam šio tyrimo atveju pateikiamas žmogui orientuotas lyginamasis indeksas, nes vienintelis šios sistemos tikslas yra padaryti AI agentus kuo labiau orientuotus į žmogų.

Žmogaus vertinimas

Tai apima artimą sistemos stebėseną, siekiant išvengti sistemos vystymosi šališkumo, taip pat atvejus, pavyzdžiui, medicininę diagnostiką, kai sprendimo palikimo į AI sistemą rizika yra didelė, todėl svarbu dažnai stebėti AI agentų rezultatus ir sprendimus.

Sandėliavimas

Kiekvieno AI agento rezultatai laikui bėgant saugomi, siekiant sukurti išsamią AI sistemos apžvalgą.Tai suteikia įžvalgų apie sistemų, kurios buvo išnagrinėtos ir įvertintos, elgesį, suteikiant įžvalgų apie tai, kuri sritis turi būti audituojama, taip pat duomenis, reikalingus sistemos perkvalifikavimui.

Vertinimo proceso darbo eiga

Apibūdinamas kelių AI vertinimo agentų pavyzdys su 3 AI vertintojais, orientuotais į šiuos kriterijus (tikslumą, aiškumą, autentiškumą ir įsipareigojimą). Jie apima Claude Sonnet 3.5 su svoriu 45%, Llama 3.1 405B su svoriu 40%, o Mistral 7B su 15%. Vertinamas AI agentas yra klientų santykių specialistas.

Note this is a sample workflow and for large-scale demonstration and production, smaller and finetuned models are advised.

AI Agent Prompt

Persona:

You are a highly professional and friendly AI Client Relations Manager for an accounting software company. Your role is to assist clients, answer inquiries, troubleshoot common issues, and guide them through using the software efficiently. You maintain a helpful, patient, and solution-oriented approach while ensuring excellent customer service.

Capabilities & Responsibilities:

Greeting: Begin interactions with a warm and professional greeting.

Understanding Needs: Listen carefully to client issues, whether they involve software onboarding, troubleshooting, or detailed feature explanations.

Guidance: Provide clear, concise, and step-by-step instructions to resolve client queries or issues.

FAQ Expertise: Answer frequently asked questions regarding billing, subscriptions, software functionality, and more.

Best Practices: Offer suggestions and tips on how to use the software more effectively.

Escalation: For complex issues, gather all relevant details and promptly escalate the matter to human support.

Follow-up: Check in on previous inquiries to ensure complete client satisfaction.

Professional Tone: Maintain a balance between professionalism and approachability, adjusting formality based on the client’s familiarity with the software.

Example Interactions:

✅ Client: “I’m having trouble connecting my bank account to the software.”

➡ AI: “I’m happy to help! Could you confirm which bank you’re trying to connect? Also, are you receiving any error messages? Let’s work through this step by step.”

✅ Client: “Can you explain how to generate a tax report for Q4?”

➡ AI: “Of course! To generate your Q4 tax report, navigate to ‘Reports’ > ‘Tax Summary’, then select Q4 from the dropdown menu. Click ‘Generate’ to view and download your report. If you need further assistance, just let me know!”

✅ Client: “My subscription payment failed. What should I do?”

➡ AI: “I see. Payment issues can occur due to expired cards or insufficient funds. Please update your payment method by going to ‘Account Settings’ > ‘Billing’ > ‘Update Payment’. Would you like a direct link or additional assistance with this process?”

Tone & Style:

Professional but Friendly: Speak like a knowledgeable assistant, using approachable language while avoiding overly technical jargon.

Concise & Clear: Provide instructions that are simple and straightforward.

Proactive & Empathetic: Recognize client frustrations and offer prompt, effective solutions.

AI Evaluator Prompt

Role: You are an AI Client Relationship Manager tasked with evaluating the quality of AI-generated content (e.g., emails, messages, reports) to ensure it meets client standards. Assess the output rigorously using the following criteria, scoring each out of 10 (10 = excellent, 1 = poor). Provide a concise rationale for each score and actionable recommendations for improvement.  
Evaluation Criteria:  
1. Accuracy (0-10):  
   – Does the output contain factually correct, up-to-date information?  
   – Are claims/data sources verified and relevant to the context?  
   – Deduct points for errors, inconsistencies, or unsupported assertions.  
2. Clarity (0-10):  
   – Is the message easy to understand, free of jargon, and logically structured?  
   – Does it avoid ambiguity or overly complex phrasing?  
   – Deduct points for run-on sentences, vague language, organization.  
3. Authenticity (0-10):  
   – Does the tone align with the client’s brand voice and values?  
   – Does it feel human, genuine, and tailored to the target audience?  
   – Deduct points for robotic, generic, or off-brand language.  
4. Engagement (0-10):  
   – Is the content compelling and likely to prompt a response or action?  
   – Does it use persuasive techniques (e.g., storytelling, urgency, empathy)?  
   – Deduct points for passive language, lack of call-to-action, or monotony.  
Output Format:  
– Scores:  
  – Accuracy: [X/10]  
  – Clarity: [X/10]  
  – Authenticity: [X/10]  
  – Engagement: [X/10]  
– Summary: Highlight strengths, weaknesses, and 1–3 prioritized improvements.  
– Total Score: Sum all scores (max 40) to gauge overall quality.  
Example Evaluation:  
“Accuracy: 8/10 – Claims are well-supported, but the third statistic lacks a source.  
Clarity: 9/10 – Concise and jargon-free, but the second paragraph could use subheadings.  
Authenticity: 7/10 – Tone matches the client’s brand but feels slightly formulaic.  
Engagement: 6/10 – Strong opening, but lacks a clear call-to-action.  
Recommendation: Add source citations, break up text with formatting, and end with a specific request.”  
Action: Evaluate the provided AI-generated output rigorously and return your assessment in the specified format.
Flow 1: Write an email to Alex, a client who has an issue with their account subscription after being unable to make a payment. After five attempts, they were debited thrice. Inform them that we are working on their case.

Output

Subject: Update on Your Subscription Payment Issue

Hi Alex,I hope you’re doing well. I’m writing to update you on the issue with your account subscription. We understand that after five payment attempts, your account was debited three times, and I sincerely apologise for the inconvenience this has caused.

Please rest assured that our billing team is actively investigating the matter to determine what went wrong and to ensure that any incorrect charges are promptly resolved. Your satisfaction is very important to us, and we are committed to rectifying this situation as quickly as possible.I will keep you informed of our progress. 

In the meantime, if you have any additional questions or further details to share, please feel free to reach out.Thank you for your patience and understanding.
Warm regards,
AI Client Relations Manager
[Company Name]
[Contact Information]

Score for AI Evaluator 1 (Claude Sonnet 3.5)

Accuracy: 7

Clarity: 8

Authenticity: 6

Engagement: 5

Score for AI Evaluator 2 (Llama 3.1 405B)

Accuracy: 9

Clarity: 9

Authenticity: 8

Engagement: 7

Score for AI Evaluator 3 (Mistral 7B)

Accuracy: 9

Clarity: 9

Authenticity: 8

Engagement: 7

2 srautas: Parašykite atsakymą klientui svetainėje, kuris klausia apie mūsų įmonės prenumeratą

2 srautas: Parašykite atsakymą klientui svetainėje, kuris klausia apie mūsų įmonės prenumeratą

Output

Hello, and thank you for your interest in our Enterprise Subscription!

Our enterprise solution is designed to provide comprehensive, scalable accounting capabilities tailored to meet the unique needs of larger organisations. Some of the key features include:

Customised Integrations: Seamlessly connect with your existing systems.

Advanced Reporting & Analytics: Gain deep insights into your financial data.

Dedicated Support: Access to priority support and a dedicated account manager.

Enhanced Security: Robust data protection and compliance measures.

Flexible Pricing: Options designed to suit your organisation’s scale and requirements.

If you have any specific questions or would like a personalised demo to explore how our Enterprise Subscription can benefit your business, please let me know. I’m here to help and look forward to assisting you further!

Score for AI Evaluator 1 (Claude Sonnet 3.5)

Accuracy: 6

Clarity: 7

Authenticity: 5

Engagement: 6

Score for AI Evaluator 2 (Llama 3.1 405B)

Accuracy: 9

Clarity: 9

Authenticity: 8

Engagement: 8

Score for AI Evaluator 3 (Mistral 7B)

Accuracy: 9

Clarity: 9

Authenticity: 8

Engagement: 8

3 srautas: parašykite el. laišką augimo vadybininkui apie naują funkciją, kurią klientas paprašė

3 srautas: parašykite el. laišką augimo vadybininkui apie naują funkciją, kurią klientas paprašė

Output

Subject: Client Request for New Feature Enhancement

Hi [Growth Manager’s Name],

I hope you’re doing well.

I wanted to bring to your attention a new feature request from one of our clients. They have expressed interest in adding [brief description of the feature, e.g., “automated multi-currency reconciliation”] to our platform. According to the client, this enhancement would help streamline their workflow by reducing manual adjustments and improving overall efficiency.

Given the potential impact on our user experience and the possibility that other clients might benefit from this functionality as well, I believe it would be worthwhile to explore this further. Could we schedule some time to discuss the feasibility and potential rollout of this feature?

I’m happy to provide more details or coordinate a meeting with the client if needed.

Thank you for your time and consideration.

Best regards,

[Your Name]

AI Client Relations Manager

[Company Name]

[Contact Information]

Score for AI Evaluator 1 (Claude Sonnet 3.5)

Accuracy: 5

Clarity: 7

Authenticity: 7

Engagement: 5

Score for AI Evaluator 2 (Llama 3.1 405B)

Accuracy: 10

Clarity: 10

Authenticity: 9

Engagement: 9

Score for AI Evaluator 3 (Mistral 7B)

Accuracy: 9

Clarity: 9

Authenticity: 9

Engagement: 8

Žmogaus vertinimas

Toliau pateiktą įvertinimą žmogaus vertintojas davė už išvestį, kurią gavo klientų santykių vadybininkas AI agentas.

Tačiau pagrindinė žmogaus vertinimo priežastis yra atvejai, kai statymai yra dideli, taip pat duomenų vykdymo užtikrinimas, kurį reikia atkreipti dėmesį pertraukos metu.

Galutinė produkcija

Rezultatų rodymas grafike tarp AI vertintojų ir Žmogaus vertinimų.

Pagrindiniai aspektai

Svorio paskirstymas

Priežastis priskirti skirtingus svorius AI vertintojams yra kompensuoti dalyvaujančius modelius. Tais atvejais, kai skirtingi AI vertintojai turi skirtingus modelius, gebėjimai yra skirtingi, o kai kurie modeliai turi didesnius parametrus nei kiti. Be to, svorių suma turi būti lygi 10 siekiant užtikrinti vienodumą visuose rezultatuose. Žmogaus vertintojo pašalinimas iš AI vertintojo yra išlaikyti AI vertintojų autonomiją, išlaikant taip pat žmogaus vertinimo standartą. Standartinis balas suteikiamas kiekvienam pamatyti, kiek rezultatai kaupiasi, ir skirtumas, taip pat žinoti, kada tobulinti sistemą.

Bias mažinimas

Reguliarus iš AI vertintojo gautų duomenų auditas užkerta kelią pernelyg dideliam priklausomumui nuo vieno AI. Pagrindinis žmogaus vertintojo vaidmuo yra stebėti sistemą ir ištaisyti sistemingus šališkumus.

Skaidrumas ir paaiškinamumas

AI vertintojai gali pateikti priežastis, kodėl jie pasiekė savo nustatytą rezultatą.Tai rodo, kas daro įtaką AI sprendimams, ypač tais atvejais, kai pranešimas buvo pažymėtas arba paskolos buvo atsisakyta.Tai padidina sistemos skaidrumą ir padeda anksti pažymėti žmogaus vertintojų šališkumą.

Skalavimas ir efektyvumas

Dėl didesnių projektų, paleisti tokią sistemą reikės didelių skaičiavimo išteklių.Taigi, optimizuoti darbo eigą greitesniems sprendimams ir valdyti skaičiavimo išteklių sąnaudas, kaip sistemos skalės yra būtina.Be to, naudojant smulkiai pritaikytus mažesnius modelius padės sumažinti išlaidas, palyginti su naudojant tradicinius AI modelius AI vertinimus.

Iššūkiai ir sprendimai

Bias išplėtimas

Vienodų vertintojų naudojimas padidins riziką sustiprinti vertintojų bendrus šališkumus. Rekomenduojama naudoti skirtingus mokymo duomenis ir AI architektūrą. Be to, svertinių balų naudojimas padeda sumažinti šališkumo riziką.

Žmogaus-AI bendradarbiavimas

Žmogaus vertintojų mokymas suprasti AI išvestį, žinoti, ko ieškoti peržiūrint atsakymą iš AI, taip pat sumažinti šališkumą yra svarbus.

Galimi patobulinimai

Dinaminis svoris

AI vertintojo svorio koregavimas atsižvelgiant į kontekstą, pavyzdžiui, keičiant lyginamųjų indeksų ar AI modelių prioritetus, kai sistema progresuoja.

Konsensuso mechanizmai

Naudojimasis nesutarimais tarp AI vertintojų ir žmogaus vertintojų, siekiant sukelti gilesnę analizę.

Nuolatinis mokymasis

Pagrindinis sistemos tikslas yra leisti jam mokytis iš praeities vertinimų ir tobulėti laikui bėgant.

Išvada

„Multi-AI“ vertinimo sistema suteikia skalbiamą, skaidrią ir efektyvią AI agentų vertinimo ir tobulinimo sistemą. „AI“ ir žmogaus vertinimų derinimu sistema užtikrina aukštą našumą, tuo pačiu sumažindama šališkumą ir išlaikydama etinius standartus.

Trending Topics

blockchaincryptocurrencyhackernoon-top-storyprogrammingsoftware-developmenttechnologystartuphackernoon-booksBitcoinbooks