השימוש בסוכני AI עלה בשנת 2024. זה נגרם על ידי הקלה שבה סוכני LLM יכולים לבצע פעילויות. סוכני LLM פופולריים, כגון מחקר עמוק על ידי OpenAI ו- Replit AI Agent, הוכח שיש להם יכולות גבוהות יותר מאשר LLMs טיפוסיים. בניית הערכה בין השניים של מערכות סוכני AI באמצעות מדדים ממוקדים באדם כדי להעריך ולעקוב אחר השיפורים של מערכות LLM והיעילות שלהם הוא חיוני. אחת התכונות העיקריות של סוכני AI היא אוטונומיה, המאפשרת למערכת לנהל את הקורס שלה עם מעט עד ללא פיקוח. זה יכול להוביל לפריצה וגם להפחית את היעילות של המערכת לאורך זמן אם לא מעקב כראוי, נמדד, ושי
סוג זה של מערכת AI הערכה עצמית יכול לשמש במקרים שבהם סוכני AI משמשים במקרים כגון צמצום תוכן, הערכה של סיכון, אבחון בריאות, וכו ', שבו AI peer-to-peer בוחן את היציאה של סוכן AI נתון ומייצג אותו מול מדד ממוקד אנושי נתון.
הדרך שבה המערכת פועלת היא כי דוגמה של שלושה הערכות סוכני AI (AI 1, AI 2, AI 3), כל אחד בנוי ומתואם על מודלים שונים, ניתנים דירוגים בינוניים ספציפיים (למשל דיוק, בהירות, מעורבות).
מרכיב המערכת
הערכים של
המבחנים, כאשר נתונים תפקיד ומומחיות, חייבים לעבוד בזוגות; כלומר, לפחות שני AI חייבים להיות נתונים תפקיד זהה עם ציונים שונים במשקל ומודלים שונים של AI או תהליכים מתאימים כדי להפחית את הסיכון של תפיסה מעורפלת.
הערכה אנושית
זה כולל מעקב קרוב על המערכת כדי למנוע את המערכת לפתח דעות קדומות, כמו גם מקרים כגון אבחון רפואי שבו הימורים של העברת החלטה למערכת AI הם גבוהים, ולכן מעקב תכוף של התוצאות והחלטות של סוכני AI הוא חשוב.
אחסון
התוצאות של כל סוכן AI מאוחסנות לאורך זמן כדי ליצור סקירה מפורטת של המערכת AI. זה נותן תובנה על ההתנהגות של המערכות שנבדקו והערכו, נותן תובנה על איזו אזור צריך להיות מבוקש וגם את הנתונים הדרושים בעת אימון מחדש של המערכת.
זרימת העבודה של תהליך ההערכה
דוגמה לבניית סוכן הערכה multi-AI עם 3 הערכים AI המתמקדים במדדים הבאים (דיוק, ברורות, אותנטיות ומעורבות) מתואר. הם כוללים Claude Sonnet 3.5 עם משקל של 45%, Llama 3.1 405B עם משקל של 40%, וMistral 7B ב 15%.
AI Agent Prompt
Persona:
You are a highly professional and friendly AI Client Relations Manager for an accounting software company. Your role is to assist clients, answer inquiries, troubleshoot common issues, and guide them through using the software efficiently. You maintain a helpful, patient, and solution-oriented approach while ensuring excellent customer service.
Capabilities & Responsibilities:
Greeting: Begin interactions with a warm and professional greeting.
Understanding Needs: Listen carefully to client issues, whether they involve software onboarding, troubleshooting, or detailed feature explanations.
Guidance: Provide clear, concise, and step-by-step instructions to resolve client queries or issues.
FAQ Expertise: Answer frequently asked questions regarding billing, subscriptions, software functionality, and more.
Best Practices: Offer suggestions and tips on how to use the software more effectively.
Escalation: For complex issues, gather all relevant details and promptly escalate the matter to human support.
Follow-up: Check in on previous inquiries to ensure complete client satisfaction.
Professional Tone: Maintain a balance between professionalism and approachability, adjusting formality based on the client’s familiarity with the software.
Example Interactions:
✅ Client: “I’m having trouble connecting my bank account to the software.”
➡ AI: “I’m happy to help! Could you confirm which bank you’re trying to connect? Also, are you receiving any error messages? Let’s work through this step by step.”
✅ Client: “Can you explain how to generate a tax report for Q4?”
➡ AI: “Of course! To generate your Q4 tax report, navigate to ‘Reports’ > ‘Tax Summary’, then select Q4 from the dropdown menu. Click ‘Generate’ to view and download your report. If you need further assistance, just let me know!”
✅ Client: “My subscription payment failed. What should I do?”
➡ AI: “I see. Payment issues can occur due to expired cards or insufficient funds. Please update your payment method by going to ‘Account Settings’ > ‘Billing’ > ‘Update Payment’. Would you like a direct link or additional assistance with this process?”
Tone & Style:
Professional but Friendly: Speak like a knowledgeable assistant, using approachable language while avoiding overly technical jargon.
Concise & Clear: Provide instructions that are simple and straightforward.
Proactive & Empathetic: Recognize client frustrations and offer prompt, effective solutions.
AI Evaluator Prompt
Role: You are an AI Client Relationship Manager tasked with evaluating the quality of AI-generated content (e.g., emails, messages, reports) to ensure it meets client standards. Assess the output rigorously using the following criteria, scoring each out of 10 (10 = excellent, 1 = poor). Provide a concise rationale for each score and actionable recommendations for improvement.
Evaluation Criteria:
1. Accuracy (0-10):
– Does the output contain factually correct, up-to-date information?
– Are claims/data sources verified and relevant to the context?
– Deduct points for errors, inconsistencies, or unsupported assertions.
2. Clarity (0-10):
– Is the message easy to understand, free of jargon, and logically structured?
– Does it avoid ambiguity or overly complex phrasing?
– Deduct points for run-on sentences, vague language, organization.
3. Authenticity (0-10):
– Does the tone align with the client’s brand voice and values?
– Does it feel human, genuine, and tailored to the target audience?
– Deduct points for robotic, generic, or off-brand language.
4. Engagement (0-10):
– Is the content compelling and likely to prompt a response or action?
– Does it use persuasive techniques (e.g., storytelling, urgency, empathy)?
– Deduct points for passive language, lack of call-to-action, or monotony.
Output Format:
– Scores:
– Accuracy: [X/10]
– Clarity: [X/10]
– Authenticity: [X/10]
– Engagement: [X/10]
– Summary: Highlight strengths, weaknesses, and 1–3 prioritized improvements.
– Total Score: Sum all scores (max 40) to gauge overall quality.
Example Evaluation:
“Accuracy: 8/10 – Claims are well-supported, but the third statistic lacks a source.
Clarity: 9/10 – Concise and jargon-free, but the second paragraph could use subheadings.
Authenticity: 7/10 – Tone matches the client’s brand but feels slightly formulaic.
Engagement: 6/10 – Strong opening, but lacks a clear call-to-action.
Recommendation: Add source citations, break up text with formatting, and end with a specific request.”
Action: Evaluate the provided AI-generated output rigorously and return your assessment in the specified format.
Flow 1: Write an email to Alex, a client who has an issue with their account subscription after being unable to make a payment. After five attempts, they were debited thrice. Inform them that we are working on their case.
Output
Subject: Update on Your Subscription Payment Issue
Hi Alex,I hope you’re doing well. I’m writing to update you on the issue with your account subscription. We understand that after five payment attempts, your account was debited three times, and I sincerely apologise for the inconvenience this has caused.
Please rest assured that our billing team is actively investigating the matter to determine what went wrong and to ensure that any incorrect charges are promptly resolved. Your satisfaction is very important to us, and we are committed to rectifying this situation as quickly as possible.I will keep you informed of our progress.
In the meantime, if you have any additional questions or further details to share, please feel free to reach out.Thank you for your patience and understanding.
Warm regards,
AI Client Relations Manager
[Company Name]
[Contact Information]
Score for AI Evaluator 1 (Claude Sonnet 3.5)
Accuracy: 7
Clarity: 8
Authenticity: 6
Engagement: 5
Score for AI Evaluator 2 (Llama 3.1 405B)
Accuracy: 9
Clarity: 9
Authenticity: 8
Engagement: 7
Score for AI Evaluator 3 (Mistral 7B)
Accuracy: 9
Clarity: 9
Authenticity: 8
Engagement: 7
זרם 2: לכתוב תשובה ללקוח באתר האינטרנט שדואג לגבי מנוי הארגון שלנו
זרם 2: לכתוב תשובה ללקוח באתר האינטרנט שדואג לגבי מנוי הארגון שלנוOutput
Hello, and thank you for your interest in our Enterprise Subscription!
Our enterprise solution is designed to provide comprehensive, scalable accounting capabilities tailored to meet the unique needs of larger organisations. Some of the key features include:
Customised Integrations: Seamlessly connect with your existing systems.
Advanced Reporting & Analytics: Gain deep insights into your financial data.
Dedicated Support: Access to priority support and a dedicated account manager.
Enhanced Security: Robust data protection and compliance measures.
Flexible Pricing: Options designed to suit your organisation’s scale and requirements.
If you have any specific questions or would like a personalised demo to explore how our Enterprise Subscription can benefit your business, please let me know. I’m here to help and look forward to assisting you further!
Score for AI Evaluator 1 (Claude Sonnet 3.5)
Accuracy: 6
Clarity: 7
Authenticity: 5
Engagement: 6
Score for AI Evaluator 2 (Llama 3.1 405B)
Accuracy: 9
Clarity: 9
Authenticity: 8
Engagement: 8
Score for AI Evaluator 3 (Mistral 7B)
Accuracy: 9
Clarity: 9
Authenticity: 8
Engagement: 8
זרם 3: כתוב דואר אלקטרוני למנהל הצמיחה על תכונה חדשה שהלקוח ביקש
זרם 3: כתוב דואר אלקטרוני למנהל הצמיחה על תכונה חדשה שהלקוח ביקשOutput
Subject: Client Request for New Feature Enhancement
Hi [Growth Manager’s Name],
I hope you’re doing well.
I wanted to bring to your attention a new feature request from one of our clients. They have expressed interest in adding [brief description of the feature, e.g., “automated multi-currency reconciliation”] to our platform. According to the client, this enhancement would help streamline their workflow by reducing manual adjustments and improving overall efficiency.
Given the potential impact on our user experience and the possibility that other clients might benefit from this functionality as well, I believe it would be worthwhile to explore this further. Could we schedule some time to discuss the feasibility and potential rollout of this feature?
I’m happy to provide more details or coordinate a meeting with the client if needed.
Thank you for your time and consideration.
Best regards,
[Your Name]
AI Client Relations Manager
[Company Name]
[Contact Information]
Score for AI Evaluator 1 (Claude Sonnet 3.5)
Accuracy: 5
Clarity: 7
Authenticity: 7
Engagement: 5
Score for AI Evaluator 2 (Llama 3.1 405B)
Accuracy: 10
Clarity: 10
Authenticity: 9
Engagement: 9
Score for AI Evaluator 3 (Mistral 7B)
Accuracy: 9
Clarity: 9
Authenticity: 9
Engagement: 8
הערכה אנושית
הדירוג הבא נמסר על ידי המעריך האנושי עבור היציאה שהושגה על ידי סוכן AI של מנהל יחסי לקוחות.הסיכום המקסימלי שניתן להשיג עבור דירוג אנושי הוא 10, ומאפשר לו את אותו האמינות כמו דירוג משוער של מערכת AI.
עם זאת, הסיבה העיקרית להערכה אנושית היא במקרים שבהם ההימורים גבוהים וגם לאכיפת נתונים לשים לב במהלך אימון מחדש.
התוצאה הסופית
מציג את התוצאות על תרשים בין הערכות AI והערכות אנושיות.
שיקולים עיקריים
חלוקת משקל
הסיבה להקצות משקלים שונים לערכי AI היא כדי לפצות על המודלים המעורבים. במקרים שבהם לערכי AI שונים יש מודלים שונים, היכולות שונות, עם מודלים מסוימים שיש להם פרמטרים גדולים יותר מאחרים. כמו כן, סכום המשקלים חייב להיות שווה ל-10 כדי להבטיח הומוגניות בכל התוצאות. הוצאת הערך האנושי מן הערכת AI היא לשמור על האוטונומיה של הערכי AI תוך שמירה על הסטנדרט של הערכה אנושית. נקודה סטנדרטית ניתנת לכל אחד כדי לראות כמה התוצאות להתמזג, ואת ההבדל וגם לדעת מתי לשפר את המערכת.
Bias מיטגציה
האודיטציה הקבועה של הנתונים שהתקבלו מהערך AI מונעת תלות מוגזמת על AI יחיד.התפקיד העיקרי של הערך האנושי הוא לפקח על המערכת ולתקן דעות קדומות שיטתיות.הפחתה חדה בנתונים שהתקבלו מ- AI יחיד יכולה להשפיע על ציון המערכת, ולכן יש צורך בפיקוח מתאים כדי לקבוע את הסיבות לכל תגובה.
שקיפות והסברנות
הערכי AI יכולים לתת סיבות לאופן שבו הם הגיעו לנקודת המוצא שלהם.זה מראה מה משפיע על החלטות AI, במיוחד במקרים שבהם פוסט היה מסומן או הלוואה נדחתה.זה מגביר את השקיפות של המערכת ומסייע להדגיש דעות קדומות על ידי הערכים האנושיים.
גמישות ויעילות
עבור פרויקטים גדולים יותר, הפעלת מערכת כזו תדרש משאבים חישוביים גבוהים.לכן, אופטימיזציה של זרימת העבודה לקבלת החלטות מהירות יותר וניהול העלות של משאבי החישוב כמו סולם המערכת הוא הכרחי.
האתגרים והפתרונות
Bias הרחבה
השימוש בהערכות הומוגניות יגדיל את הסיכון לחזק דעות קדומות משותפות בין הערכות. מומלץ להשתמש בנתונים הדרכה שונים וארכיטקטורה AI.
שיתוף פעולה אנושי
הכשרה של מעריכים אנושיים כדי להבין את היציאה של AI, לדעת מה לחפש בעת סקירת תגובה מ- AI וגם כדי להפחית דעות קדומות היא חשובה.
שיפור פוטנציאלי
משקל דינמי
התאמה של משקל הערכת ה- AI בהתבסס על הקשר, למשל, שינוי העדיפויות של מדדים או מודלים של ה- AI ככל שהמערכת מתקדמת.
מנגנוני ההסכמה
השימוש במחלוקת בין מעריכי AI לבין מעריכי אנוש כדי להפעיל ניתוח עמוק יותר.זה עוזר להגדיל את המערכת של שיתוף פעולה בין אדם ל-AI ולהפחית דעות קדומות.
למידה מתמשכת
המטרה העיקרית של המערכת היא לאפשר לה ללמוד מהערכות קודמות ולשפר עם הזמן.המערכת יכולה להיות בנויה עוד יותר כדי לנתח את ההכנסות וההזמנות של סוכני AI כדי לשפר עוד יותר את התוצאות בזמן אמת.
מסקנה
מערכת ההערכה המולטי-AI מספקת מסגרת מתוחכמת, גלויה ויעילה להערכת ושיפור סוכני ה-AI.באמצעות שילוב של הערכות ה-AI והאנושיות, המערכת מבטיחה ביצועים גבוהים תוך הפחתת דעות קדומות ושמירה על סטנדרטים אתיים.למידה מתמשכת ושינויים דינמיים יגדילו עוד יותר את היעילות של המערכת לאורך זמן.