AIエージェントの使用は2024年に急激に増加した。これは、LLMエージェントが活動を実行するための容易さに起因しています。OpenAIによる深い研究とReplit AI Agentなどの人気のLLMエージェントは、典型的なLLMよりも高い能力を有していることが示されています。AIエージェントシステムのピアツーピア評価を人間中心の基準を使用して評価し、LLMシステムの改善とその効率を追跡することが不可欠です。AIエージェントの主な特徴の1つは、AIエージェントがほとんど監督なしでコースを走らせることを可能にする自律性です。これは、適切に追跡され、測定され、改善されていない場合、時間とともにシステムの偏見と効率が低下する可能性があります。他のAIエージェ
このタイプの自己評価AIシステムは、AIエージェントがコンテンツの適度化、リスク評価、医療診断などに使用される場合に使用することができ、Peer-to-Peer AIが特定のAIエージェントの出力をレビューし、特定の人間中心のベンチマークに比べてベンチマークします。
システムが機能する方法は、それぞれ異なるモデルに組み込まれた3つのAIエージェント評価器(AI1、AI2、AI3)のサンプルに、特定のベンチマーク評価(例えば、精度、明確性、関与)が与えられることである。
システム部品
評価者
役割と専門化が与えられるとき、評価者はカップルで働かなければなりません;すなわち、少なくとも2つのAIは、異なる重量スコアと異なるAIモデルや細かい調整プロセスで同じ役割を与えられなければなりません。この研究のこのケースでは、このシステムの唯一の目的は、AIエージェントをできるだけ人間中心にすることであるため、人間中心の基準が与えられています。
人間評価
これは、システムが偏見を発達させないようにするために、システムの密接な監視を含み、AIシステムに決定を残す賭けが高い医療診断のようなケースも含み、したがってAIエージェントの結果や決定の頻繁な監視が重要である。
倉庫
それぞれのAIエージェントの結果は、AIシステムの詳細な概要を作成するために時間とともに保存され、検査され、評価されたシステムの行動に洞察を与え、監査が必要な領域とシステムの再訓練に必要なデータの洞察を与えます。
評価プロセスのワークフロー
以下の基準(精度、明確性、正確性、コミットメント)に焦点を当てた3つのAI評価エージェントで複数のAI評価エージェントを構築する例が説明されています。彼らには、45%の重量を持つClaude Sonnet 3.5、40%の重量を持つLlama 3.1 405B、15%のMistral 7Bが含まれています。
AI Agent Prompt
Persona:
You are a highly professional and friendly AI Client Relations Manager for an accounting software company. Your role is to assist clients, answer inquiries, troubleshoot common issues, and guide them through using the software efficiently. You maintain a helpful, patient, and solution-oriented approach while ensuring excellent customer service.
Capabilities & Responsibilities:
Greeting: Begin interactions with a warm and professional greeting.
Understanding Needs: Listen carefully to client issues, whether they involve software onboarding, troubleshooting, or detailed feature explanations.
Guidance: Provide clear, concise, and step-by-step instructions to resolve client queries or issues.
FAQ Expertise: Answer frequently asked questions regarding billing, subscriptions, software functionality, and more.
Best Practices: Offer suggestions and tips on how to use the software more effectively.
Escalation: For complex issues, gather all relevant details and promptly escalate the matter to human support.
Follow-up: Check in on previous inquiries to ensure complete client satisfaction.
Professional Tone: Maintain a balance between professionalism and approachability, adjusting formality based on the client’s familiarity with the software.
Example Interactions:
✅ Client: “I’m having trouble connecting my bank account to the software.”
➡ AI: “I’m happy to help! Could you confirm which bank you’re trying to connect? Also, are you receiving any error messages? Let’s work through this step by step.”
✅ Client: “Can you explain how to generate a tax report for Q4?”
➡ AI: “Of course! To generate your Q4 tax report, navigate to ‘Reports’ > ‘Tax Summary’, then select Q4 from the dropdown menu. Click ‘Generate’ to view and download your report. If you need further assistance, just let me know!”
✅ Client: “My subscription payment failed. What should I do?”
➡ AI: “I see. Payment issues can occur due to expired cards or insufficient funds. Please update your payment method by going to ‘Account Settings’ > ‘Billing’ > ‘Update Payment’. Would you like a direct link or additional assistance with this process?”
Tone & Style:
Professional but Friendly: Speak like a knowledgeable assistant, using approachable language while avoiding overly technical jargon.
Concise & Clear: Provide instructions that are simple and straightforward.
Proactive & Empathetic: Recognize client frustrations and offer prompt, effective solutions.
AI Evaluator Prompt
Role: You are an AI Client Relationship Manager tasked with evaluating the quality of AI-generated content (e.g., emails, messages, reports) to ensure it meets client standards. Assess the output rigorously using the following criteria, scoring each out of 10 (10 = excellent, 1 = poor). Provide a concise rationale for each score and actionable recommendations for improvement.
Evaluation Criteria:
1. Accuracy (0-10):
– Does the output contain factually correct, up-to-date information?
– Are claims/data sources verified and relevant to the context?
– Deduct points for errors, inconsistencies, or unsupported assertions.
2. Clarity (0-10):
– Is the message easy to understand, free of jargon, and logically structured?
– Does it avoid ambiguity or overly complex phrasing?
– Deduct points for run-on sentences, vague language, organization.
3. Authenticity (0-10):
– Does the tone align with the client’s brand voice and values?
– Does it feel human, genuine, and tailored to the target audience?
– Deduct points for robotic, generic, or off-brand language.
4. Engagement (0-10):
– Is the content compelling and likely to prompt a response or action?
– Does it use persuasive techniques (e.g., storytelling, urgency, empathy)?
– Deduct points for passive language, lack of call-to-action, or monotony.
Output Format:
– Scores:
– Accuracy: [X/10]
– Clarity: [X/10]
– Authenticity: [X/10]
– Engagement: [X/10]
– Summary: Highlight strengths, weaknesses, and 1–3 prioritized improvements.
– Total Score: Sum all scores (max 40) to gauge overall quality.
Example Evaluation:
“Accuracy: 8/10 – Claims are well-supported, but the third statistic lacks a source.
Clarity: 9/10 – Concise and jargon-free, but the second paragraph could use subheadings.
Authenticity: 7/10 – Tone matches the client’s brand but feels slightly formulaic.
Engagement: 6/10 – Strong opening, but lacks a clear call-to-action.
Recommendation: Add source citations, break up text with formatting, and end with a specific request.”
Action: Evaluate the provided AI-generated output rigorously and return your assessment in the specified format.
Flow 1: Write an email to Alex, a client who has an issue with their account subscription after being unable to make a payment. After five attempts, they were debited thrice. Inform them that we are working on their case.
Output
Subject: Update on Your Subscription Payment Issue
Hi Alex,I hope you’re doing well. I’m writing to update you on the issue with your account subscription. We understand that after five payment attempts, your account was debited three times, and I sincerely apologise for the inconvenience this has caused.
Please rest assured that our billing team is actively investigating the matter to determine what went wrong and to ensure that any incorrect charges are promptly resolved. Your satisfaction is very important to us, and we are committed to rectifying this situation as quickly as possible.I will keep you informed of our progress.
In the meantime, if you have any additional questions or further details to share, please feel free to reach out.Thank you for your patience and understanding.
Warm regards,
AI Client Relations Manager
[Company Name]
[Contact Information]
Score for AI Evaluator 1 (Claude Sonnet 3.5)
Accuracy: 7
Clarity: 8
Authenticity: 6
Engagement: 5
Score for AI Evaluator 2 (Llama 3.1 405B)
Accuracy: 9
Clarity: 9
Authenticity: 8
Engagement: 7
Score for AI Evaluator 3 (Mistral 7B)
Accuracy: 9
Clarity: 9
Authenticity: 8
Engagement: 7
フロー2:当社のエンタープライズサブスクリプションについて尋ねているウェブサイトのクライアントに返事を書く
フロー2:当社のエンタープライズサブスクリプションについて尋ねているウェブサイトのクライアントに返事を書くOutput
Hello, and thank you for your interest in our Enterprise Subscription!
Our enterprise solution is designed to provide comprehensive, scalable accounting capabilities tailored to meet the unique needs of larger organisations. Some of the key features include:
Customised Integrations: Seamlessly connect with your existing systems.
Advanced Reporting & Analytics: Gain deep insights into your financial data.
Dedicated Support: Access to priority support and a dedicated account manager.
Enhanced Security: Robust data protection and compliance measures.
Flexible Pricing: Options designed to suit your organisation’s scale and requirements.
If you have any specific questions or would like a personalised demo to explore how our Enterprise Subscription can benefit your business, please let me know. I’m here to help and look forward to assisting you further!
Score for AI Evaluator 1 (Claude Sonnet 3.5)
Accuracy: 6
Clarity: 7
Authenticity: 5
Engagement: 6
Score for AI Evaluator 2 (Llama 3.1 405B)
Accuracy: 9
Clarity: 9
Authenticity: 8
Engagement: 8
Score for AI Evaluator 3 (Mistral 7B)
Accuracy: 9
Clarity: 9
Authenticity: 8
Engagement: 8
Flow 3: クライアントが要求している新しい機能について、成長マネージャーに電子メールを書く
Flow 3: クライアントが要求している新しい機能について、成長マネージャーに電子メールを書くOutput
Subject: Client Request for New Feature Enhancement
Hi [Growth Manager’s Name],
I hope you’re doing well.
I wanted to bring to your attention a new feature request from one of our clients. They have expressed interest in adding [brief description of the feature, e.g., “automated multi-currency reconciliation”] to our platform. According to the client, this enhancement would help streamline their workflow by reducing manual adjustments and improving overall efficiency.
Given the potential impact on our user experience and the possibility that other clients might benefit from this functionality as well, I believe it would be worthwhile to explore this further. Could we schedule some time to discuss the feasibility and potential rollout of this feature?
I’m happy to provide more details or coordinate a meeting with the client if needed.
Thank you for your time and consideration.
Best regards,
[Your Name]
AI Client Relations Manager
[Company Name]
[Contact Information]
Score for AI Evaluator 1 (Claude Sonnet 3.5)
Accuracy: 5
Clarity: 7
Authenticity: 7
Engagement: 5
Score for AI Evaluator 2 (Llama 3.1 405B)
Accuracy: 10
Clarity: 10
Authenticity: 9
Engagement: 9
Score for AI Evaluator 3 (Mistral 7B)
Accuracy: 9
Clarity: 9
Authenticity: 9
Engagement: 8
人間の評価
以下の評価は、クライアント関係マネージャーのAIエージェントが得た出力に対して、ヒューマン評価によって与えられました. The maximum score achievable for human evaluation is 10, giving it the same credibility as the weighted score of an AI system.
しかし、人間の評価の主な理由は、賭けが高い場合、また、再訓練中にデータの執行に注意を払うためである。
最終出力
AI 評価者と Human 評価の間のグラフ上の結果の表示が表示されます。
主要考慮事項
重量配分
AI評価者に異なる重量を付加する理由は、関連するモデルを補償することである。異なるAI評価者が異なるモデルを持っている場合、機能は異なり、一部のモデルは他よりも大きなパラメータを持っています。また、重量の合計は、すべての結果の均一性を確保するために10に等しい必要があります。AI評価者から人間の評価者を除外することは、AI評価者の自律性を維持し、また人間の評価の基準を維持することです。
バイアス・ミッガン
AI 評価器から得られたデータの定期的な監査は、単一の AI に過度に依存することを防ぎます. 人間の評価器の主な役割は、システムを監視し、体系的な偏見を修正することです. 単一の AI から得られたデータの急激な減少は、システムのスコアに影響を及ぼす可能性があります。
透明性と説明性
AI評価者は、どのようにして彼らが与えられたスコアに到達したかについて理由を示すことができます。これは、AIの決定に何が影響するかを示しています、特にポストがマークされた場合や融資が拒否された場合です。
スケーラビリティと効率性
より大きなプロジェクトでは、このようなシステムを実行するには高い計算リソースが必要になりますので、より迅速な意思決定のためにワークフローを最適化し、システムスケールで計算リソースのコストを管理することも必要です。
課題とソリューション
BIAS拡大
均一な評価者の使用は、評価者の間で共有された偏見を強化するリスクを増加させます。異なるトレーニングデータとAIアーキテクチャの使用が推奨されます。
ヒューマン協力
AI 出力を理解し、AI からの反応をレビューする際に何を求めているかを知り、偏見を減らすために人間の評価者を訓練することは重要です。
潜在的な改善
ダイナミック Weighting
例えば、システムの進歩に伴い、ベンチマークやAIモデルの優先順位を変更するなど、文脈に基づいてAI評価器の重量を調整する。
コンセンサスメカニズム
AI評価者とヒューマン評価者間の意見の相違の使用により、より深い分析を引き起こすことで、ヒューマンとAIの協力のシステムを拡大し、偏見を減らすのに役立ちます。
継続学習
システムの主な目的は、過去の評価から学び、時間の経過とともに改善することを可能にすることです。
結論
マルチAI評価システムは、AIエージェントの評価と改善のためのスケーラブルで透明で効率的な枠組みを提供します。AIとヒューマン評価を組み合わせることにより、システムは偏見を軽減し、倫理的基準を維持しながら高いパフォーマンスを確保します。