AT THE パフォーマンスアーキテクチャ Sudhakar Reddy Narra は、従来のパフォーマンステストツールが、AI エージェントが実際に負荷の下で破壊するすべての方法を逃す方法を示しました。 テストインスタンブール会議 テストインスタンブール会議 パフォーマンスエンジニアが伝統的なウェブアプリケーションをテストするとき、メトリクスは単純です:応答時間、スループット、およびエラーレート. Hit the system with thousands of simultaneous requests, watch the graphs, and identify bottlenecks. Simple enough. しかし、AIシステムは同じように壊れることはありません。 先月のテストイスタンブール会議で、パフォーマンスアーキテクターのSudhakar Reddy Narraは、347人の参加者のうち204人が参加し、伝統的な負荷テストアプローチがAIエージェントの生産に失敗する方法に根本的に盲目である理由を説明しました。 「AIエージェントは500ミリ秒以内に完璧なHTTP200応答を返すことができますが、全く役に立たない答えを返すことができます」とNarraは観客に語った。 知的ギャップ Narraによると、コアの問題は、AIシステムが非決定主義であることである。同じ入力を2回送信し、技術的に正しいが品質が異なる異なる出力が得られる可能性があります。顧客サービスのAIは一瞬でクエリを素晴らしく解決し、次に一般的で役に立たない応答を与えることができますが、両方の取引は標準的なパフォーマンスモニタリングと同一に見えます。 この変数は、従来のツールが処理するように設計されていないテストの課題を作り出します。反応時間メトリクスは、AIが実際にユーザーの意図を理解したかどうかを明らかにしません。Throughput 番号は、システムが「コンテキストウィンドウ」を通じて燃えていることを示しません。 「我々は負荷の下で知能を測るべき時、速度を測定している」とNarraは主張した。 新たな問題のための新しいメトリック Narraのプレゼンテーションでは、テストフレームワークが現在無視しているいくつかのAI特有のパフォーマンスメトリクスを示した。 Intent resolution time: AI がユーザーが実際に求めているものを特定するのにどれくらいの時間がかかるか、原発反応の遅延とは別に、エージェントは迅速に反応するかもしれないが、そのほとんどの時間を問題について混乱させている。 混乱スコア:反応を生成する際にシステムの不確実性の測定で、負荷下の高い混乱は、しばしばユーザーが気づく品質低下を前にしますが、モニタリングツールはそうではありません。 Token throughput: 1秒あたりのリクエストを測定する代わりに、システムが処理する基本的なテキスト処理ユニットのトークン数を追跡します. Two requests may take the same time but consume wildly different computational resources. コンテキストウィンドウの利用:システムが作業メモリの枯渇にどのくらい近づいているか コンテキスト容量の90%で動作するエージェントは、会話が失敗から回避するが、従来のモニタリングでは警告の兆候は見られない。 劣化値:応答の質が低下し始める負荷レベルで、応答時間が受け入れられるままでも。 伝統的なアプリケーションとは異なり、各リクエストの処理コストはほぼ同じであるが、AIの相互作用は、どの程度の計算的「思考」が起こるかによって、ペニスからドルまで変化することができる。 予測不能のテスト 実用的な課題の一つは、AIシステムのための現実的なテストデータを生成することは、従来のアプリケーションよりもはるかに困難です。ログインテストにはユーザ名とパスワードが必要です。 彼のアプローチは、生産記録から意図パターンを抽出し、プログラム的に変数を生成すること:同義語、リフラッシュ、エッジケース. 目標は、同じクエリを繰り返し再生することなく、規模で人間の予測不可能をシミュレートする合成データセットを作成することです。 「同じ質問の1000枚のコピーでAIをテストすることはできない」と彼は説明した。「システムは、本物の品種とは異なり、繰り返し処理する。 モデルドライブの問題 別の複雑さはNarraが強調した:AIシステムは静的でない。モデルがリトレーニングまたはアップデートされるにつれて、周囲のコードが変わらない場合でもパフォーマンス特性は変化します。先月、1000人の同時ユーザーを快適に扱ったエージェントは、バグではなく、新しいモデルが異なるリソース消費パターンを持っているため、モデルアップデート後に500と戦う可能性があります。 「これは、パフォーマンステストが一度の検証にはなれないことを意味します」とNarra氏は述べた。 彼は、Apache JMeterのような伝統的な負荷テストツールをAI意識の機能で拡張することを説明しました:トークン処理率を測定し、文脈利用を追跡し、負荷下のセマンティック精度を監視するカスタマイズされたプラグイン、速度だけではありません。 「Resilience at the Edge」 プレゼンテーションでは、外部のAPI、推論エンジン、および専門のハードウェアに依存するAIシステムの耐久性テストもカバーし、それぞれが潜在的な故障点である。 AIシステムはしばしば徐々に失敗し、有用から一般的なものに劣化し、技術的に「壊れる」ことなく混乱します。 「最も困難な問題は、すべてのログがうまく見えるものだが、ユーザー体験は恐ろしいものだ」と彼は指摘した。 産業採用に関する質問 これらのアプローチが業界標準になるかどうかは未だに不明であり、AIテスト市場は新しくなっており、ほとんどの組織は依然としてAIの基本的な展開、さらには高度なパフォーマンスエンジニアリングを調べている。 いくつかの専門家は、既存の観測可能なツールは、完全に新しいテストパラダイムを必要とするのではなく、単に新しい測定基準で拡張することができると主張する。 ナラ氏は「ほとんどのチームは、すでに生産に影響を与えるものを配信するまで、これを必要としていることに気づかない」と述べた。 展望前 NarraのTestIstanbulセッションの参加率の高さは、テストコミュニティがAIシステムがどのように機能するかと現在どのように検証されているかとの間のギャップがあることを認識していることを示唆しています。 今のところ、規模でAIを展開するエンジニアリングチームが直面する質問は単純です: 予測できないように設計されたものをどのようにテストするのですか。 Narraによると、答えは、伝統的なメトリックが実際に重要なものをキャプチャしていないことを認め、新しいメトリックを構築することから始まります。