私は、開発、DevOps、およびデータ操作を通じて12以上のプロダクションAIエージェントシステムを構築しました。これが、自動エージェントに関する現在のハイプが数学的に不可能な理由であり、実際には生産で何が機能するのかです。 「Autonomous AI will transform work」、「Agents are the next frontier」、「The future is agentic」、「Agents are the next frontier」、「Autonomous AI will transform work」、「Agents are the next frontier」、「Agents are the next frontier」、「Agents are the next frontier」、「Agents are the next frontier」、「Agents are the next frontier」、「Agents are the next frontier」、「Agents are the next frontier」、「Agents are the next frontier」「Agents are the next frontier」「Agents are the next frontier」「Agents are the next frontier」「Agents are the next frontier」「Agents are the next frontier」「Agents are the next frontier」「Agents are the next frontier」「Agents are the next frontier」「Agents are the next frontier」 過去1年間にわたって、私はソフトウェア開発のライフサイクル全体を通じて12以上の生産エージェントシステムを構築してきました。 自然言語から機能的な React コンポーネントを作成する UI ジェネレータ、古代のコードベースを近代化するコード再現エージェント、API ドキュメントを自動的に維持するドキュメントジェネレータ、仕様を実装に変換する機能ジェネレータ。 Development agents : 複雑なクエリと移行を処理するデータベース操作エージェント、DevOps自動化AIシステムで、複数のクラウドプロバイダーでインフラストラクチャをコードとして管理します。 Data & Infrastructure agents AI を駆動する CI/CD パイプラインは、リントの問題を修正し、包括的なテスト スイートを生成し、自動的なコードレビューを実行し、適切な記述を含む詳細なトラック リクエストを作成します。 Quality & Process agents これらのシステムは機能します. 彼らは実際の価値を提供します. 彼らは毎日手作業の時間を節約します. それはまさにあなたが2025について聞いていることの多くが「エージェントの年」であると考えている理由は、重要な現実を欠いている。 TL;DR: Three Hard Truths About AI Agents TL;DR:AIエージェントに関する3つの厳しい真実 12以上の生産システムを構築した後、私が学んだことは以下の通りです。 エラー率は複数のステップのワークフローで数倍に増加します。 ステップごとに95%の信頼性 = 20ステップで36%の成功。 コンテキストウィンドウは四角形のトークンコストを生み出します。長い会話は規模面で非常に高価になります。 本当の課題はAI能力ではなく、エージェントが実際に効果的に使用できるツールやフィードバックシステムを設計することです。 誰も話さない数学の現実 すべてのAIエージェント企業が踊っている不快な真実は、エラーの複雑化により、生産規模で数学的に複数のステップの自動ワークフローが不可能になります。 エージェントワークフローの各ステップが95%の信頼性を有する場合、これは現在のLLMにとって楽観的である。 5ステップ = 77%の成功率 10ステップ=59%の成功率 20ステップ = 36%の成功率 生産システムには99.9%+の信頼性が必要です。あなたが奇跡的に99%のステップごとに信頼性を達成しても(誰も持っていない)、あなたはまだ20ステップで82%の成功を得ます。 私のDevOpsエージェントは、実際には20ステップの自律的なワークフローではありませんので正確に機能します。それは明示的なロールバックポイントと人間の確認ゲートを持つ3〜5の独立して検証可能な操作です。 私が構築したすべての成功したエージェントシステムは、同じパターンに従っています:制限された文脈、検証可能な操作、および人間の意思決定ポイント(時には)が重要な交差点にあります。 「The Token Economy That Don't Add Up」 エージェント・エヴァンゲリストが容易に無視するもう一つの数学的現実があります:コンテキストウィンドウは、会話エージェントを経済的に不可能にする平方コストスケーリングを作成します。 以下は、「会話」エージェントを構築するときに実際に起こることです。 新しいインタラクションはすべての以前の文脈を処理する必要があります。 トークンコストのスケールは、会話の長さで四角形 100回の会話は、トークンだけで50〜100ドルかかります。 何千人ものユーザーに倍増し、あなたは持続不可能な経済を見ています。 会話データベースエージェントのプロトタイプを作成するときに私はこのことを苦労した。最初のいくつかのインタラクションは安かった。セッションの50回目のクエリでは、それぞれの応答は、提供した価値よりも複数のドルを費やしていました。 My function generation agent is successful because it is completely stateless: description → function → done. No context to maintain, no conversation to track, no square cost explosion. それは「あなたのコードとチャット」の経験ではなく、特定の問題を効率的に解決する集中的なツールです。 生産における最も成功した「エージェント」は、まったく会話的なものではありません。彼らは、一つのことをうまく行って道から抜け出すスマートで限られたツールです。 ツール・エンジニアリング・リアリティ・ウォール 数学の問題を解決しても、あなたは別の種類の壁に打たれる:エージェントのための生産レベルのツールを構築することは、ほとんどのチームが過小評価する全く異なるエンジニアリング分野です。 ツールの呼び出し自体は、実際には非常に正確です。本当の課題はツールの設計です。すべてのツールは、コンテキストウィンドウを圧倒することなく、適切なフィードバックを提供するために慎重に設計する必要があります。 エージェントは、操作が部分的に成功したかどうかをどのように知るか? トークンを燃やすことなく、複雑な状態の変化をどのように伝達しますか? データベース クエリは 10,000 行を返す可能性がありますが、エージェントは「クエリが成功し、10k の結果が得られ、ここに最初の 5 つがあります。 ツールが失敗したとき、エージェントはどのような情報を回復する必要があるのか? あまりにも少ないし、それが詰まっている; あまりにも多く、あなたは文脈を無駄にします。 互いに影響を与える操作をどのように処理しますか? データベースのトランザクション、ファイルロック、リソース依存。 私のデータベースエージェントは、ツール呼び出しが信頼できないためではなく、AIと効果的にコミュニケーションするツールを設計するために何週間も費やしたため、それぞれのツールは、エージェントが実際に意思決定に使用できる構造化されたフィードバックを返します。 「あなたのAPIを接続するだけで、エージェントがそれを発見する」と約束する企業は、このエンジニアリングの仕事をしていない。彼らはAIインターフェースではなく、ヒューマンインターフェースのようなツールを扱っている。 すべての生産エージェントシステムの汚れた秘密は、AIが仕事の30%をやっているということです。その他の70%はツールエンジニアリングです:フィードバックインターフェイスを設計し、コンテキストを効率的に管理し、部分的な故障を処理し、AIが実際に理解し、使用できる回復メカニズムを構築します。 統合現実チェック しかし、信頼性の問題と経済の問題を解決すると言えば、あなたはまだ現実世界と統合しなければなりません、そして現実世界は混乱です。 Enterprise systems are not clean APIs waiting for AI agents to orchestrate them. They are legacy systems with quirks, partial failure modes, authentication flows that change without notice, rate limits that vary by time of day, and compliance requirements that don't fit cleanly into prompt templates. エンタープライズシステムは、通知なしに変更される認証フロー、日時によって異なる割合の制限、およびコンプライアンス要件です。 私のデータベースエージェントは単に「クエリを自動的に実行する」のではなく、接続集計をナビゲートし、トランザクションのロールバックを処理し、読み込みのみのレプリカを尊重し、クエリのタイムアウトを管理し、監査トレイルのためにすべてをログします。 「あなたのテクノロジースタック全体に統合する自律的なエージェント」を約束する企業は、過剰に楽観的であるか、実際に規模の高い生産システムを構築しようとしなかった。 何が実際に効くのか(そしてなぜ) ソフトウェア開発のライフサイクル全体を通じて十数以上の異なるエージェントシステムを構築した後、私は成功したエージェントがパターンを共有していることを学びました。 My UI generation agent works because humans review every generated interface before deployment. AI handles the complexity of translating natural language into functional React components, but humans make the final decisions about user experience. AIは、自然言語を機能的なReactコンポーネントに翻訳するという複雑さを処理しています。 私のデータベースエージェントは、実行前にすべての破壊的な操作を確認するため機能します. AI は、ビジネス要件を SQL に翻訳する複雑さを処理しますが、人間はデータの完全性をコントロールします。 My function generation agent works because it operates within clearly defined boundaries. Give it a specification, get back a function. 副作用なし、状態管理なし、統合の複雑さなし。 My DevOps オートメーションは、インフラストラクチャとしてのコードを生成し、見直し、バージョンアップし、リボールすることができます。AI は Terraform に要求を翻訳する複雑さを処理しますが、デプロイパイプラインは私たちが信頼することを学んだすべてのセキュリティメカニズムを維持します。 私のCI/CDエージェントは、それぞれの段階に明確な成功基準とリボックメカニズムがあるため機能します。AIはコードの品質を分析し、修正を生成するという複雑さを処理しますが、パイプラインは実際に合併するものについてコントロールを維持します。 AIは複雑さを扱い、人間はコントロールを維持し、伝統的なソフトウェアエンジニアリングは信頼性を扱う。 My Predictions 私の予測 以下は、2025年に誰が戦うかについての私の具体的な予測です。 ベンチャーで資金調達された「完全に自主的なエージェント」のスタートアップ企業は、経済の壁を最初に打つでしょう。 彼らのデモは5ステップワークフローで素晴らしい機能しますが、顧客は数学的に分解する20以上のステッププロセスを要求します。 既存の製品に「AIエージェント」をボルトしたエンタープライズソフトウェア企業は、採用が停滞するだろう。 同時に、優勝者は、人間のコントロールや重要な決定に対する厳格な限界を維持しながら、ハードパーツにAIを使用する制限された、ドメイン特有のツールを構築するチームとなります。 市場は、うまくデモするAIと信頼性の高いAIの違いを学びます。 エージェントアーキテクチャに対する現在のアプローチに賭けているわけではないが、将来はヒューペーが示唆するよりもはるかに価値があると信じている。 正しい道を築く AIエージェントで構築を考えているなら、これらの原則から始めましょう: あなたのエージェントは正確に何ができるのか、そしてそれは人間や決定的なシステムに何を渡しますか? Define clear boundaries. AIがミスを犯すケースの20~40%をどのように処理しますか?あなたのリボックメカニズムは何ですか? Design for failure. それぞれのインタラクションのコストはどれくらいですか、そしてその使用量はどのように拡大しますか? Stateless はしばしば stateful を打つことができます。 Solve the economics. ユーザーは、時々魔法を行うシステムよりも、一貫して動作するツールを信頼します。 Prioritize reliability over autonomy. ハードパーツ(意図を理解し、コンテンツを生成する)のためのAIを使用するが、重要なパーツ(実行、エラー処理、状態管理)のための伝統的なソフトウェアエンジニアリングに頼る。 Build on solid foundations. エージェント革命がやってくるだけでは、2025年に誰もが約束しているようなものには見えません。 The Real Lessons from the Trenches(トランチの真の教訓) 「デモで働く」と「規模で働く」の間の格差は巨大で、業界のほとんどはまだこれを把握している。 同様の問題に取り組んでいる場合は、この会話を継続したいと思います。エージェントの信頼性、コスト最適化、統合の複雑さを取り巻く課題は、まだ明らかな解決策がない魅力的なエンジニアリングの問題です。 私は定期的に、建築決定から私が最初から学んだ落とし穴を回避するまで、これらの正確な課題を巡るチームや企業にアドバイスします。ビルド対購入の決定を評価しているか、エージェントが生産に働いていない理由をデバッグしているか、または単にそれらを実装したいかどうかは、気軽に連絡してください。 より多くの人々がリアルなシステムを構築し、誠実な経験を共有するほど、私たちは実際に何が機能しているかを早く見つけることができます。 これらのテーマのいずれかに深く入り込みたい場合は、 X