The Email Thread That Broke Production(生産を破った電子メールの糸) シリーズBの法律技術会社は、契約審査のエスカレーションに対処するためにAIエージェントを配置しました。 エージェントは、エッジケースを捕まえ、リスクを示し、正確なガイドラインを提供していました。 Day one: エージェントは、トレードを通して自分自身に矛盾し始めた。 Day three: 信頼して顧客に2週間前に電子メール交換で下された決定に直接反対することを伝えることは、解析できませんでした。 Day seven: 問題はモデルではなかった。 GPT-5 は契約分析で優秀で、クリーンな契約を送信したときの問題は、エージェントが実際に何が起こったかを知らなかったことでした。 会話の歴史を再構築することはできませんでした。 製品のVPが18メールのトレードのメッセージ6で「これを止めよう」と言ったとき、その決定は以前のすべてを置き換えました。 それは「これを見てみよう」後の3日間の沈黙が問題を捨てたことを意味し、解決しなかったことを検出できませんでした。 エージェントは孤立して素晴らしかったし、文脈の中で完全に失われた。 エンタープライズAIを殺す矛盾 以下は、ほとんどのエンタープライズAIプロジェクトが輸送する前に破壊するものです。 あなたのCRMは構造化されています あなたのダッシュボードは構造化されています あなたのタスクリストは構造化されています。 それは、実際の決断が起こる場所ではない。 実際の決定は、47の回答を通じて結論が進化する電子メールのトレードで、誰かが「nvm」と言って3日間の計画を逆転させるスラックの議論で、Googleドキュメントで margins に埋め込まれたコメント戦争で、実際の決定がメッセージ3の11にあり、他のすべてがなぜか理解する必要がある文脈です。 これは混乱的で再発的で、暗示的な意味と明示されていない意図に満ちている。人間は、私たちが自動的に物語の継続性を追跡しているため、それをうまくナビゲートします。私たちはサラが1つのトレードで「私はこれを処理する」と言い、それから関連するトレードで3週間沈黙するとき、私たちが表面に置く必要があるブロッカーがあることを知っています。 AIはこのことを知らない。AIはトークンではなく、物語を見ている。AIはテキストではなく、物語を見ている。 電子メールはAIが死ぬ場所 電子メールは、残酷に価値のある同じ理由で残酷に困難です。 答えには半引用された断片が含まれており、再生的な組み立て構造を作成します。前向きは会話が並列のタイムラインに分割されるトレードフォークを作成します。参加者は中間の文脈に加わりますので、「我々は決定した」とは異なる点で異なるグループを意味します。 トーンはシグナルリスクを変え、3つの「良い響き」の答えに続いて「実際、迅速な質問」は通常、合意が解消されることを意味します。 添付物はビジネス論理を持ちますが、間接的に参照されます。 人々は「11月22日の締め切りで割り当てられたタスク」の代わりに「金曜日に送ります」と言います。 メールはテキストではなく、メールはテキストに囲まれた会話アーキテクチャです。 それを理解するには、会話の論理を再構築する必要があり、単に文を処理するのではなく、それがほとんどのAIが壊れる場所です。 誰もが同じ4つのソリューションを試みて、すべて同じ理由で失敗する。 誰もが最初に試す間違った解決策 Stuffing Everything Into the Prompt シングル 理論:LLMにすべての文脈を与え、それを理解させてください。 結果:遅い、高価な、脆弱な、幻覚の傾向。 LLMsはより多くのトークンで良くなりません - 彼らは溺れてしまいます。 50の電子メールのトレードには、おそらく重要な3つの電子メールと47の会話のバックアップがあります。 モデルは違いを言うことができません。 それはすべてを等しく重み、矛盾によって混乱し、信じられないように聞こえる結論を発明しますが、実際に起こったことは何も反映しません。 RAG(Retrieval Augmented Generation) 理論:関連する電子メールを取得し、セマンティックな検索が残りを処理する。 結果:文書にとっては素晴らしい、会話にとっては恐ろしい。 RAGは、最も関連する5つの電子メールを取得できますが、47番線の回答がトップの結論に矛盾しているとは言い切れません。CFOから「良い響き」が承認を意味することを検出できませんが、インターンから「良い響き」が何の意味もありません。このトレードが3つの並行会話にフォークされ、フォークBでの決定がフォークAでの議論を無効にします。 RAGはあなたにパーツを提供します。あなたは物語を必要とします。それらは同じではありません。 トゥーニング 理論:あなたのコミュニケーションパターンにモデルを訓練する。 結果:より賢いカエル、より良い歴史家ではない。 しかし、それはサラがThread Aで何かを約束し、それからThread Bで同じトピックについて3週間沈黙するとき、あなたが知る必要があるブロッカーがあることをモデルが理解するのを助けることはありません。 あなたは、ライブ、絶えず変化する、数週間にわたる複数の参加者会話を理解するためにあなたの方法を調節することはできません。Fine-tuningはパターンを最適化します。 Custom Classifiersについて やってみた!みんなやってみた! You end up building a zoo of weak micro-detectors: sentiment classifiers, task extractors, decision markers, owner identifiers, deadline parsers, risk signals, tone analyzers. They are individually okay. Together they are fragile, contradictory, and they break the moment someone writes "sure, that works" instead of "approved" or "not sure about this" instead of "I have concerns." 彼らは個別に大丈夫です。 分類者は互いに話し合わない、文脈を共有しない、同じ言葉が誰がそれを言ったか、いつ言ったかによって異なることを意味していることを理解していない、あなたは6ヶ月間、それらを構築し、調節するのに費やし、彼らはまだ重要なものを欠いている:会話の物語の弓。 これらの解決策のいずれも、実際の問題を解決するものではありません。人間のコミュニケーションは明示的なものではありません。 AIは答えに失敗するのではなく、仮定に失敗する。 あなたのチームが先週決めたことをLLMに尋ねる. それはあなたに言えない. 概要が悪いからではなく、何が起こったかを解釈するために必要な仮定を持っていないからです. あなたが正しい仮定を欠いているとき、無害な電子メールは怒っているように見えます。「これを追跡する」ルーチンは、そうでないときに緊急であると表記されます。重大な約束は、それらが偶然の合意として表現されているため、気付かずになります。タスクは静かに滑るので、「私は見る」は、追跡を必要とする柔らかい約束として認識されていません。取引は、エージェントが、具体的な次のステップなしで連続して3つの礼儀正しい電子メールを検出しないために停滞しています。 人間は背景を自然に追跡します。私たちは関係を知っています。我々は歴史を知っています。我々は、この人は常に「ノーを意味するとき」と「ノーを意味するとき」と言い、その人はノーを意味するときに「はい」と言います。 機械は助けを必要とし、具体的には構造を必要とします。 What We Built Instead: A Context Engine(私たちが作ったもの:コンテキストエンジン) 代わりに、私たちは構造化されていないコミュニケーションをモデルに触れる前に構造化されたインテリジェンスに変換するエンジンを構築しました。 それを人間の会話のプロセッサとして考えてください。 Deep Parsing and Reasoning(深いパルシングと理屈) 最初の層は OAuth 同期、リアルタイムの引っ張り、添付リンク、メッセージ正常化を扱っています。 第二の層は、それが困難になる場所です: 結合された回答の解析、前方、インライン引用、参加者の変更、時間の差、参照解像度。誰かが「付属」と言ったとき、システムはどの添付物からどのメッセージがどの時点で送信されたかを知る必要があります。 論理層は、会話をグラフではなくリストとしてモデル化します。各メッセージはノードです。応答はエッジを作成します。前方は新しいサブグラフを作成します。システムは、トレンドではなく静的なラベルとして時間の経過を追跡します。それはコミットメントを追跡し、それらが続いているかどうかを検出します。 それは、トーンが協力から防御へと変化するときを検出します。 それは、誰かが決定を下したときに旗を掲げ、3日後にそれに矛盾します。 それは、タスクが割り当てられるときに気づき、それから静かに落とされます。 それは、所有者とのコミットメント、暗示された期限、および文脈などのタスクを抽出します. It extract decisions as results with history, dissent tracked, follow-through monitored. 「これは正しい」という意味は、誰がそれを言ったか、そしていつ言ったかによって異なることを意味するということを理解しています。 初期エンジニアから2日前に、それは見直しのための旗です。 CTOから3週間のプロジェクトに、それは止めて考え直すことです。 システムは正しく解釈するために役割とタイミングを知る必要があります。 構造化出力 エンジンは、クリーンで予測可能なJSONを返します:タイムスタンプと参加者による決定、所有者と期限付きのタスク、重症度スコアとトレンドのリスク、議論がどのように進化するかを示す感情分析、コミットメントが沈黙したときにブロック。 「来週に再会しよう」と解釈しようとする代わりに、彼らは暗示的な期限と、これは柔らかい延期ではなく、厳しいコミットメントであるという旗を持つ構造化されたタスクを得る。 What We Learned Building It を学ぶ 人々は機械的に読めるパターンで話さない ビジネスコミュニケーションの半分は礼儀正しい曖昧さです。「Got it」、「Works for me」、「Let's revisit this」 明確な約束はありません。すべては何かを意味しますが、それらが意味するものは文献だけでは得られない文脈に依存します。 修正はパターン一致のほうが良いものではありませんでしたが、まず文脈を再構築し、その文脈内のパターンを解釈するシステムを構築していました。 会話は線形ではない、それは木だ。 Reply trees fork. Forwards create alternate timelines. Somebody CCs a new person, and now there are two parallel discussions in what looks like one thread. 誰かが新しい人をCCsし、今や1つのトレードのように見える2つの並列の議論があります。 あなたは、電子メールをリストとして処理することはできません. あなたは、いくつかのルートを持つ方向性アサイクルグラフとして処理し、どの枝がアクティブで、どの枝が捨てられているかを追跡する必要があります。 ・Email Thread Structure(AIが実際に見ているもの) Message 1 ─┐ ├─ Reply 2 ── Reply 4 ── Reply 7 └─ Reply 3 ──┐ ├─ Forwarded Chain → Reply 5 └─ Reply 6 (new participant) ── Reply 8 アクティブブブランド:7、8 見捨て: 5 決定は: 7 (contradicts discussion in branch 3→6) 感情は静的なものではない。 一度の静かなメールは何の意味もありません. 数週間の下向きなトレンドはすべてを意味します。 信号は個々のメッセージに含まれていないが、軌道にあります。3つの「良い響き」のメールと「実際には、迅速な質問」は、取引が解散しているという主要な指標です。 エージェントはストーリーの継続性が欠けているから失敗する これが、AIコピオットが1日目に賢く、10日目に愚かであると感じる理由です。彼らは何が起こったか覚えていません。彼らは決定がどのように進化したかを追跡しません。 この修正は、会話やツールを通じて持続する記憶を構築するものであり、「ここで議論したこと」ではなく、「ここで決めたこと、誰が何にコミットしたこと、何がまだ開かれていること、何が変わったこと、何が捨てられたこと」です。 ストーリーの継続性は、助けるAIと混乱させるAIの違いです。 開発者 Takeaways 会話の構造は複雑すぎて、再発性すぎて、パターン合致には文脈的すぎる。 物語の継続性はトークン数よりも重要です。50件のメールをプロンプトに書き込むと、モデルに文脈ではなく騒音を与え、何が起こったのか、どのような順序で、なぜ重要なのかを知る必要があります。 彼らは、決断の記憶を持たず、約束の追跡を持たず、会話がどのように進化したかについての意識を持たず、最初の日には明るく、10日には不一致になるでしょう。 ボトルネックはモデルではありません。GPT-5は、クリーンで構造化された入力を与えるときの推論で優秀です。 この層はどこかに存在する必要があります。あなたはそれ自身で構築します(数ヶ月の作業、継続的なメンテナンス、無限のエッジケース)またはあなたはすでに処理しているインフラを使用します。 なぜ開発者が気をつけるべきか もしあなたがLangChain、LangGraph、LlamaIndex、またはカスタムエージェントフレームワークを使用して構築している場合、あなたは最終的に同じ壁に打たれる:モデルは原文ではなく構造化された文脈が必要です。 人間のコミュニケーションに触れるすべてのAI製品にはこれが必要です。エスカレーションの歴史を追跡できない顧客サポートAIは役に立たない。契約交渉の歴史を再構築できない法的AIはリスクを評価できない。 すべては構造化された文脈なしで破壊されます.これは欠けている層です。 電子メールが私たちのコア製品であるため、3年かけて構築しました. ほとんどの開発者は3年も持っていません. 彼らはこの層を必要とし、その上に構築することができます。 メールインテリジェンス API 私たちが構築したシステムは、Email Intelligence APIとして利用できます. それは原発の電子メールを取り出し、構造化された、推論の準備のシグナルを返します。 You get back tasks with owners and deadlines, decisions with participants and history, risks scored and tracked over time, sentiment trends, blockers identified when commitments go silent. あなたは所有者と締め切りを含むタスク、参加者と歴史、時間とともに得られたリスク、感情の傾向、コミットメントが沈黙したときに識別されたブロックを受け取ります。 スピードチェーンなし スチッチングRAGの結果なし 6ヶ月間のカスタム分類器の構築なし 開発者は1日未満でそれを統合し、決断抽出とタスク識別の90%以上の精度で毎月数百万の電子メールを処理しています。 あなたが電子メール、チャット、またはドキュメントに触れるAIツールを構築している場合、これはあなた自身で構築したくない層です。 より大きな転換 AIの次の波は、より大きなモデルについてではなく、より良い文脈についてのものになるでしょう。 ほとんどのチームはまだプロンプトを改善しようとしているが、GPT-5 は混乱したメール トレードをまとめるのに 5% 向上させようとしている。 ボトルネックはモデルではありません。ボトルネックはモデルが何が起きているか知らないということです。それはあなたの歴史、あなたの関係、あなたの決定、あなたのコミットメントに盲目です。 文脈はウェブから来ない、文脈はより大きなモデルから来ない、文脈はあなたの仕事から来る――そしてあなたの仕事はAIが助けなしに解析できない非構造化されたコミュニケーションに閉じ込められている。 それを修正し、AIは賢く聞こえなくなり、役に立つようになります。 Email Intelligence API は、iGPT の AI 開発者向けのコンテキスト エンジンの一部です。これがあなたが解決している問題なら、私たちはすでにインフラストラクチャを構築しています。