The Email Thread That Broke Production에 대한 리뷰 보기 B 시리즈 법률 기술 회사는 계약 검토 상승을 처리하기 위해 AI 에이전트를 배치했습니다.이 에이전트는 모든 지원 티켓, 모든 고객 이메일 스레드 및 200 페이지의 지식 기반에 액세스 할 수있었습니다. 에이전트는 가장자리 케이스를 잡고 위험을 표시하고 정확한 지침을 제공했습니다. Day one: 에이전트는 트레드에 걸쳐 자신을 모순하기 시작했다. Day three: 자신있게 고객에게 2 주 전에 이메일 교환에서 내린 결정을 직접 반대하는 것을 말하는 것은 분석 할 수 없었습니다. Day seven: 문제는 모델이 아니 었습니다. GPT-5는 청결한 계약을 제공 할 때 계약 분석에서 훌륭합니다. 문제는 에이전트가 실제로 일어난 일에 대해 아무것도 모른다는 것이 었습니다. 그것은 대화 기록을 재구성 할 수 없었습니다. 그것은 제품의 VP가 18 이메일 스레드의 메시지 6에서 "이것을 멈추자"라고 말했을 때이 결정이 이전에 일어난 모든 것을 대체했다고 말할 수 없었습니다. 그것은 "나는 이것을 살펴 보겠다"고 말한 후 3 일간의 침묵이 문제를 포기하고 해결되지 않았다는 것을 알 수 없었습니다. 에이전트는 고립에서 훌륭했고 맥락에서 완전히 잃어버렸다. Enterprise AI를 죽이는 논란 다음은 그들이 배송하기 전에 대부분의 기업 AI 프로젝트를 깨는 것입니다 : 귀하의 CRM은 구조화되어 있습니다. 귀하의 대시보드는 구조화되어 있습니다. 귀하의 작업 목록은 구조화되어 있습니다. 그 중 어느 것도 실제 결정이 실제로 일어나는 곳이 아닙니다. 진정한 결정은 47 응답을 통해 결론이 진화하는 이메일 스레드에서, 누군가가 "nvm"라고 말하고 3 일간의 계획을 뒤집는 Slack 토론에서, 마진에 묻힌 코멘트 전쟁이있는 Google Docs에서, 실제 결정이 메시지 3에서 11이며 다른 모든 것이 왜 이해해야하는지 이해해야하는 맥락입니다. 이것은 혼란스럽고 반복적이며 암시적인 의미와 명시되지 않은 의도로 가득합니다.인간은 우리가 스토리의 연속성을 자동으로 추적하기 때문에 그것을 잘 탐색합니다.우리는 사라가 하나의 스레드에서 "나는 이것을 처리 할 것"이라고 말한 다음 관련 스레드에서 3 주 동안 침묵 할 때 우리가 표면에 넣어야 할 차단기가 있다는 것을 알고 있습니다. AI는 이것을 알지 못합니다.AI는 토큰을 보지 않고 이야기를 보지 않습니다.It sees text, not story. 이메일은 AI가 죽을 곳입니다. 이메일은 잔인하게 가치있는 것과 같은 이유로 잔인하게 어렵습니다. Replies include half-quoted fragments, creating recursive nested structure. Forwards create thread forks where conversations branch into parallel timelines. Participants join mid-context, so "we decided" means different groups at different points. Tone shifts signal risk, three "sounds good" replies followed by "actually, quick question" usually means a deal is unraveling. Attachments carry business logic but are referenced indirectly. People say "I'll send it Friday" instead of "task assigned with deadline November 22." 이메일은 텍스트가 아닙니다 이메일은 텍스트 주위에 포장 된 대화 아키텍처입니다.Email is conversation architecture wrapped around text. 그것을 이해하는 것은 단순히 문장을 처리하는 것이 아니라 대화 논리를 재구성하는 것이 필요합니다. 그래서 모두가 같은 4 가지 해결책을 시도합니다.그들은 모두 같은 이유로 실패합니다. 잘못된 해결책은 모두가 먼저 시도합니다. Stuffing Everything Into the Prompt 부근의 호텔 이론 : LLM에 모든 맥락을 제공하고 그것을 파악하십시오. 결과 : 느린, 비싼, 연약한, 환각 경향. LLM은 더 많은 토큰으로 더 나아지지 않습니다 - 그들은 익사합니다. 50 이메일 스레드에는 아마도 중요한 3 개의 이메일과 47 개의 대화 스카플링이 있습니다.이 모델은 차이를 말할 수 없습니다.이 모델은 모든 것을 동등하게 무게하고, 모순에 의해 혼란스럽고, 믿을 수있는 결론을 발명하지만 실제로 일어난 것을 반영하지 않습니다. RAG(Retrieval-Augmented Generation) 라인업 이론 : 관련 이메일을 검색하고, 의미적 검색이 나머지를 처리하도록하십시오. 결과 : 문서에 대 한 좋은, 대화에 대 한 끔찍한. RAG는 가장 관련된 5개의 이메일을 검색할 수 있습니다.그러나 라인 47의 응답이 상단의 결론에 반대한다고 말할 수는 없습니다.그것은 CFO에서 "좋은 소리가 들린다"는 것을 감지할 수 없으며, 인턴에서 "좋은 소리가 들린다"는 것을 의미하지는 않습니다.그것은이 스레드가 세 개의 병렬 대화로 변환되고 포크 B의 결정이 포크 A의 토론을 무효화시킨다는 것을 모델링할 수 없습니다. RAG는 당신에게 조각을 제공합니다. 당신은 이야기를 필요로합니다. 그들은 동일하지 않습니다. 좋은 튜닝 이론 : 커뮤니케이션 패턴에 대한 모델을 훈련하십시오. 결과: 더 똑똑한 앵무새, 더 나은 역사가 아니다. 미세 조정은 LLM을 팀의 구문에서 액션 요소를 추출하는 데 더 잘 할 수 있습니다.하지만 모델이 사라가 Thread A에서 무언가를 약속 한 다음 Thread B에서 같은 주제에 대해 3 주 동안 침묵 할 때, 당신이 알아야 할 차단기가 있다는 것을 이해하는 데 도움이되지 않습니다. 당신은 라이브, 끊임없이 변화하는, 여러 참가자 대화를 이해하는 방법을 정의 할 수 없습니다, 주간에 걸쳐 도구를 분할. Custom 클래식 우리는 이것을 시도했습니다.모두가 이것을 시도합니다. 당신은 약한 마이크로 탐지기의 동물원 : 감정 분류기, 작업 추출기, 의사 결정 마커, 소유자 식별기, 마감 시간 분석기, 위험 신호, 톤 분석기. 그들은 개별적으로 괜찮습니다. 분류자는 서로 이야기하지 않는다.그들은 맥락을 공유하지 않는다.그들은 같은 문구가 누가 말하고 언제 말하는지에 따라 다른 것을 의미한다는 것을 이해하지 않는다.당신은 6 개월을 그들을 구축하고 조정하는 데 소비하고 있으며, 그들은 여전히 중요한 것을 놓치고 있습니다 : 대화의 견해 아크. 이러한 솔루션 중 어느 것도 실제 문제를 해결하지 않는다.인간 커뮤니케이션은 명시적이지 않다. AI는 답에 실패하지 않는다, 그것은 가정에 실패한다. 지난 주에 팀이 결정한 것을 LLM에게 물어보십시오.그것은 당신에게 말할 수 없습니다.그것은 요약에 나쁘기 때문이 아니라 일어난 일을 해석하는 데 필요한 가정이 없기 때문입니다. 올바른 가정이 부족할 때, 무해한 이메일은 화가 나게 보입니다. 일상적인 "이것을 추적하는 것"은 그렇지 않을 때 긴급하다고 표시됩니다. 주요 약속은 일상적인 합의로 표현되기 때문에 눈에 띄지 않습니다. 작업은 조용히 흐르기 때문에 "내가 봐"는 추적을 필요로하는 부드러운 약속으로 인식되지 않습니다. 거래는 에이전트가 구체적인 다음 단계가없는 연속으로 세 개의 친절한 이메일을 감지하지 않기 때문에 멈추고 있습니다. 인간은 자연스럽게 배경 이야기를 추적합니다.우리는 관계를 알고 있습니다.우리는 역사를 알고 있습니다.우리는이 사람이 항상 "아니오"라고 말할 때 "그것에 대해 생각해 보자"고 말하고, 그 사람이 "예"라고 말할 때 "예"라고 말한다는 것을 알고 있습니다.우리는 반대에 대한 최근의 무게를 차지합니다.우리는 대개 반응하는 사람이 침묵 할 때 알 수 있습니다. 기계는 도움이 필요합니다.특히, 그들은 구조를 필요로합니다. What We Built Instead : 컨텍스트 엔진 대신, 우리는 구조화되지 않은 통신을 모델에 도달하기 전에 구조화 된 지능으로 변환하는 엔진을 구축했습니다. 그것을 인간 대화를위한 프리프로세서로 생각하십시오. Deep Parsing and Reasoning 부근의 호텔 첫 번째 레이어는 OAuth 동기화, 실시간 끌기, 첨부 링크, 메시지 정상화를 처리합니다. 두 번째 층은 어려움을 겪는 곳입니다 : 삽입 된 응답, 전달, 인라인 인용, 참가자 변경, 시간 간격, 참조 해상도. 누군가가 "보세요"라고 말할 때, 시스템은 어떤 첨부 파일이 어느 메시지에서 어떤 사람이 어느 시점에서 보낸 메시지를 알아야합니다. 논리 레이어는 차트가 아닌 목록으로 대화를 모델링합니다. 각 메시지는 노드입니다. 응답은 가장자리를 만듭니다. 앞으로는 새로운 하위 차트를 만듭니다. 시스템은 트렌드가 아닌 정적 라벨로 시간을 통하여 감정을 추적합니다. 그것은 약속을 추적하고 그들이 계속되는지 여부를 추적합니다. 그것은 톤이 협력에서 방어로 전환되는 경우를 감지합니다. 그것은 누군가가 결정을 내릴 때 깃발을 붙이고 3 일 후에 그것을 반대합니다. 그것은 작업이 할당되었을 때를 알아보고 조용히 떨어졌습니다. 그것은 소유자와의 약속, 암시된 마감일 및 맥락과 같은 작업을 추출합니다.It extracts decisions as outcomes with history, dissent tracked, follow-through monitored. 그것은 "나는 이것이 옳지 않다는 것을 확신하지 않는다"는 것을 이해합니다 누가 그것을 말하고 언제에 따라 다른 것을 의미합니다. 젊은 엔지니어로부터 발사 2 일 전에, 그것은 검토를위한 깃발입니다. CTO에서 3 주 프로젝트로, 그것은 중지하고 다시 생각합니다. 시스템은 제대로 해석하기 위해 역할과 타이밍을 알고 있어야합니다. 구조화된 출력 엔진은 깨끗하고 예측 가능한 JSON을 반환합니다 : 타임스탬프와 참가자, 소유자와 마감일, 심각도 점수와 트렌드의 위험, 토론이 어떻게 진화하는지를 보여주는 감정 분석, 약속이 침묵 할 때 차단자. "다음 주에 다시 방문하자"라는 해석을 시도하는 대신, 그들은 암시적인 마감일과 부드러운 헌신이 아니라 부드러운 지연이라는 깃발을 가진 구조화 된 작업을 얻습니다. 우리가 그것을 구축하는 법을 배웠던 것 People Don't Speak in Machine-Readable Patterns 비즈니스 커뮤니케이션의 절반은 친절한 불확실성입니다. "그것을 얻으십시오." "나를 위해 작동합니다." "이것을 다시 보자." 아무도 명시적 인 약속이 아닙니다. 모든 것이 무언가를 의미하지만 그들이 의미하는 것은 텍스트에서만 얻을 수없는 맥락에 달려 있습니다. 해결책은 더 나은 패턴 일치가 아니 었습니다.이 시스템은 먼저 맥락을 재구성 한 다음 그 맥락 내의 패턴을 해석합니다. 대화는 선형이 아닙니다 그들은 나무입니다 Reply trees fork.Forwards create alternate timelines.Somebody CCs a new person, and now there are two parallel discussions in what looks like one thread. 누군가 CCs 새로운 사람, 그리고 지금은 하나의 스레드처럼 보이는 두 개의 병렬 토론이 있습니다. 당신은 순차적으로 읽지 않고 전체 차트를 재구성해야합니다.당신은 목록으로 이메일을 처리 할 수 없습니다.당신은 여러 뿌리를 가진 방향성 아시클릭 차트로 그것을 처리해야하며, 어떤 지점이 활성화되고 어떤 지점이 포기되는지 추적해야합니다. 이메일 스레드 구조 (AI가 실제로 보는 것) Message 1 ─┐ ├─ Reply 2 ── Reply 4 ── Reply 7 └─ Reply 3 ──┐ ├─ Forwarded Chain → Reply 5 └─ Reply 6 (new participant) ── Reply 8 활성화된 부서: 7, 8 버려진 : 5 7에서 내린 결정 (부문 3→6에서 논의되는 모순) 감정은 정적이 아니다. 한 번의 평온한 이메일은 아무 의미가 없습니다.주간의 하락 추세는 모든 것을 의미합니다. 신호는 개별 메시지에 있지 않습니다 - 그것은 궤도에있다. "좋은 소리가 들린다" 3 개의 이메일은 "실제로, 빠른 질문"이 거래가 해체되고 있다는 선도적 인 지표입니다. 에이전트는 스토리 연속성이 부족하기 때문에 실패합니다. 이런 이유로 인공지능 콜로봇은 첫날에 똑똑하고 열일에 멍청하다고 느끼는데, 무슨 일이 일어났는지 기억하지 못하고, 결정이 어떻게 진화했는지 추적하지 못하며, 모든 대화가 더 큰 이야기의 일부가 될 때 모든 대화를 고립적으로 취급한다. 해결책은 대화와 도구를 통해 지속되는 기억을 구축하는 것이 었습니다. "이것은 우리가 논의 한 것뿐만 아니라"이것은 우리가 결정한 것, 누가 무엇에 헌신했는지, 무엇이 여전히 열려있는지, 무엇이 바뀌었는지, 무엇이 떨어졌는지입니다." 스토리 연속성은 도움이되는 AI와 혼란스러운 AI의 차이입니다. 개발자 Takeaways 통화 구조는 너무 복잡하고, 너무 반복적이며, 패턴 일치하기에 너무 컨텍스트적입니다.You need graph reconstruction. 토큰을 계산하는 것보다 이야기를 계속하는 것이 더 중요합니다.50개의 이메일을 인스턴트로 삽입하면 모델의 소음이 아니라 맥락이 필요합니다.그것은 무슨 일이 일어났는지, 어떤 순서로 그리고 왜 중요한지 알아야합니다. 그들은 결정을 기억하지 않고, 약속을 추적하지 않으며, 대화가 어떻게 진화했는지에 대한 인식이 없기 때문에 첫날에 훌륭하고 열일에 부합하지 않을 것입니다. bottleneck는 모델이 아닙니다.GPT-5는 깨끗하고 구조화 된 입력을 제공 할 때 추론에 탁월합니다.The bottleneck is turning unstructured communication into that input. 이 레이어는 어딘가에 존재해야합니다.당신은 그것을 직접 구축합니다 (작업의 몇 달, 지속적인 유지 보수, 끝없는 가장자리 케이스) 또는 당신은 이미 그것을 처리하는 인프라를 사용합니다. 개발자가 관심을 가져야 하는 이유 LangChain, LangGraph, LlamaIndex 또는 사용자 지정 에이전트 프레임워크를 사용하여 구축하는 경우 마침내 동일한 벽을 만난다: 모델은 원본 텍스트가 아닌 구조화 된 맥락이 필요합니다.You can chain prompts and implement sophisticated RAG pipelines, but none of that solves reconstructing narrative from unstructured communication. 인간 커뮤니케이션에 영향을 미치는 모든 AI 제품은 이것을 필요로합니다.고객 지원 인공지능은 상승 기록을 추적할 수 없습니다.약관 협상 역사를 재구성할 수없는 법적 인공지능은 위험을 평가할 수 없습니다.매매 인공지능은 거래가 멈추는 것을 감지할 수 없습니다. 모든 것이 구조화 된 맥락없이 깨집니다.이것은 놓친 층입니다. 우리는 이메일이 우리의 핵심 제품이기 때문에 3 년을 보냈습니다. 대부분의 개발자는 3 년이 없습니다. 이메일 인텔리전스 API 우리가 구축한 시스템은 이메일 인텔리전스 API로 사용할 수 있습니다.It takes raw email and returns structured, reasoning-ready signals. 당신은 소유자와 마감일, 참가자와 역사와의 결정을, 시간에 따라 점수 및 추적 된 위험, 감정 동향, 약속이 침묵 할 때 식별 된 차단자를 얻습니다. 신속한 체인은 없습니다. RAG 결과를 묶지 않습니다. 6 개월 동안 사용자 정의 분류기를 구축하지 않습니다. 개발자들은 하루 미만에 그것을 통합합니다.그것은 결정 추출 및 작업 식별에 90% 이상의 정확성으로 매월 수백만 개의 이메일을 처리합니다. 이메일, 채팅 또는 문서를 만지는 AI 도구를 구축하고 있다면, 이것은 당신이 스스로 구축하고 싶지 않은 레이어입니다. 더 큰 변화 AI의 다음 파는 더 큰 모델에 관한 것이 아니라 더 나은 맥락에 관한 것입니다. 대부분의 팀은 여전히 GPT-5가 혼란스러운 이메일 스레드를 요약할 때 5 % 더 나은 GPT-5를 얻으려고 시도하고 있습니다. bottleneck는 모델이 아닙니다. bottleneck는 모델이 무슨 일이 일어나고 있는지 모른다는 것입니다. 그것은 당신의 역사를, 당신의 관계, 당신의 결정을, 당신의 약속에 눈먼 것입니다. 그것은 그것이 필요로 할 때 텍스트를 분석합니다. 컨텍스트는 웹에서 나오지 않습니다. 컨텍스트는 더 큰 모델에서 나오지 않습니다. 컨텍스트는 당신의 작품에서 나옵니다 - 그리고 당신의 작품은 AI가 도움없이 분석 할 수없는 구조화되지 않은 커뮤니케이션에 갇혀 있습니다. 그것을 고치면 AI가 똑똑한 소리를 멈추고 유용해지기 시작합니다. Email Intelligence API는 AI 개발자를위한 iGPT의 컨텍스트 엔진의 일부입니다.이 문제를 해결하고 있다면, 우리는 이미 인프라를 구축했습니다.