Stiamo costruendo sistemi AI sbagliati. Non un po’ sbagliato, fondamentalmente, strutturalmente, catastroficamente sbagliato. Il modello è sempre lo stesso. Un team scopre la magia di un Big Language Model. Lo avvolgono in uno script Python. Gli danno accesso al database, al gateway API e ai log del supporto clienti. Hanno gettato tre gigabyte di documentazione nella finestra di contesto perché "1 milione di token" suona come uno storage infinito. Lo chiamano un “agente”. In realtà, hanno costruito un agente di Dio. un monolitico, onnisciente, blob non differenziato di logica che cerca di essere il CEO, il janitor e l'amministratore del database contemporaneamente. E questo fallisce. Si allucina. Si confonda. Costa una fortuna nell'uso del token. La latenza cresce fino a quando l'esperienza dell'utente si sente come aspettando una connessione di dial-up nel 1999. Quando si rompe (e si rompe sempre) gli ingegneri non possono sbagliarlo perché la logica non è nel codice. È in una nebbia probabilistica di ingegneria prompt e inquinamento contestuale. Ho trascorso l'ultimo anno a rompere questi sistemi.La soluzione non è una prompt migliore.Non è un modello più grande.La soluzione è l'architettura. Analisi tecnica completa con codice e benchmarks → Analisi tecnica completa con codice e benchmarks → Perché stiamo trattando 1 milione di token come Infinite RAM? L'attuale ortodossia nello sviluppo di AI è sedotta dal "mito della finestra di contesto". Siamo stati venduti una bugia. La bugia è che se si dà un modello abbastanza contesto, può risolvere qualsiasi problema. I fornitori spingono "context infinite" come la funzione finale. 128k. 1 milione. 2 milioni di token. L'implicazione è seduttiva. Non preoccuparti dell'architettura. Non preoccuparti della curazione dei dati. Basta buttare tutto in. Il modello lo scoprirà. Questo ha portato all’ascesa del paradigma dell’agente di Dio. In questa visione del mondo, un "agente" è un'entità singolare. Detiene l'intero stato dell'applicazione. Ha accesso a tutti gli strumenti della libreria. Quando un utente pone una domanda, l'agente di Dio riceve la query, guarda il suo enorme contesto (che contiene l'intera storia dell'universo), e cerca di ragionare la sua strada verso una risposta. Sembra il sogno sci-fi di un'IA singolare e consapevole. Ma in produzione, questo è un incubo. Stiamo effettivamente chiedendo a uno sviluppatore junior di memorizzare l'intero codebase, il manuale aziendale e gli archivi legali, e poi chiedendo loro di risolvere un bug CSS in 30 secondi. Non risolveranno il bug, avranno un attacco di panico. Perché il mio agente costa $ 50 per dire 'Non so'? Le crepe nell'architettura di God Agent sono visibili a chiunque spinga il codice alla produzione. Più informazioni fornisci, meno attenzione il modello presta ai bit critici. Questo non è solo un sentimento. Si tratta di un difetto architettonico. La ricerca mostra che i modelli lottano per recuperare le informazioni dal mezzo di contesti lunghi. Non curando, danneggiamo attivamente le prestazioni. Creiamo sistemi in cui il "ruono" della documentazione irrilevante sopporta il "signale" dell'intenzione specifica dell'utente. 1. Context Pollution (The Needle in the Haystack) Ogni token costa denaro. Ogni token richiede tempo per essere elaborato. Un agente di Dio che rilegge un contesto di token da 50k per ogni turno di conversazione sta bruciando denaro. È calcolarmente spregevole. Stiamo eseguendo un supercomputer per rispondere "sì" o "no" perché non ci preoccupiamo di filtrare le entrate. 2. Latency and Cost Quando un agente di Dio fallisce, perché ha fallito? è stato il prompt? il passaggio di recupero? l'output degli strumenti? O è stato semplicemente distratto da un pezzo di testo irrilevante dalla pagina 405 della documentazione? Non è possibile testare un prompt che cambia il suo comportamento sulla base della zuppa variabile di una finestra di contesto massiccia. 3. The Debugging Black Hole Un unico agente con accesso a tutto è un incubo di sicurezza. Se l'iniezione rapida funziona, l'attaccante possiede il castello. Non ci sono capi di massa. Non c'è "fiducia zero" perché l'architettura si basa sulla fiducia massima in un modello probabilistico. 4. The Governance Void La soluzione è solo microservizi (di nuovo)? Sì sì è. Il cammino in avanti è e il . Aggressive Context Curation Agentic Mesh Dobbiamo sostituirlo con una rete di piccoli, specializzati, agenti altamente vincolati che comunicano tramite protocolli standardizzati. In una architettura mesh, nessun singolo agente sa tutto. L'agente del router sa come classificare l'intenzione. L'agente di supporto conosce la politica di ritorno. Il codificatore conosce Python. L'agente SQL conosce lo schema del database. Non condividono una finestra di contesto, condividono messaggi. Questo è il passaggio da un monolitico a microservizi. È l'unico modo per scalare la complessità. Quando l'Agente di supporto funziona, non ha bisogno di conoscere lo schema di database. Non ha bisogno delle librerie Python. Il suo contesto è primitivo. È curato. Vediamo la differenza nella struttura del codice. Titolo originale: The God Prompt Questo è quello che la maggior parte delle persone sta scrivendo oggi. # GOD AGENT - ANTI-PATTERN # We dump everything into one system prompt. system_prompt = """ You are an omniscient AI assistant for Acme Corp. You have access to: 1. The User Database (Schema: users, orders, items...) 2. The Codebase (Python, React, TypeScript...) 3. The Company Handbook (HR policies, returns, holidays...) 4. The Marketing Style Guide Instructions: - If the user asks about SQL, write a query. - If the user asks for a refund, check the handbook policy then query the DB. - If the user asks for code, write Python. Current Context: {entire_rag_retrieval_dump} {last_50_messages} """ # Result: The model gets confused. # It tries to apply HR policies to SQL queries. # It hallucinates tables that don't exist. di Python La nuova via: la rete agenzica Qui, abbiamo diviso la logica. Il router non fa il lavoro. # MESH ARCHITECTURE - PATTERN # Step 1: The Router Agent # Its only job is to classify and route. It has NO domain knowledge. router_prompt = """ You are a routing system. Analyze the user input and route to the correct agent. Available Agents: 1. billing_agent (Refunds, invoices, payments) 2. tech_support_agent (Python, SQL, Bug fixes) 3. general_chat_agent (Casual conversation) Output JSON only: {"target_agent": "name", "reasoning": "string"} """ # Step 2: The Specialist Agent (Billing) # This agent loads ONLY when called. # It has zero knowledge of Python or SQL. billing_agent_prompt = """ You are a Billing Specialist. You handle refunds and invoices. Tools available: [stripe_api, invoice_db] Context: {user_transaction_history_only} {refund_policy_summary} """ di Python Vedi la differenza? → Non è in grado di allucinare la sintassi SQL perché non sa cosa sia SQL. Il suo universo è piccolo. billing_agent Come parlano gli agenti senza allucinazioni? Sono stato scettico nei confronti dei grandi framework tecnologici. Di solito aggiungono il bloat. mi piace il codice crudo. Ma il Kit di sviluppo degli agenti di Google (ADK) e il protocollo Agent-to-Agent (A2A) sono diversi. Google ha capito che se vogliamo che gli agenti lavorino, hanno bisogno di parlare tra loro come software, non come chatbots. Il protocollo A2A Questo è il cambiatore di gioco. Il protocollo A2A è uno standard venditore-neutro per gli agenti per scoprire e parlare l'uno con l'altro. Utilizza "Agent Cards". Questi sono file di metadati JSON standardizzati che descrivono cosa un agente può fare. Pensateci così: { "agent_id": "billing_specialist_v1", "capabilities": ["process_refund", "check_invoice_status"], "input_schema": { "type": "object", "properties": { "transaction_id": {"type": "string"}, "user_intent": {"type": "string"} } }, "output_schema": { "type": "object", "properties": { "status": {"type": "string", "enum": ["success", "failed"]}, "refund_amount": {"type": "number"} } } } di JSON Quando un agente del router ha bisogno di elaborare un rimborso, non cerca di allucinare la chiamata API. , agita le mani tramite A2A, passa il carico utile strutturato, e aspetta una risposta strutturata. billing_specialist Questa è la standardizzazione. ci consente di costruire un dove agenti di diversi team, o anche aziende diverse, possono collaborare. Agentic Mesh Questo risolve il problema delle "isole isolate".Attualmente, un agente OpenAI non può parlare con un agente Vertex AI. Con A2A, condividono un protocollo. Cosa significa in realtà L'adozione di un'architettura a mesh cambia tutto su come costruiamo. La tradizionale osservabilità (log, metriche, tracce) è insufficiente. Abbiamo bisogno di vedere la Perché il router è stato consegnato all'agente di fatturazione? Perché l'agente di fatturazione ha rifiutato la richiesta? Dobbiamo tracciare il costo e la latenza per nodo nella rete. Se non hai questo, non stai costruendo un sistema. stai costruendo un casinò. 1. Observability is Mandatory Agentic Observability Il ragionamento della catena In un modello di God Agent, la sicurezza è uno switch binario. In una mesh, possiamo applicare L'agente di fatturazione non si fida implicitamente dell'agente del router. Verifica il carico utile. Controlla la politica. Limita il raggio di esplosione. 2. Zero Trust Security Zero Trust L'ingegneria rapida come disciplina indipendente sta morendo. Il prompt è solo una configurazione di funzione. Il vero lavoro è nella logica di routing, nella definizione dello schema e nella strategia di curazione del contesto. 3. The End of "Prompt Engineering" System Engineering Dobbiamo diventare editori spietati. L'obiettivo non è riempire la finestra di contesto. L'obiettivo è svuotarlo. Dobbiamo comprimere. Dobbiamo riassumere. Dobbiamo iniettare solo esattamente ciò che è necessario per il prossimo passo immediato. Se un agente è incaricato di scrivere SQL, ha bisogno dello schema. bisogno della dichiarazione di missione dell'azienda. 4. Aggressive Context Curation non (Sona ovvio, ma lo vedo ignorato nel 90% dei codici di base.) Leggi il disastro tecnico completo → Leggi il disastro tecnico completo → TL;DR per gli scrollers God Agents fallisce: la confusione nella finestra di contesto porta alla confusione, al costo elevato e all'impossibilità di eseguire il debug. Separazione delle preoccupazioni: costruire agenti specializzati (Billing, SQL, Chat) che fanno una cosa bene. Protocolli di utilizzo: gli agenti devono comunicare tramite