Wir bauen AI-Systeme falsch. Nicht leicht falsch: Grundsätzlich, strukturell, katastrophal falsch. Das Muster ist immer dasselbe.Ein Team entdeckt die Magie eines großen Sprachmodells.Sie wickeln es in ein Python-Skript.Sie geben ihm Zugriff auf die Datenbank, das API-Gateway und die Kundensupport-Logs.Sie werfen drei Gigabyte Dokumentation in das Kontextfenster, weil "1 Million Tokens" wie unendliche Speicherung klingen. Sie nennen es „Agent“. Ein monolithisches, allwissendes, undifferenziertes Blob der Logik, das versucht, der CEO, der Janitor und der Datenbankadministrator gleichzeitig zu sein. Und es scheitert. Es halluziniert. Es wird verwirrt. Es kostet ein Vermögen in Token-Nutzung. Die Latenz schrumpft, bis die Benutzererfahrung sich anfühlt, als wartet sie auf eine Anrufverbindung im Jahr 1999. Wenn es bricht (und es bricht immer), können die Ingenieure es nicht debuggen, weil die Logik nicht im Code ist. Ich habe das letzte Jahr damit verbracht, diese Systeme auseinanderzureißen.Die Lösung ist kein besserer Schritt.Es ist kein größeres Modell.Die Lösung ist Architektur. Vollständige technische Analyse mit Code und Benchmarks Vollständige technische Analyse mit Code und Benchmarks Warum behandeln wir 1 Million Token wie Infinite RAM? Die aktuelle Orthodoxie in der KI-Entwicklung wird durch den "Context Window Mythos" verführt. Wir wurden eine Lüge verkauft. Die Lüge ist, dass, wenn Sie einem Modell genügend Kontext geben, es jedes Problem lösen kann. Anbieter drücken "unendlichen Kontext" als das ultimative Feature. 128k. 1 Million. 2 Millionen Token. Die Implikation ist verführerisch. Machen Sie sich keine Sorgen um die Architektur. Machen Sie sich keine Sorgen um die Datenkurierung. Geben Sie einfach alles hinein. Das Modell wird es herausfinden. Dies führte zum Aufstieg des Paradigmas des Gott-Agenten. In dieser Weltanschauung ist ein "Agent" eine einzigartige Entität. Es hält den gesamten Zustand der Anwendung. Es hat Zugang zu jedem Werkzeug in der Bibliothek. Wenn ein Benutzer eine Frage stellt, erhält der Gott-Agent die Abfrage, betrachtet ihren massiven Kontext (der die gesamte Geschichte des Universums enthält) und versucht, seinen Weg zu einer Antwort zu begründen. Es sieht aus wie der Sci-Fi-Traum einer einzigartigen, bewussten KI. Aber in der Produktion ist das ein Albtraum. We are effectively asking a junior developer to memorize the entire codebase, the company handbook, and the legal archives, and then asking them to fix a CSS bug in 30 seconds. Sie werden den Bug nicht beheben. Sie werden eine Panikattacke haben. Warum kostet mein Agent 50 Dollar, um zu sagen "Ich weiß es nicht"? Die Risse in der Gott-Agent-Architektur sind für jeden sichtbar, der den Code in die Produktion drückt. Je mehr Informationen Sie bereitstellen, desto weniger Aufmerksamkeit schenkt das Modell den kritischen Bits. Dies ist nicht nur ein Gefühl. Es ist ein architektonischer Defekt. Forschung zeigt, dass Modelle kämpfen, um Informationen aus der Mitte von langen Kontexten zu holen. Indem wir nicht kurieren, schädigen wir die Leistung aktiv. Wir erstellen Systeme, in denen der "Lärm" der irrelevanten Dokumentation das "Signal" der spezifischen Absicht des Benutzers überwältigt. 1. Context Pollution (The Needle in the Haystack) Jedes Token kostet Geld. Jedes Token braucht Zeit, um es zu verarbeiten. Ein Gottesagent, der für jede Runde des Gesprächs einen Kontext von 50 000 Token erneut liest, verbrennt Bargeld. Es ist computergestützt verschwendet. Wir laufen einen Supercomputer, um "Ja" oder "Nein" zu antworten, weil wir uns nicht darum kümmerten, die Inputs zu filtern. 2. Latency and Cost Wenn ein Gottesagent fehlschlägt, warum ist es fehlgeschlagen? War es die Anweisung? Der Abrufschritt? Die Werkzeugausgabe? Oder wurde es einfach durch ein irrelevantes Stück Text von Seite 405 der Dokumentation abgelenkt? Sie können einen Anruf nicht einheitlich testen, der sein Verhalten basierend auf der variablen Suppe eines massiven Kontextfensters ändert. 3. The Debugging Black Hole Ein einzelner Agent mit Zugang zu allem ist ein Sicherheitsmarathon. Wenn die sofortige Injektion funktioniert, besitzt der Angreifer das Schloss. Es gibt keine Bulkhead. Es gibt kein "Null Vertrauen", weil die Architektur auf maximalem Vertrauen in ein probabilistisches Modell angewiesen ist. 4. The Governance Void Ist die Lösung nur Mikroservices (wieder)? Ja, das ist es. Der Weg vorwärts ist Und die . Aggressive Context Curation Agentic Mesh Wir müssen es durch ein Netzwerk von kleinen, spezialisierten, stark eingeschränkten Agenten ersetzen, die über standardisierte Protokolle kommunizieren. In einer Mesh-Architektur weiß kein einzelner Agent alles. Der Router-Agent weiß, wie er die Absicht klassifiziert. Der Support Agent kennt die Rücksendungspolitik. Der Coding Agent kennt Python. Der SQL-Agent kennt das Datenbank-Schema. Sie teilen kein Kontextfenster, sie teilen Nachrichten. Dies ist der Wechsel von einem Monolith zu Mikroservices. Es ist der einzige Weg, um Komplexität zu skalieren. Wenn der Support-Agent arbeitet, muss er das Datenbank-Schema nicht kennen. Es braucht keine Python-Bibliotheken. Sein Kontext ist unprätentiös. Es ist kuratiert. Schauen wir uns den Unterschied in der Code-Struktur an. Titel: The God Prompt Das ist das, was die meisten Menschen heute schreiben.Es ist ein Chaos. # GOD AGENT - ANTI-PATTERN # We dump everything into one system prompt. system_prompt = """ You are an omniscient AI assistant for Acme Corp. You have access to: 1. The User Database (Schema: users, orders, items...) 2. The Codebase (Python, React, TypeScript...) 3. The Company Handbook (HR policies, returns, holidays...) 4. The Marketing Style Guide Instructions: - If the user asks about SQL, write a query. - If the user asks for a refund, check the handbook policy then query the DB. - If the user asks for code, write Python. Current Context: {entire_rag_retrieval_dump} {last_50_messages} """ # Result: The model gets confused. # It tries to apply HR policies to SQL queries. # It hallucinates tables that don't exist. Python Der neue Weg: Das agentische Mesh Hier teilen wir die Logik.Der Router tut nicht die Arbeit. # MESH ARCHITECTURE - PATTERN # Step 1: The Router Agent # Its only job is to classify and route. It has NO domain knowledge. router_prompt = """ You are a routing system. Analyze the user input and route to the correct agent. Available Agents: 1. billing_agent (Refunds, invoices, payments) 2. tech_support_agent (Python, SQL, Bug fixes) 3. general_chat_agent (Casual conversation) Output JSON only: {"target_agent": "name", "reasoning": "string"} """ # Step 2: The Specialist Agent (Billing) # This agent loads ONLY when called. # It has zero knowledge of Python or SQL. billing_agent_prompt = """ You are a Billing Specialist. You handle refunds and invoices. Tools available: [stripe_api, invoice_db] Context: {user_transaction_history_only} {refund_policy_summary} """ Python Sehen Sie den Unterschied? → Sie können SQL-Syntax nicht halluzinieren, weil sie nicht weiß, was SQL ist. Ihr Universum ist klein. billing_agent Wie sprechen Agenten wirklich ohne Halluzinationen? Ich war skeptisch gegenüber großen tech-frames. sie fügen normalerweise bloat hinzu. ich mag rohen code. Google's Agent Development Kit (ADK) und das Agent-to-Agent-Protokoll (A2A) unterscheiden sich jedoch. Google hat erkannt, dass, wenn wir wollen, dass Agenten arbeiten, sie miteinander wie Software sprechen müssen, nicht wie Chatbots. Das A2A Protokoll This is the game changer. The A2A protocol is a vendor-neutral standard for agents to discover and talk to each other. It uses "Agent Cards". These are standardized JSON metadata files that describe what an agent can do. Denke darüber so nach: { "agent_id": "billing_specialist_v1", "capabilities": ["process_refund", "check_invoice_status"], "input_schema": { "type": "object", "properties": { "transaction_id": {"type": "string"}, "user_intent": {"type": "string"} } }, "output_schema": { "type": "object", "properties": { "status": {"type": "string", "enum": ["success", "failed"]}, "refund_amount": {"type": "number"} } } } JSON Wenn ein Router-Agent eine Rückerstattung verarbeiten muss, versucht er nicht, den API-Anruf zu halluzinieren. , handschlägt über A2A, übergibt die strukturierte Nutzlast und wartet auf eine strukturierte Antwort. billing_specialist Dies ist Standardisierung. Es erlaubt uns, eine wo Agenten aus verschiedenen Teams oder sogar verschiedenen Unternehmen zusammenarbeiten können. Agentic Mesh Derzeit kann ein OpenAI-Agent nicht mit einem Vertex AI-Agent sprechen.Mit A2A teilen sie ein Protokoll. Was das eigentlich bedeutet Die Annahme einer Mesh-Architektur verändert alles, wie wir bauen. Sie können die Protokolle eines probabilistischen Mesh nicht erfassen. Die traditionelle Beobachtbarkeit (Protokolle, Metriken, Spuren) ist unzureichend. Wir müssen sehen, dass die Warum hat der Router den Abrechnungsagent übergeben? Warum hat der Abrechnungsagent die Anfrage abgelehnt? Wir müssen die Kosten und Latenz pro Knoten im Netz nachverfolgen. 1. Observability is Mandatory Agentic Observability Vernunftskette In einem God Agent-Modell ist Sicherheit ein binärer Switch. Der Billing Agent vertraut dem Router Agent nicht implizit. Es überprüft die Nutzlast. Es überprüft die Richtlinie. Es begrenzt den Blastradius. 2. Zero Trust Security Zero Trust Sofort-Ingenieur als eigenständige Disziplin stirbt. es wird durch Die eigentliche Arbeit liegt in der Routing-Logik, der Schema-Definition und der Kontextkurationsstrategie. 3. The End of "Prompt Engineering" System Engineering Wir müssen gnadenlose Redakteure werden. Das Ziel ist es nicht, das Kontextfenster zu füllen. Das Ziel ist es zu leeren. Wir müssen komprimieren. Wir müssen zusammenfassen. Wir müssen nur genau das injizieren, was für den nächsten unmittelbaren Schritt erforderlich ist. Wenn ein Agent mit dem Schreiben von SQL beauftragt wird, braucht es das Schema. Sie benötigen die Firmenmissionserklärung. 4. Aggressive Context Curation nicht (Hört sich offensichtlich an, aber ich sehe es in 90% der Codebasen ignoriert.) Lesen Sie den vollständigen technischen Zusammenbruch → Read the complete technical breakdown → TL;DR For The Scrollers Stuffing the context window leads to confusion, high costs, and impossible debugging. God Agents fail: Trennung von Bedenken: Erstellen Sie spezialisierte Agenten (Billing, SQL, Chat), die eine Sache gut tun. Verwendungsprotokolle: Agenten sollten über