Ne po ndërtojmë sistemet e AI gabimisht. Jo pak e gabuar, fundamentalisht, strukturisht, katastrofikisht e gabuar. Modeli është gjithmonë i njëjtë. Një ekip zbulon magjinë e një Modeli të Gjuhës së Madhe. Ata e mbështjellin atë në një skrip Python. Ata i japin atij qasje në bazën e të dhënave, portën e API-së dhe të dhënat e mbështetjes së klientit. Ata hedhin tre gigabytes të dokumentacionit në dritaren e kontekstit sepse "1 milion token" tingëllon si ruajtje e pafund. Ata e quajnë atë një “agjent”. Në realitet, ata kanë ndërtuar një Agjent Zot. Një monolit, omniscient, blob i pa dalluar i logjikës që përpiqet të jetë CEO, janitor, dhe administratori i bazës së të dhënave në të njëjtën kohë. Dhe dështon Ajo hallucinates. Ajo bëhet e hutuar. Ajo kushton një pasuri në përdorimin e token. vonesa rritet derisa përvoja e përdoruesit ndjehet si duke pritur për një lidhje të thirrjes-up në vitin 1999. Kur ajo thyen (dhe ajo gjithmonë thyen) inxhinierët nuk mund të debug atë sepse logjika nuk është në kodin. Ajo është në një mjegull probabilistik të inxhinierisë së menjëhershme dhe kontaminimit kontekst. Unë kam shpenzuar vitin e fundit duke i thyer këto sisteme. zgjidhja nuk është një urdhër më i mirë. nuk është një model më i madh. zgjidhja është arkitektura. Analiza e plotë teknike me kodin dhe referencat Analiza e plotë teknike me kodin dhe referencat Pse po trajtojmë 1 milion tokenë si RAM të pafund? Ortodoksia aktuale në zhvillimin e AI-së është joshur nga "Miti i Dritares së Kontekstit". Ne kemi shitur një gënjeshtër. Gënjeshtra është se nëse jepni një model konteksti të mjaftueshëm, ai mund të zgjidhë çdo problem. Shitësit shtyjnë "kontekstin e pafund" si tiparin përfundimtar. 128k. 1 milion. 2 milion token. Ndikimi është joshës. Mos u shqetësoni për arkitekturën. Mos u shqetësoni për kurimin e të dhënave. Vetëm hidhni të gjitha në. Kjo ka çuar në ngritjen e paradigmës së Perëndisë Agjent. Në këtë pikëpamje të botës, një "Agjent" është një entitet i veçantë. Ajo mban të gjithë gjendjen e aplikacionit. Ajo ka qasje në çdo mjet në bibliotekë. Kur një përdorues bën një pyetje, Agjenti Hyj merr pyetjen, shikon në kontekstin e saj masiv (i cili përmban të gjithë historinë e universit), dhe përpiqet të arsyetojë rrugën e tij për një përgjigje. Duket si ëndrra sci-fi e një AI të veçantë, të vetëdijshëm. Por në prodhim, kjo është një makth. Ne në fakt po kërkojmë nga një zhvillues i ri që të memorizojë të gjithë bazën e kodit, manualin e kompanisë dhe arkivat ligjore, dhe pastaj i kërkojmë atyre që të rregullojnë një gabim CSS në 30 sekonda. Ata nuk do ta rregullojnë gabimin.Do të kenë një sulm paniku. Pse agjenti im kushton 50 dollarë për të thënë “Unë nuk e di”? Çrregullimet në arkitekturën e God Agent janë të dukshme për këdo që shtyn kodin në prodhim. Sa më shumë informacion që ju jepni, aq më pak vëmendje i kushton modeli bitëve kritike. Kjo nuk është vetëm një ndjenjë. Kjo është një defekt arkitektonik. Hulumtimet tregojnë se modelet luftojnë për të marrë informacion nga mes të konteksteve të gjata. Duke mos kuruar, ne dëmtojmë në mënyrë aktive performancën. Ne krijojmë sisteme ku "zhurma" e dokumentacionit të parëndësishëm tejkalon "signalin" të qëllimit specifik të përdoruesit. 1. Context Pollution (The Needle in the Haystack) Çdo token kushton para. Çdo token merr kohë për të përpunuar. Një agjent i Perëndisë që lexon përsëri një kontekst token 50k për çdo kthesë të bisedës është djegur para. Është kompjuterikisht e humbur. Ne jemi duke drejtuar një super kompjuter për t'iu përgjigjur "po" ose "jo" sepse ne nuk u shqetësuam për të filtruar hyrjet. 2. Latency and Cost Kur një agjent i Zotit dështon, pse dështoi? Ishte ftesë? Hapi i marrjes? Produkti i mjetit? Ose thjesht u shqetësua nga një pjesë e parëndësishme e tekstit nga faqja 405 e dokumentacionit? Ju nuk mund të testoni një ftesë që ndryshon sjelljen e saj bazuar në supën e ndryshueshme të një dritareje kontekstuale masive. 3. The Debugging Black Hole Një agjent i vetëm me qasje në gjithçka është një makth i sigurisë. Nëse injektimi i menjëhershëm funksionon, sulmuesi zotëron kështjellën. Nuk ka bulkheads. Nuk ka "besim zero" sepse arkitektura mbështetet në besimin maksimal në një model probabilistik. 4. The Governance Void A është zgjidhja vetëm microservices (përsëri)? Po, po është Rruga përpara është dhe të . Aggressive Context Curation Agentic Mesh Ne duhet ta zëvendësojmë atë me një rrjet të agjentëve të vegjël, të specializuar, shumë të kufizuar që komunikojnë përmes protokolleve të standardizuara. Në një arkitekturë mesh, asnjë agjent nuk di gjithçka. knows how to classify intent. The Router Agent Agjenti i Mbështetjes e di politikën e kthimit. Agjenti i kodimit e di Python. Agjenti SQL e di skemën e bazës së të dhënave. Ata nuk ndajnë një dritare konteksti, ata ndajnë mesazhe. Kjo është ndryshimi nga një monolit në microservices. Kjo është e vetmja mënyrë për të shkallëzuar kompleksitetin. Kur Agjenti i Mbështetjes është duke punuar, ai nuk ka nevojë të di skemën e bazës së të dhënave. Ai nuk ka nevojë për bibliotekat Python. Konteksti i tij është i paprekur. Ai është kuruar. Le të shohim diferencën në strukturën e kodit. Mënyra e vjetër: Perëndia i shpejtë Kjo është ajo që shumica e njerëzve po shkruajnë sot. # GOD AGENT - ANTI-PATTERN # We dump everything into one system prompt. system_prompt = """ You are an omniscient AI assistant for Acme Corp. You have access to: 1. The User Database (Schema: users, orders, items...) 2. The Codebase (Python, React, TypeScript...) 3. The Company Handbook (HR policies, returns, holidays...) 4. The Marketing Style Guide Instructions: - If the user asks about SQL, write a query. - If the user asks for a refund, check the handbook policy then query the DB. - If the user asks for code, write Python. Current Context: {entire_rag_retrieval_dump} {last_50_messages} """ # Result: The model gets confused. # It tries to apply HR policies to SQL queries. # It hallucinates tables that don't exist. Python Rruga e re: Mesh agjentike Këtu, ne e ndajmë logjikën. Routeri nuk e bën punën. # MESH ARCHITECTURE - PATTERN # Step 1: The Router Agent # Its only job is to classify and route. It has NO domain knowledge. router_prompt = """ You are a routing system. Analyze the user input and route to the correct agent. Available Agents: 1. billing_agent (Refunds, invoices, payments) 2. tech_support_agent (Python, SQL, Bug fixes) 3. general_chat_agent (Casual conversation) Output JSON only: {"target_agent": "name", "reasoning": "string"} """ # Step 2: The Specialist Agent (Billing) # This agent loads ONLY when called. # It has zero knowledge of Python or SQL. billing_agent_prompt = """ You are a Billing Specialist. You handle refunds and invoices. Tools available: [stripe_api, invoice_db] Context: {user_transaction_history_only} {refund_policy_summary} """ Python A e shihni dallimin? nuk mund të hallucinojë sintazin SQL sepse nuk e di se çfarë është SQL. Universi i saj është i vogël. billing_agent Si mund të flasin agjentët pa bërë halucinacione? Unë kam qenë skeptik ndaj kornizave të mëdha teknologjike. ata zakonisht shtojnë bloat. Por Google’s Agent Development Kit (ADK) dhe Agjent-to-Agent (A2A) protokoll janë të ndryshme. Google ka kuptuar se nëse duam që agjentët të punojnë, ata duhet të flasin me njëri-tjetrin si software, jo si chatbots. Protokolli A2A Ky është ndryshimi i lojës. Protokolli A2A është një standard neutral për agjentët për të zbuluar dhe biseduar me njëri-tjetrin. Ajo përdor "Agent Cards". Këto janë skedarë të standardizuar metadata JSON që përshkruajnë se çfarë mund të bëjë një agjent. Mendoni për të kështu: { "agent_id": "billing_specialist_v1", "capabilities": ["process_refund", "check_invoice_status"], "input_schema": { "type": "object", "properties": { "transaction_id": {"type": "string"}, "user_intent": {"type": "string"} } }, "output_schema": { "type": "object", "properties": { "status": {"type": "string", "enum": ["success", "failed"]}, "refund_amount": {"type": "number"} } } } Xhonë Kur një Router Agent duhet të përpunojë një rimbursim, ai nuk përpiqet të hallucinojë thirrjen API. A2A, kalon ngarkesën e përdorshme të strukturuar dhe pret një përgjigje të strukturuar. billing_specialist Kjo është standardizimi. Kjo na lejon të ndërtojmë një ku agjentët nga ekipe të ndryshme, apo edhe kompani të ndryshme, mund të bashkëpunojnë. Agentic Mesh Kjo zgjidh problemin e "ishujve të izoluar". aktualisht, një agjent OpenAI nuk mund të flasë me një agjent Vertex AI. Me A2A, ata ndajnë një protokoll. Çfarë do të thotë në të vërtetë Miratimi i një arkitekturë mesh ndryshon gjithçka rreth mënyrës se si ndërtojmë. Ju nuk mund të kapni logs e një rrjet probabilistik. vëzhgimi tradicionale (logs, metrics, gjurmët) është e pamjaftueshme. Ne duhet të shohim se Pse Routeri i dorëzoi agjentit të faturimit? Pse agjenti i faturimit e refuzoi kërkesën? Ne duhet të gjurmojmë koston dhe vonesën për nod në rrjet. Nëse nuk e keni këtë, ju nuk po ndërtoni një sistem. 1. Observability is Mandatory Agentic Observability zinxhir arsyetimi Në një model të agjentit të Perëndisë, siguria është një ndërrues binar. . The Billing Agent does not trust the Router Agent implicitly. It verifies the payload. It checks the policy. It limits the blast radius. 2. Zero Trust Security Zero Trust Inxhinieria e menjëhershme si një disiplinë e pavarur po vdes. Pushimi është vetëm një konfigurim i funksionit. puna e vërtetë është në logjikën e drejtimit, përkufizimin e skemës dhe strategjinë e kurimit të kontekstit. 3. The End of "Prompt Engineering" System Engineering Ne duhet të bëhemi redaktorë të pamëshirshëm. Qëllimi nuk është të mbushim dritaren e kontekstit. Qëllimi është ta zbrazim atë. Ne duhet të kompresojmë. Ne duhet të përmbledhim. Ne duhet të injektojmë vetëm atë që nevojitet saktësisht për hapin e ardhshëm të menjëhershëm. Nëse një agjent është i ngarkuar me shkrimin e SQL, ai ka nevojë për skemën. Nevojitet deklarata e misionit të kompanisë. 4. Aggressive Context Curation jo (Ajo tingëllon e qartë, por unë e shoh atë të injoruar në 90% të bazave të kodit.) LEXO EDHE: Shpërthimi i plotë teknik LEXO EDHE: Shpërthimi i plotë teknik TL;DR për Scrollers God Agents dështon: Përplasja e dritares kontekstuale çon në konfuzion, kosto të larta dhe debugging të pamundur. Ndarja e shqetësimeve: Ndërtoni agjentë të specializuar (Billing, SQL, Chat) që bëjnë një gjë mirë. Përdorimi i protokolleve: Agjentët duhet të komunikojnë nëpërmjet