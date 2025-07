Vadovas AI inžinieriams ir statybininkams

Paprastai jis prasideda keliomis Python eilutėmis ir ChatGPT API klavišu.





Jūs pridedate keletą konteksto eilučių, paspaudžiate ir stebisi, kad jis apskritai reaguoja. Tada norite, kad jis padarytų kažką naudingo. Tada, patikimai. Tada, be jūsų. Tai yra tada, kai jūs suprantate, kad nebėra tiesiog skambinate LLM. Jūs kuriate agentą.





Aš praleidau praėjusius metus, surinkdamas scenarijus ir apvyniojimus, žongliruodamas LangChain grandines, kurios jaučiasi labiau kaip kortelių namai nei sistemos, ir nuolat stebisi, "Kaip žmonės iš tikrųjų gabena šiuos daiktus?”





Aš persekiojau modelius, kurie teoriškai atrodė elegantiški, bet sugriuvo, kai pasirodė realūs vartotojai. Aš sukūriau agentus, kurie puikiai dirbo nešiojamame kompiuteryje ir nepavyko spektakliškai gamyboje.





Jis nebuvo.





Tai, kas man padėjo, buvo sulėtinti, atsikratyti dalykų ir atkreipti dėmesį į tai, kas iš tikrųjų dirbo po apkrova, o ne tai, kas atrodė protinga "LinkedIn".Šis vadovas yra to sunkiai uždirbto aiškumo distiliavimas.Jei patyrėte panašių iššūkių, tai parašyta jums.





Pagalvokite apie tai kaip apie pragmatišką vadovą, kaip pereiti nuo API apvyniojimo ir grandinių prie stabilių, valdomų, skaluojamų AI sistemų.

1 dalis - gaukite fondą teisingai

Ankstyvieji agento prototipai dažnai susitinka greitai: keletas funkcijų, kai kurie priminimai ir taip, tai veikia.





Galite paklausti: „Jei tai veikia, kodėl komplikuoti dalykus?“





At first, everything feels stable: the agent responds, runs code, and behaves as expected. But the moment you swap the model, restart the system, or add a new interface, things break. The agent becomes unpredictable, unstable, and a pain to debug.





Paprastai problema nėra logika ar raginimai; tai giliauPrastas atminties valdymas, kieto kodavimo reikšmės, jokių seansų atkaklumas arba kietas įvesties taškas.





Šiame skyriuje aptariami keturi pagrindiniai principai, padedantys jums sukurti tvirtą pamatą, pagrindą, kuriame jūsų agentas gali patikimai augti ir plečiasi.





1 - Išorinė valstybė

The Problem:

Jūs negalite tęsti, jei agentas yra nutrauktas, avarijos, laikai išjungti, kas tai yra.

Atkuriamumas: norite atkurti tai, kas atsitiko bandymams ir debuggingui.

Premijos iššūkis: anksčiau ar vėliau norėsite paleisti agentą lygiagrečiai, pavyzdžiui, palyginti parinktis pokalbio viduryje ar šakos logiką (atminties valdymas yra atskira tema, kurią mes greitai apimsime.)





The SolutionPerkelkite visą būseną už agento ribų į duomenų bazę, talpyklą, saugojimo sluoksnį ar net paprastą JSON failą.





Your Checklist:

Agentas prasideda nuo bet kurio žingsnio, naudojant tik session_id ir išorinę būseną (pvz., įrašytą į DB arba JSON).

Galite nutraukti ir iš naujo paleisti agentą bet kuriuo metu (net po kodo pakeitimų) neprarandant pažangos ar pažeidžiant elgesį.

Valstybė yra visiškai serializuojama neprarandant funkcionalumo.

Ta pati būklė gali būti tiekiama keliems agentams, veikiantiems lygiagrečiai pokalbio metu.

2 - Išorinės žinios

The ProblemNet per vieną sesiją jie gali pamiršti, ką jiems pasakėte, sumaišyti pokalbių etapus, prarasti siūlą arba pradėti „užpildyti“ detales, kurios ten nebuvo.

Modelis orientuojasi į pradžią ir pabaigą, praranda svarbias vidurines detales.

More tokens cost more money.

The limit still exists: transformers work with self-attention at O(n²) complexity, so infinite context is impossible.





Tai paveikia sunkiausiai, kai:

Pokalbiai trunka ilgai

Dokumentai yra dideli

Instrukcijos yra sudėtingos





The Solution: Separate “working memory” from “storage”, like in classical computers. Your agent should handle external memory: storing, retrieving, summarizing, and updating knowledge outside the model itself.





Common approaches:

Memory Buffer : stores the last k messages. Quick to prototype, but loses older info and doesn’t scale.

: stores the last k messages. Quick to prototype, but loses older info and doesn’t scale. Apibendrinimo atmintis: suspaudžia istoriją, kad ji labiau tilptų į kontekstą. taupo žetonus, tačiau rizikuoja iškraipyti ir prarasti niuansą.

RAG (Retrieval-Augmented Generation): gauna žinias iš išorinių duomenų bazių. Suskaičiuojamas, šviežias ir patikrinamas, bet sudėtingesnis ir jautrus vėlavimui.

Žinių grafikai: struktūrizuoti ryšiai tarp faktų ir subjektų.Elegantiškas ir paaiškinamas, bet sudėtingas ir didelis barjeras įėjimui.





Your Checklist:

Visa pokalbių istorija saugoma už skambučio ribų ir yra prieinama.

Žinių šaltiniai yra registruojami ir pakartotinai naudojami.

Istorija gali augti neribotą laiką, nepažeidžiant konteksto lango ribų.

3 - Padarykite modelį pakeičiamą

Problem: LLM sparčiai vystosi: „OpenAI“, „Google“, „Anthropic“ ir kiti nuolat atnaujina savo modelius. Kaip inžinieriai, mes norime greitai pasinaudoti šiais patobulinimais.





Solution:

Naudokite model_id parametrą konfigūrose arba aplinkos kintamuosiuose, kad nurodytumėte, kurį modelį naudoti.

Sukurkite abstrakčias sąsajas arba apvyniojimo klases, kurios kalba su modeliais per unifikuotą API.

Pasirinktinai atsargiai taikykite vidinės įrangos sluoksnius (ramybės ateina su kompromisais).





Checklist:

Modelio keitimas nepažeidžia jūsų kodo arba neturi įtakos kitiems komponentams, pvz., Atminčiai, orkestracijai ar įrankiams.

Pridėti naują modelį reiškia tik atnaujinti konfigūraciją ir, jei reikia, pridėti paprastą adapterio sluoksnį.

Modelių keitimas yra greitas ir sklandus - idealiai tinka bet kuriam modeliui arba bent jau lengvai keičiamas modelio šeimoje.

Vienas agentas, daug kanalų

Problem: Net jei jūsų agentas pradeda su viena sąsaja (tarkim, naudotojo sąsaja), vartotojai netrukus norės daugiau būdų bendrauti: „Slack“, „WhatsApp“, SMS, galbūt netgi CLI debuggingui.





Solution: Sukurkite vieningą įvesties sutartį, API arba universalią sąsają, į kurią įeina visi kanalai.





Checklist:

Agentas veikia per CLI, API, UI arba bet kurią kitą sąsają

Visi įvesties kanalai per vieną galinį tašką, parserį ar schemą

Kiekviena sąsaja naudoja tą patį įvesties formatą

Nėra verslo logikos gyvena bet kanalo adapteris

Naujų kanalų pridėjimas reiškia tik adapterio rašymą – jokių pagrindinio agento kodo pakeitimų

2 dalis - Perkelkite už Chatbot režimo ribų

Nors yra tik viena užduotis, viskas yra paprasta, kaip ir AI įtakingiesiems. bet kai tik pridedate įrankius, sprendimų priėmimo logiką ir kelis etapus, agentas virsta netvarka.





Jis praranda pėdsaką, nežino, ką daryti su klaidomis, pamiršta paskambinti tinkamam įrankiui, ir jūs vėl paliekate vieni su žurnalais, kur „gerai, viskas atrodo, kad ten parašyta“.





Siekiant to išvengti, agentas turi aiškų elgesio modelį: ką jis daro, kokius įrankius jis turi, kas priima sprendimus, kaip žmonės įsikiša ir ką daryti, kai kažkas negerai.





Šiame skyriuje aptariami penki pagrindiniai principai, padedantys jums perkelti savo agentą už paprasto pokalbių boto ribų, sukurti nuoseklų elgesio modelį, kuris galėtų patikimai naudoti įrankius, valdyti klaidas ir vykdyti sudėtingas užduotis.





5 - Dizainas įrankių naudojimui

Problem: Tai gali atrodyti akivaizdu, tačiau daugelis agentų vis dar remiasi "Plain Prompting + žalios LLM išvesties analizė." Tai tarsi bandymas išspręsti automobilio variklį atsitiktinai pasukdami varžtus.

Nedidelis formuluotės ar frazės tvarkos pasikeitimas gali sulaužyti jūsų analizę, sukuriant nuolatinę ginklų lenktynes tarp jūsų kodo ir modelio nenuspėjamumo.

Dviprasmiškumas: natūrali kalba yra neaiški. „Paskambinkite Džonui Smitui.“ Kuris Džonas Smitas?

Išlaikymo sudėtingumas: analizuojant kodą tampa sudėtinga ir sunku ištaisyti. kiekvienas naujas agentas „įgūdžiai“ reiškia rašyti daugiau analizavimo taisyklių.

Ribotos galimybės: sunku patikimai skambinti keliais įrankiais arba perduoti sudėtingas duomenų struktūras per paprastą tekstą.





Solution: Leiskite modeliui grąžinti JSON (arba kitą struktūrizuotą formatą) ir leiskite savo sistemai tvarkyti vykdymą.Kąpadaryti, o jūsų kodas rūpinasiKaipTai atsitinka, vykdant teisingą funkciją per gerai apibrėžtą sąsają.





Dauguma paslaugų teikėjų (OpenAI, Google, Anthropic ir kt.) dabar palaikofunction callingarbastructured output:

Jūs apibrėžiate savo įrankius kaip JSON schemas su pavadinimu, aprašymu ir parametrais.

Kiekvieną kartą, kai skambinate modeliui, pateikiate šias įrankių schemas šalia skambučio.

Modelis grąžina JSON, nurodydamas: (1) funkciją skambinti, (2) parametrus pagal schemą

Jūsų kodas patvirtina JSON ir nurodo teisingą funkciją su tais parametrais.

Pasirinktinai funkcijos išeiga gali būti grąžinta į modelį galutiniam atsakymo generavimui.





Important: Įrankių aprašymai yra pakvietimo dalis. Jei jie yra neaiškūs, modelis gali pasirinkti neteisingą įrankį. Ką daryti, jei jūsų modelis nepalaiko funkcijos skambinimo arba norite to išvengti?





Paprašykite modelio pagaminti JSON išvestį per skubią inžineriją ir patvirtinti ją su bibliotekomis, tokiomis kaip Pydantic.





Checklist:

Atsakymai yra griežtai struktūrizuoti (pvz., JSON)

Įrankių sąsajos apibrėžiamos naudojant schemas (JSON Schema arba Pydantic)

Išvestis yra patvirtinama prieš vykdymą

Formato klaidos nepažeidžia sistemos (gražus klaidų tvarkymas)

LLM nusprendžia, kurią funkciją skambinti, kodas tvarko vykdymą

6 – Įveskite kontrolės logiką į kodą

Problem:Dauguma agentų šiandien elgiasi kaip pokalbių robotai: vartotojas kažką sako, agentas atsako.





Su šiuo nustatymu jūsų agentas negali:

Veikti savarankiškai be vartotojo skambučio

Užduočių atlikimas lygiagrečiai

Plan and sequence multiple steps

„Retry“ žengė žingsnius protingai

Work in the background





Jis tampa reaktyvus, o ne aktyvus.What you really want is an agent that thinks like a schedulerVienas, kuris žiūri į darbą, kuris laukia, išsiaiškina, ką daryti toliau, ir juda į priekį, nelaukdamas, kol bus nubaustas.





Tai reiškia, kad jūsų agentas turėtų sugebėti:

Imtis iniciatyvos

Kelių žingsnių grandinė kartu

Atsigauti po nesėkmės

Perjungimas tarp užduočių

Dirbkite, net jei niekas nemato





Solution:Modelis vis dar gali padėti (pavyzdžiui, nuspręsti, kuris žingsnis ateina toliau), tačiau faktinis sekvestracija, retries ir vykdymo logika turėtų gyventi kodą.





This flips your job from prompt engineering to Sistemos dizainas. The model becomes one piece of a broader architecture, not the puppet master.





Pažvelkime į tris būdus, kuriais komandos artėja prie šio pokyčio.





1. Finite State Machine (FSM)

What it is: Break the task into discrete states with defined transitions.

LLM vaidmuo: Veikia vienoje valstybėje arba padeda pasirinkti kitą.

Best for: Linear, predictable flows.

Privalumai: paprastas, stabilus, lengva debug.

Įrankiai: StateFlow, YAML konfigūracijos, klasikinis būsenos modelis koduose.





2. Directed Acyclic Graph (DAG)

Kas tai yra: Atstatyti užduotis kaip grafikas - mazgai yra veiksmai, kraštai yra priklausomybės.

LLM vaidmuo: Veikia kaip mazgas arba padeda generuoti grafiką.

Geriausia: šakos srautai, lygiagrečiai žingsniai.

Pros: Flexible, visual, good for partial recomputation.

Tools: LangGraph, Trellis, LLMCompiler, or DIY with a graph lib.





3. Planner + Executor

Kas tai yra: Vienas agentas (ar modelis) sukuria planą; kiti jį įgyvendina žingsnis po žingsnio.

LLM role: Big model plans, small ones (or code) execute.

Best for: Modular systems, long chains of reasoning.

Pros: Separation of concerns, scalable, cost-efficient.

Įrankiai: LangChain Plan-and-Execute arba savo planuotojo / vykdytojo architektūra.





Why This Matters

Jūs gaunate kontroliuoti agento elgesį

You can retry, debug, and test individual steps

You can scale parts independently or swap models

Jūs padarote dalykus matomus ir atsekamus, o ne nešvarius ir stebuklingus





Checklist

Agentas seka FSM, DAG arba planuotojo struktūrą

LLM suggests actions but doesn’t drive the flow

You can visualize task progression

Klaidų tvarkymas yra supakuotas į srauto logiką

7 — Keep a Human in the Loop

Problem:Net su įrankiais, kontrolės srautu ir struktūrizuotais išėjimais, visiška autonomija vis dar yra mitas.understandJie negali būti laikomi atsakingais, o realiame pasaulyje jie skambins neteisingai (anksčiau ar vėliau).





When agents act alone, you risk:

Negrįžtamos klaidos: įrašų ištrynimas, pranešimas neteisingam asmeniui, pinigų siuntimas į negyvą piniginę.

Atitikties klausimai: politikos, teisės ar pagrindinių socialinių normų pažeidimas.

Keistas elgesys: praleidžiant žingsnius, haliucinuojant veiksmus arba tiesiog darant kažką, ko niekas niekada nepadarytų.

Broken trust : users won’t rely on something that seems out of control.

: users won’t rely on something that seems out of control. No accountability: when it breaks, it’s unclear what went wrong or who owns the mess.





Solution: Bring Humans Into the Loop (HITL)

Elkitės su žmogumi kaip su bendrapilotu, o ne kaip su atsilikimu.Pertraukos,ask, or routeNe viskas turėtų būti visiškai automatizuota. Kartais „Ar esate tikri?“ yra vertingiausia funkcija, kurią galite sukurti.





Ways to Include Humans

Approval gates: Critical or irreversible actions (e.g., sending, deleting, publishing) require explicit human confirmation.

Critical or irreversible actions (e.g., sending, deleting, publishing) require explicit human confirmation. Escalation paths: When the model’s confidence is low or the situation is ambiguous, route to a human for review.

When the model’s confidence is low or the situation is ambiguous, route to a human for review. Interactive correction: Allow users to review and edit model responses before they’re sent.

Allow users to review and edit model responses before they’re sent. Grįžtamojo ryšio grandinės: Užfiksuokite žmogaus grįžtamąją informaciją, kad pagerintumėte agento elgesį ir mokytumėte modelius laikui bėgant (Stiprinimo mokymasis iš žmogaus grįžtamojo ryšio).

Override parinktys: Leiskite žmonėms nutraukti, override arba peradresuoti agento darbo eigą.





Checklist

Sensitive actions are confirmed by a human before execution

There’s a clear path to escalate complex or risky decisions

Users can edit or reject agent outputs before they’re final

Logs and decisions are reviewable for audit and debugging

The agent explains why it made a decision (to the extent possible)

8 — Feed Errors Back into Context

Problem:Dauguma sistemų žlunga arba sustoja, kai įvyksta klaida. autonominiam agentui tai yra negyvas galas. bet aklai ignoruoti klaidas ar haliucinuoti aplink juos yra lygiai taip pat blogai.





What can go wrong:

Brittleness: Any failure, whether an external tool error or unexpected LLM output, can break the entire process.

Any failure, whether an external tool error or unexpected LLM output, can break the entire process. Neefektyvumas: dažnas iš naujo paleidimas ir rankinis laiko ir išteklių švaistymas.

Nėra mokymosi: nesuvokdamas savo klaidų, agentas negali tobulėti ar prisitaikyti.

Halucinacijos: nesusijusios klaidos gali sukelti klaidinančius ar suklastotus atsakymus.





Solution: Treat errors as part of the agent’s context. Include them in prompts or memory so the agent can try self-correction and adapt its behavior.





How it works:

Understand the error: Capture error messages or failure reasons clearly. Savęs ištaisymas: agentas apmąsto klaidą ir bando ją ištaisyti: (1) aptikdamas ir diagnozuodamas problemą, (2) koreguodamas parametrus, perrašydamas užklausas arba perjungdamas įrankius, (3) atnaujindamas veiksmą su pakeitimais. Klaidų kontekstas yra svarbus: Išsami klaidų informacija (pvz., instrukcijos ar paaiškinimai) padeda agentui geriau ištaisyti save. Training for self-correction: Incorporate error-fix examples into model training for improved resilience. Žmogaus eskalavimas: jei savęs korekcija pakartotinai nepavyksta, eskaluokite iki žmogaus (žr. 7 principą).





Checklist:

Errors from previous steps are saved and fed into context

Retry logika įgyvendinama su adaptyviais pakeitimais

Pakartotiniai nesėkmės sukelti atgal į žmogaus peržiūros ar intervencijos

9 – Darbas suskaidytas į mikro-agentus

Problem:Kuo didesnė ir sudėtingesnė užduotis, tuo ilgesnis kontekstinis langas ir tuo labiau tikėtina, kad LLM praranda sklypą.Sudėtingi darbo srautai su dešimtimis žingsnių stumia modelį per savo saldžiąją vietą, dėl to atsiranda painiava, švaistomi žetonai ir mažesnis tikslumas.





Solution: Divide and conquer. Use small, purpose-built agents, each responsible for one clearly defined job. A top-level orchestrator strings them together.





Why small, focused agents work

Manageable context : shorter windows keep the model sharp.

: shorter windows keep the model sharp. Aiški nuosavybė: vienas agentas, viena užduotis, nulis dviprasmiškumo.

Didesnis patikimumas: paprastesni srautai reiškia mažiau prarastų vietų.

Easier testing: you can unit-test each agent in isolation.

you can unit-test each agent in isolation. Faster debugging: when something breaks, you know exactly where to look.





There’s no magic formula for when to split logic; it’s part art, part experience, and the boundary will keep shifting as models improve. A good rule of thumb: if you can’t describe an agent’s job in one or two sentences, it’s probably doing too much.





Checklist

Bendras darbo eiga yra mikro-agentų skambučių serija.

Each agent can be restarted and tested on its own.

Apibrėžimą galite paaiškinti 1-2 sakiniais.

Part 3 – Stabilize Behavior

Dauguma agentų klaidų neatsiranda kaip raudonos klaidos; jie pasirodo kaip keistos išvestys. praleista instrukcija. Pusiau sekamas formatas. Kažkas, kas beveik veikia ... kol jis neveikia.





That’s because LLMs don’t read minds. They read tokens.





Tai, kaip rėmuojate užklausas, ką perduodate į kontekstą ir kaip rašote priminimus, tiesiogiai formuoja rezultatą. Ir bet kokia klaida toje konfigūracijoje tampa nematoma klaida, laukia, kol ji pasirodys vėliau.jei nesate atsargūs, kiekviena sąveika lėtai nukrenta nuo kurso.





This section is about tightening that feedback loop. Prompts aren’t throwaway strings, they’re code. Context isn’t magic, it’s a state you manage explicitly. And clarity isn’t optional, it’s the difference between repeatable behavior and creative nonsense.





10 - Elkitės su „Prompt“ kaip su kodu

Problem:Per daug projektų elgiasi su perspėjimais kaip su vienkartinėmis eilutėmis: griežtai koduojamos „Python“ failuose, išsibarsčiusios visoje kodų bazėje arba neaiškiai išmestos į „Notion“.

Sunku rasti, atnaujinti ar net suprasti, ką daro kiekvienas skambutis

There’s no version control — no way to track what changed, when, or why

Optimization becomes guesswork: no feedback loops, no A/B testing

Ir išspręsti problemą, susijusią su pranešimu, jaučiasi kaip bando išspręsti klaidą komentaruose





Solution: Prompts areJie apibrėžia elgesį. Taigi tvarkykite juos taip, kaip norėtumėte realaus kodo:

Separate them from your logic: store them in txt , .md , .yaml , .json or use template engines like Jinja2 or BAML

from your logic: store them in , , , or use template engines like Jinja2 or BAML Version them with your repo (just like functions)

with your repo (just like functions) Išbandykite juos: (1) vieneto bandymo atsakymai dėl formato, raktinių žodžių, JSON galiojimo, (2) paleiskite vertinimus per skubius pokyčius, (3) naudokite LLM kaip teisėją arba heuristinį įvertinimą, kad išmatuotumėte našumą





Bonus:Jei pakeitimas gali turėti įtakos išvesties elgesiui, jis nusipelno antro akių rinkinio.





Checklist:

Ženklai gyvena už jūsų kodo ribų (ir yra aiškiai pavadinti)

They’re versioned and diffable

Jie yra išbandyti arba įvertinti

Jie eina per peržiūrą, kai tai svarbu

11 - Inžinierius kontekstinis rinkinys

Problem:Mes jau sprendėme LLM užmarštį, iškraunant atmintį ir suskaidydami agentus pagal užduotį.KaipMes formatuojame ir pateikiame informaciją modeliui.





Dauguma nustatymų tiesiog išmeta vaidmenų krūvą: turinio pranešimus į skambučius ir skambina vieną dieną.

Burn tokens on redundant metadata

Sunkiai atstovauja įrankių grandinėms, valstybėms ar daugybei žinių tipų

Nesugebėjimas tinkamai vadovauti modeliui sudėtingose srovėse





Ir vis dėlto mes vis dar tikimės, kad modelis „tik išsiaiškins.“ Tai nėra inžinerija.





Solution: Engineer the context.

Visą įvesties paketą vertinkite kaip kruopščiai suprojektuotą sąsają, nes būtent tai ir yra.









Here’s how:

Valdykite, kas patenka, kaip jis yra užsakytas ir kur jis pasirodo.Viskas nuo sistemos instrukcijų iki paimtų dokumentų iki atminties įrašų turėtų būti tyčinis.

Go beyond chat format : Build richer, denser formats. XML-style blocks, compact schemas, compressed tool traces, even Markdown sections for clarity.

: Build richer, denser formats. XML-style blocks, compact schemas, compressed tool traces, even Markdown sections for clarity. Think holistically: Context = everything the model sees: prompt, task state, prior decisions, tool logs, instructions, even prior outputs. It’s not just “dialogue history.”





Tai ypač svarbu, jei optimizuojate:

Informacijos tankis: daugiau prasmės supakuoti į mažiau žetonų

Išlaidų efektyvumas: didelis našumas esant mažam kontekstui

Saugumas: kontroliuoti ir žymėti tai, ką modelis mato

Error resilience: explicitly signaling edge cases, known issues, or fallback instructions





Bottom line:Pasipriešinimas yra tik pusė mūšio.Context engineeringIr jei dar to nepadarysite, jūs būsite, kai jūsų agentas užaugs.

12 - Pridėti saugos sluoksnius

Net su tvirtais perspėjimais, atmintimi ir kontrolės srautu agentas vis dar gali išeiti iš bėgių.Pagalvokite apie šį principą kaip draudimo politiką prieš blogiausius scenarijus:

Greitas įpurškimas: vartotojai (arba kitos sistemos) slysta instrukcijose, kurios pagrobia agentą.

Slaptų duomenų nutekėjimas: modelis atskleidžia PII ar įmonių paslaptis.

Toksiškas ar kenkėjiškas turinys: nepageidaujama neapykantos kalba, šlamštas ar neleistina medžiaga.

Halucinacijos: pasitikintys, bet klaidingi atsakymai

Veiksmai be apimties: agentas „gauna kūrybiškumą“ ir daro tai, ko niekada neturėtų daryti.





Nėra vieno sprendimo, kuris apimtų visus tuos dalykus.defense-in-depth: kelios apsaugos priemonės, kurios fiksuoja problemas kiekviename užklausos / atsakymo ciklo etape.





Quick Checklist

User input validation is in place (jailbreak phrases, intent check).

is in place (jailbreak phrases, intent check). Faktinių užduočių atveju atsakymai turi būti susiję su RAG kontekstu.

The prompt explicitly tells the model to stick to retrieved facts.

Išėjimo filtras blokuoja PII arba neleistą turinį.

Atsakymai apima citatą / nuorodą į šaltinį.

Agentui ir įrankiams taikomos mažiausios privilegijos.

Kritiniai veiksmai nukreipiami per HITL patvirtinimą ar stebėseną.





Gydykite šiuos sluoksnius kaip standartinius „DevOps“: prisijunkite prie jų, išbandykite juos ir nepavyks saugiai.

4 dalis - išlaikykite darbą po apkrova

Gamyboje nesėkmės retai būna iš karto, ir dažnai jų nepastebi iš karto, kartais visai ne.





This section focuses on building the engineering discipline to monitor your agent continuously, ensuring everything runs smoothly. Nuo žurnalų ir sekimo iki automatizuotų bandymų, ši praktika padeda jūsų agento elgesiui būti aiškiam ir patikimam, nesvarbu, ar jūs aktyviai stebite, ar sutelkiate dėmesį į kitą proveržį.





13 – Sekite visą vykdymo kelią

Problem: Agentai neišvengiamai elgsis netinkamai plėtros, atnaujinimų ar net įprasto veikimo metu. Šių problemų ištaisymas gali užtrukti nesuskaičiuojamas valandas bandant atkurti klaidas ir nustatyti gedimus. Jei jau įgyvendinote pagrindinius principus, tokius kaip būsenos išsaugojimas ir klaidų suspaudimas į kontekstą, jūs esate priekyje.





Solution: Užsirašykite visą kelionę iš vartotojo užklausos per kiekvieną agento sprendimo ir veiksmų proceso žingsnį.





Why this matters:

Debugging: greitai nustatyti, kur ir kodėl viskas nutiko neteisingai.

Analitika: nustatyti spragas ir tobulinimo galimybes.

Kokybės vertinimas: matuoti, kaip pokyčiai veikia elgesį.

Atkuriamumas: tiksliai atkurti bet kurią sesiją.

Auditas: išlaikyti pilną agentų sprendimų ir veiksmų įrašą.





Minimum data to capture

Įvadas: vartotojo užklausos ir parametrai iš ankstesnių žingsnių.

Agent state : Key variables before each step.

: Key variables before each step. Prašymas: Pilnas prašymas, išsiųstas į LLM (sistemos instrukcijos, istorija, kontekstas).

LLM išvestis: žaliavinis atsakas prieš apdorojimą.

Įrankio skambutis: įrankio pavadinimas ir parametrai.

Tool result : Tool output or error.

: Tool output or error. Agent decision : Next steps or responses chosen.

: Next steps or responses chosen. Metadata: Timing, model info, costs, code, and prompt versions.





Jei įmanoma, naudokite esamus sekimo įrankius: LangSmith, Arize, Weights & Biases, OpenTelemetry ir kt. Tačiau pirmiausia įsitikinkite, kad turite pagrindinius dalykus (žr. Principą 15).





Checklist:

Visi žingsniai užfiksuoti išsamiai.

Logs linked by session_id and a step_id .

and a . Sąsaja peržiūrėti visą skambučių grandines.

Gebėjimas visiškai atkurti bet kokį skubėjimą bet kuriuo metu.

14 - Išbandykite kiekvieną pokytį

Problem: Iki šiol jūsų agentas gali jaustis pasiruošęs paleisti: jis veikia, gal netgi tiksliai taip, kaip norėjote. bet kaip galite būti tikri, kad jis toliau veiks po atnaujinimų? Kodo, duomenų rinkinių, bazinių modelių ar priminimų pakeitimai gali tyliai nutraukti esamą logiką arba pabloginti našumą.

Modelio nutekėjimas: našumas laikui bėgant mažėja be kodo pakeitimų dėl modelio ar duomenų pasikeitimų

Greitas trapumas: nedideli greitojo keitimo pokyčiai gali sukelti didelius išėjimo pokyčius

Ne-determinizmas: LLM dažnai duoda skirtingus atsakymus į tą patį įvestį, apsunkindami tikslaus atitikimo testus

Sunku atkurti klaidas: net su fiksuotais įvesties, klaidas gali būti sunku atsekti

Butterfly efektas: kaskadiniai pokyčiai nenuspėjamai įvairiose sistemose

Halucinacijos ir kitos LLM specifinės rizikos





SolutionPriimkite išsamią, daugiasluoksnę bandymų strategiją, apimančią klasikinius programinės įrangos bandymus su LLM orientuota kokybės kontrole:

Daugiasluoksnis bandymas: funkcijų/prompto vieneto bandymai, integracijos bandymai ir pilni galutiniai scenarijai

Dėmesys LLM produkcijos kokybei: aktualumas, nuoseklumas, tikslumas, stilius ir saugumas

Naudokite auksinius duomenų rinkinius su numatomais rezultatais arba priimtinais rezultato diapazonais regresijos patikrinimams

Automatizuokite bandymus ir integruokite juos į CI / CD vamzdynus

Įtraukti žmones į kritinius ar sudėtingus vertinimus (žmogus grandinėje)

Iteratyviai išbandykite ir patobulinkite skambučius prieš diegiant

Testavimas skirtingais lygmenimis: komponentai, skambučiai, grandinės / agentai ir pilni darbo eigos





Checklist:

Logika yra modulinė ir kruopščiai išbandyta atskirai ir kartu

Output quality is evaluated against benchmark data

Bandymai apima bendrus atvejus, krašto atvejus, gedimus ir kenkėjiškus įvestis

Robustness against noisy or adversarial inputs is ensured

Visi pakeitimai praeina automatinius bandymus ir yra stebimi gamyboje, kad būtų galima aptikti nepastebėtas regresijas.

15 - Nuosavas visas stiklas

Šis principas sujungia viską, tai meta taisyklė, kuri eina per visus kitus.





Šiandien yra daugybė įrankių ir sistemų, skirtų beveik bet kuriai užduočiai atlikti, o tai puikiai tinka prototipų kūrimo greičiui ir paprastumui, tačiau tai taip pat yra spąstai.





That’s especially important in agent development, where you need to manage:

Esminis nenuspėjamumas LLMs

Sudėtinga logika, susijusi su perėjimais ir savęs korekcija

Jūsų sistemos poreikis prisitaikyti ir vystytis be pagrindinių užduočių perrašymo





Frameworks often invert controlJie diktuoja, kaip jūsų agentas turėtų elgtis.Tai gali pagreitinti prototipų kūrimą, tačiau ilgalaikę plėtrą sunku valdyti ir pritaikyti.





Tačiau kartais pagrindinės logikos kūrimas aiškiai reikalauja panašių pastangų ir suteikia daug geresnį skaidrumą, kontrolę ir prisitaikomumą.





Kita vertus, visiškai pritaikyti ir perrašyti viską nuo nulio yra pernelyg inžinerinis ir vienodai rizikingas.





Raktas yrabalansas. As an engineer, you consciously decide when to lean on frameworks and when to take full control, fully understanding the trade-offs involved.





Remember: AI įrankių kraštovaizdis vis dar sparčiai vystosi.Daugelis dabartinių įrankių buvo pastatyti prieš standartai buvo įtvirtinti.Jie gali tapti pasenę rytoj - bet architektūriniai pasirinkimai, kuriuos darote dabar, išliks daug ilgiau.

Išvada

LLM agento kūrimas nebėra tik apie API skambinimą, tai yra apie tai, kad būtų sukurta sistema, kuri galėtų susidoroti su realaus pasaulio netvarka: klaidomis, būsenomis, konteksto apribojimais, netikėtais įrašais ir besivystančiais reikalavimais.





15 principų, apie kuriuos mes kalbėjome, nėra teorija, jie yra išbandytos pamokos iš trenčų.Jie padės jums paversti trapius scenarijus į stabilius, išplėstinius ir tvarkomus agentus, kurie nepažeidžia momento, kai pasirodo tikrieji vartotojai.





Kiekvienas principas nusipelno apsvarstyti, ar jis tinka jūsų projektui. Galų gale, tai yra jūsų projektas, jūsų tikslai ir jūsų kūrinys. Bet nepamirškite: LLM yra galingas, bet tai tik viena sudėtingos sistemos dalis. Jūsų darbas kaip inžinierius yra turėti procesą, valdyti sudėtingumą ir išlaikyti visą dalyką sklandžiai.





Jei atsiimsite vieną dalyką, tegul jis būna toks:slow down, build solid foundations, and plan for the long haul. Because that’s the only way to go from “wow, it answered!” to “yeah, it keeps working.”





Tęskite iteracijas, bandymus ir mokymąsi.Ir nepamirškite, kad žmonės grandinėje nėra atgrasymas, jie išlaiko jūsų agentą pagrįstą ir veiksmingą.





Tai ne pabaiga, tai tik pradžia statybos agentų, kurie iš tikrųjų pristatyti.

