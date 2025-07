En guide til AI-ingeniører og bygherrer

Det starter normalt med et par linjer af Python og en ChatGPT API-nøgle.





Du tilføjer et par linjer af kontekst, hit run, og undre sig over, at det reagerer overhovedet. Så vil du have det til at gøre noget nyttigt. Så, pålideligt. Så, uden dig. Det er, når du indser, at du ikke længere bare kalder en LLM. Du bygger en agent.





Jeg brugte det sidste år på at samle scripts og emballager, jiggling LangChain kæder, der føltes mere som et hus af kort end systemer, og konstant spekulerer, "Hvordan skibsfartøjer folk egentlig disse ting?”





Jeg jagede mønstre, der så elegant ud i teorien, men kollapsede, da rigtige brugere dukkede op. Jeg byggede agenter, der fungerede perfekt i en notesbog og mislykkedes spektakulært i produktionen.





Det gjorde det ikke.





Det, der hjalp mig, var at bremse ned, fjerne ting tilbage og være opmærksom på, hvad der rent faktisk fungerede under belastning, ikke hvad der så klogt ud på LinkedIn.Denne guide er en destillation af den hårdt tjente klarhed. If you’ve been through similar challenges, it’s written for you.





Tænk på det som en pragmatisk guide til at flytte fra API-emballage og kæder til stabile, kontrollerbare, skalerbare AI-systemer.

Del 1 - Få fundamentet rigtigt

Tidlige agentprototyper kommer ofte sammen hurtigt: et par funktioner, nogle opfordringer, og ja, det virker.





Du kan spørge: "Hvis det virker, hvorfor komplicere tingene?"





I starten føles alt stabilt: agenten reagerer, kører kode og opfører sig som forventet. Men det øjeblik du bytter modellen, genstarter systemet eller tilføjer en ny grænseflade, går tingene galt. agenten bliver uforudsigelig, ustabil og en smerte at debugge.





Normalt er problemet ikke logikken eller opfordringerne; det er dybereDårlig hukommelsesstyring, hardcodede værdier, ingen session vedholdenhed eller et stivt indgangspunkt.





Denne sektion dækker fire nøgleprincipper, der hjælper dig med at skabe et solidt fundament, en base, hvor din agent kan vokse og skalere pålideligt.





1 - Udenlandske virksomheder

The Problem:

Du kan ikke genoptage, hvis agenten bliver afbrudt, nedbrud, timer ud, hvad som helst.

Reproducerbarhed: Du vil gentage, hvad der skete til test og debugging.

Bonus udfordring: Før eller senere vil du gerne køre dele af agenten parallelt, som at sammenligne muligheder midt i samtalen eller grene logik (Memory management er et separat emne, vi vil dække snart.)





The SolutionFlyt alle tilstande uden for agenten, til en database, cache, lagringsniveau eller endda en simpel JSON-fil.





Your Checklist:

Agent starter fra et hvilket som helst trin ved hjælp af kun en session_id og ekstern tilstand (f.eks. gemt i en DB eller JSON).

Du kan afbryde og genstarte agenten når som helst (selv efter kodeændringer) uden at miste fremskridt eller bryde adfærd.

Staten er fuldt serialiserbar uden at miste funktionalitet.

Den samme tilstand kan føres til flere agentinstanser, der kører parallelt under en samtale.

2 – Outsourcing af viden

The Problem: LLMs don’t actually remember. Even in one session, they can forget what you told them, mix up conversation stages, lose the thread, or start “filling in” details that weren’t there. Sure, context windows are getting bigger (8k, 16k, 128k tokens) but problems remain:

Modellen fokuserer på begyndelsen og slutningen og mister vigtige mellemliggende detaljer.

Flere tokens koster flere penge.

Grænsen eksisterer stadig: Transformere arbejder med selvopmærksomhed ved O(n2) kompleksitet, så uendelig kontekst er umulig.





Det rammer hårdest, når:

Samtaler er lange

Dokumenterne er store

Instruktioner er komplekse





The SolutionDine agenter skal håndtere ekstern hukommelse: lagring, hentning, opsummering og opdatering af viden uden for selve modellen.





Common approaches:

Memory Buffer: Gemmer de sidste k-meddelelser. Hurtigt at prototype, men mister ældre oplysninger og skalerer ikke.

Summarization Memory: komprimerer historien for at passe mere ind i konteksten. sparer tokens, men risikerer forvrængning og tab af nuance.

RAG (Retrieval-Augmented Generation): Henter viden fra eksterne databaser. Skalerbar, frisk og verificerbar, men mere kompleks og latensfølsom.

Knowledge Graphs: Strukturerede forbindelser mellem fakta og enheder. Elegant og forklarbar, men kompleks og høj barriere for adgang.





Your Checklist:

Hele samtalehistorikken gemmes uden for promptet og er tilgængelig.

Knowledge sources are logged and reusable.

Historien kan vokse på ubestemt tid uden at ramme kontekstvindue grænser.

3 - Gør modellen swappable

Problem: LLM'er udvikler sig hurtigt: OpenAI, Google, Anthropic og andre opdaterer konstant deres modeller. Som ingeniører ønsker vi at udnytte disse forbedringer hurtigt. Din agent skal skifte mellem modeller nemt, enten for bedre ydeevne eller lavere omkostninger.





Solution:

Brug en model_id-parameter i konfigurationer eller miljøvariabler til at angive, hvilken model der skal bruges.

Opbyg abstrakte grænseflader eller emballageklasser, der taler til modeller gennem et forenet API.

Valgfrit, anvende middleware lag med omhu (frameworks kommer med kompromisser).





Checklist:

Ændring af modellen bryder ikke din kode eller påvirker andre komponenter som hukommelse, orkestrering eller værktøjer.

Tilføjelse af en ny model betyder blot at opdatere konfigurationen og om nødvendigt tilføje et simpelt adapterlag.

Skiftmodeller er hurtige og sømløse – ideelt understøtter enhver model, eller i det mindste nemt at skifte inden for en modelfamilie.

4 - En agent, mange kanaler

ProblemSelv hvis din agent starter med en enkelt grænseflade (for eksempel et brugergrænseflade), vil brugerne snart have flere måder at interagere på: Slack, WhatsApp, SMS, måske endda en CLI til debugging.





SolutionOpret en fælles inputkontrakt, et API eller en universel grænseflade, som alle kanaler føder ind. Hold kanal-specifik logik adskilt fra agentens kerne.





Checklist:

Agent works via CLI, API, UI, or any other interface

All inputs funnel through a single endpoint, parser, or schema

Alle grænseflader bruger det samme inputformat

Ingen forretningslogik lever inde i nogen kanaladapter

Tilføjelse af nye kanaler betyder blot at skrive en adapter - ingen ændringer til kernekode

Del 2 – Flyt ud over chatbot-tilstand

Mens der kun er én opgave, er alting simpelt, som i AI-influencers' indlæg.Men så snart du tilføjer værktøjer, beslutningstagningslogik og flere trin, bliver agenten til et rod.





Det mister sporet, ved ikke, hvad man skal gøre med fejl, glemmer at ringe til det rigtige værktøj, og du er tilbage alene igen med logs, hvor "ja, alt synes at være skrevet der."





For at undgå dette har agenten brug for en klar adfærdsmodel: hvad den gør, hvilke værktøjer den har, hvem der træffer beslutninger, hvordan mennesker griber ind, og hvad man skal gøre, når noget går galt.





Denne sektion dækker fem nøgleprincipper, der hjælper dig med at flytte din agent ud over en simpel chatbot, opbygge en sammenhængende adfærdsmodel, der pålideligt kan bruge værktøjer, styre fejl og udføre komplekse opgaver.





5 - Design til brug af værktøj

Problem: Det kan lyde indlysende, men mange agenter er stadig afhængige af "Plain Prompting + rå LLM output parsing." Det er som at forsøge at reparere en bilmotor ved tilfældigt at dreje bolte.

Brittleness: En lille ændring i ordlyd eller sætningsorden kan bryde din analysering, hvilket skaber et konstant våbenkapløb mellem din kode og modelens uforudsigelighed.

Tvetydighed: Det naturlige sprog er vagt. ”Kald John Smith.”

Vedligeholdelseskompleksitet: Parsing-kode bliver forvirret og svært at debugge. Hver ny agent "færdighed" betyder at skrive flere parsing-regler.

Begrænsede muligheder: Det er svært at pålideligt kalde flere værktøjer eller passere komplekse datastrukturer via simpel tekst.





SolutionLad modellen returnere JSON (eller et andet struktureret format), og lad dit system håndtere udførelsen.Hvadat gøre, og din kode tager sig afHvordanDet sker ved at udføre den rigtige funktion gennem et veldefineret interface.





De fleste udbydere (OpenAI, Google, Anthropic osv.) understøtter nufunction calling or structured output:

Du definerer dine værktøjer som JSON-skemaer med et navn, en beskrivelse og parametre.

Hver gang du ringer til modellen, giver du den disse værktøjsordninger ved siden af promptet.

Modellen returnerer JSON, der angiver: (1) den funktion, der skal kaldes, (2) Parametre efter skemaet

Din kode validerer JSON og påberåber den korrekte funktion med disse parametre.

Alternativt kan funktionens output føres tilbage til modellen for endelig responsgenerering.





ImportantVærktøjsbeskrivelser er en del af opfordringen. Hvis de er uklare, kan modellen vælge det forkerte værktøj. Hvad hvis modellen ikke understøtter funktionsopkald, eller du vil undgå det?





Bed modellen om at producere JSON-udgang via prompt engineering og validere det med biblioteker som Pydantic. Dette fungerer godt, men kræver omhyggelig formatering og fejlhåndtering.





Checklist:

Svarene er strengt strukturerede (f.eks. JSON)

Værktøjsgrænseflader defineres med skemaer (JSON Schema eller Pydantic)

Produktet valideres før eksekvering

Fejl i formatet styrter ikke systemet (graceful fejlhåndtering)

LLM beslutter hvilken funktion at kalde, kode håndterer udførelse

6 — Put Control Logic in Code

Problem:De fleste agenter i dag opfører sig som chatbots: brugeren siger noget, agenten svarer.





Med denne indstilling kan din agent ikke:

Handle på egen hånd uden en bruger prompt

Udfør opgaver parallelt

Plan og rækkefølge i flere trin

Retry failed steps intelligently

Arbejde i baggrunden





Det bliver reaktivt i stedet for proaktivt.What you really want is an agent that thinks like a schedulerEn, der ser på det arbejde, der ligger foran, finder ud af, hvad der skal gøres næste gang, og bevæger sig fremad uden at vente på at blive ramt.





Det betyder, at din agent skal kunne:

Tag initiativ

En kæde af flere trin sammen

Genopretning fra fiasko

Skift mellem opgaver

Fortsæt med at arbejde, selv når ingen ser





Solution: Move the control flow out of the LLM and into your system. The model can still help (e.g., decide which step comes next), but the actual sequencing, retries, and execution logic should live in code.





This flips your job from Hurtig ingeniørarbejde to system designModellen bliver et stykke af en bredere arkitektur, ikke dukkemesteren.





Lad os opdele tre måder, hvorpå hold nærmer sig denne skift.





1. Finite State Machine (FSM)

What it is: Break the task into discrete states with defined transitions.

LLM rolle: Handler inden for en stat eller hjælper med at vælge den næste.

Bedst for: Lineære, forudsigelige strømninger.

Pros: Simple, stable, easy to debug.

Værktøjer: StateFlow, YAML-konfigurationer, klassiske statusmønstre i kode.





2. Directed Acyclic Graph (DAG)

Repræsenter opgaver som et diagram - knuder er handlinger, kanter er afhængigheder.

LLM rolle: Handler som en node eller hjælper med at generere diagrammet.

Bedst til: Branching flow, parallelle trin.

Pros: Flexible, visual, good for partial recomputation.

Værktøjer: LangGraph, Trellis, LLMCompiler eller DIY med en graf lib.





3. Planner + Executor

What it is: One agent (or model) builds the plan; others execute it step by step.

LLM rolle: Big model planer, små dem (eller kode) udføre.

Best for: Modular systems, long chains of reasoning.

Pros: Separation of concerns, scalable, cost-efficient.

Værktøjer: LangChains Plan-and-Execute eller din egen planlægger/eksekutorarkitektur.





Why This Matters

Du får kontrol over agentens adfærd

Du kan redigere, debugge og teste individuelle trin

Du kan skalere dele uafhængigt eller bytte modeller

You make things visible and traceable instead of opaque and magical





Checklist

Agent følger FSM, DAG eller planner struktur

LLM foreslår handlinger, men driver ikke strømmen

Du kan visualisere opgaveprocessen

Error handling is baked into the flow logic

7 - Hold et menneske i løb

Problem:Selv med værktøjer, kontrolflow og strukturerede outputs er fuld autonomi stadig en myte.ForstårDe kan ikke holdes ansvarlige, og i den virkelige verden vil de foretage det forkerte opkald (før eller senere).





When agents act alone, you risk:

Irreversible fejl: sletning af poster, besked til den forkerte person, at sende penge til en død tegnebog.

Overensstemmelsesspørgsmål: Overtrædelse af politik, lovgivning eller grundlæggende sociale normer.

Mærkeligt adfærd: hoppe trin, hallucinere handlinger, eller bare gøre noget, ingen menneske nogensinde ville.

Brudt tillid: Brugere vil ikke stole på noget, der synes at være ude af kontrol.

No accountability: when it breaks, it’s unclear what went wrong or who owns the mess.





Solution: Bring Humans Into the Loop (HITL)

Treat the human as a co-pilot, not a fallback. Design your system to pause, ask, or route decisions to a person when needed. Not everything should be fully automatic. Sometimes, “Are you sure?” is the most valuable feature you can build.





Ways to Include Humans

Approval gates: Critical or irreversible actions (e.g., sending, deleting, publishing) require explicit human confirmation.

Critical or irreversible actions (e.g., sending, deleting, publishing) require explicit human confirmation. Escalationsveje: Når modelens tillid er lav eller situationen er tvetydig, rute til et menneske til gennemgang.

Interactive correction: Allow users to review and edit model responses before they’re sent.

Allow users to review and edit model responses before they’re sent. Feedback loops: Fang menneskelig feedback for at forbedre agentadfærd og træne modeller over tid (Reinforcement Learning from Human Feedback).

Override options: Enable humans to interrupt, override, or re-route the agent’s workflow.





Checklist

Følsomme handlinger bekræftes af et menneske før henrettelse

Der er en klar vej til eskalering af komplekse eller risikable beslutninger

Brugere kan redigere eller afvise agentudgange, før de er endelige

Logs og beslutninger kan gennemgås til revision og debugging

The agent explains why it made a decision (to the extent possible)

8 - Feed fejl tilbage i kontekst

Problem:De fleste systemer styrter ned eller stopper, når der sker en fejl.For en autonom agent er det en død ende.





What can go wrong:

Brittleness: Enhver fiasko, hvad enten det er en ekstern værktøjsfejl eller en uventet LLM-udgang, kan forstyrre hele processen.

Ineffektivitet: Hyppige genstart og manuel reparation af spild af tid og ressourcer.

Ingen læring: Uden bevidsthed om sine egne fejl, kan agenten ikke forbedre eller tilpasse sig.

Hallucinations: Errors unaddressed can lead to misleading or fabricated responses.





Solution:Behandl fejl som en del af agentens kontekst.Inkludér dem i opfordringer eller hukommelse, så agenten kan prøve selvkorrektion og tilpasse sin adfærd.





How it works:

Forstå fejlen: Fang fejlmeddelelser eller fejlårsager klart. Agent reflekterer over fejlen og forsøger at rette den ved: (1) at opdage og diagnosticere problemet, (2) at justere parametre, omformulere anmodninger eller skifte værktøjer, (3) at gentage handlingen med ændringer. Error context matters: Detailed error info (like instructions or explanations) helps the agent correct itself better. Even simple error logs improve performance. Træning til selvkorrektion: Indarbejde eksempler på fejlfinding i modeltræning for forbedret modstandsdygtighed. Menneskelig eskalering: Hvis selvkorrektion gentagne gange fejler, skal man eskalere til et menneske (se Princip 7).





Checklist:

Fejl fra tidligere trin gemmes og føres i kontekst

Retry logic is implemented with adaptive changes

Gentagne fiaskoer udløser en tilbagevenden til menneskelig gennemgang eller intervention

Deling af arbejdet i mikro-agenter

Problem:Jo større og mere kompliceret opgaven er, jo længere kontekstvinduet er, og jo mere sandsynligt er en LLM at miste plottet.





Solution:Dele og erobre. brugsmall, purpose-built agents, hver ansvarlig for et klart defineret job. En top-niveau orkestrator strammer dem sammen.





Why small, focused agents work

Håndterbar kontekst: Kortere vinduer holder modellen skarp.

Klar ejerskab: én agent, én opgave, nul tvetydighed.

Højere pålidelighed: Enklere strømninger betyder færre steder at gå tabt.

Nemmere test: Du kan enkelt teste hver agent i isolation.

Hurtigere debugging: Når noget går i stykker, ved du præcis, hvor du skal kigge.





Der er ingen magisk formel for, hvornår man skal splitte logik; det er delvis kunst, delvis erfaring, og grænsen vil fortsætte med at skifte, når modellerne forbedres.





Checklist

Arbejdsprocessen består af en række mikroagentopkald.

Hver agent kan genstartes og testes på egen hånd.

Du kan forklare forfatteren definition i 1-2 sætninger.

Del 3: Stabilisering af adfærd

De fleste agent bugs vises ikke som røde fejl; de vises som mærkelige outputs. En savnet instruktion. Et halvt fulgt format. Noget, der næsten virker ... indtil det ikke gør.





Det er fordi LLM'er ikke læser sind.





Den måde, hvorpå du rammer forespørgsler, hvad du sender i kontekst, og hvordan du skriver opfordringer, alt det direkte former resultatet. Og enhver fejl i den opsætning bliver en usynlig bug venter på at komme til overfladen senere.if you’re not careful, every interaction slowly drifts off course.





Prompts er ikke kastede strenge, de er kode. Kontekst er ikke magi, det er en tilstand, du udtrykkeligt styrer. og klarhed er ikke valgfri, det er forskellen mellem gentagelig adfærd og kreativ nonsens.





10 — Treat Prompts as Code

Problem:For mange projekter behandler prompts som engangsstrenge: hardcodede i Python-filer, spredt over kodebasen eller vagt dumpet i Notion.

It’s hard to find, update, or even understand what each prompt does

Der er ingen versionskontrol – ingen måde at spore, hvad der er ændret, hvornår eller hvorfor

Optimization becomes guesswork: no feedback loops, no A/B testing

Og debugging en prompt-relateret problem føles som at forsøge at rette en bug i en kommentar





Solution: Hurtige er code. They define behavior. So manage them like you would real code:

Adskill dem fra din logik: Gem dem i txt, .md, .yaml, .json eller brug skabelonmotorer som Jinja2 eller BAML

Version them with your repo (just like functions)

with your repo (just like functions) Test them: (1) Unit-test responses for format, keywords, JSON validity, (2) Run evals over prompt variations, (3) Use LLM-as-a-judge or heuristic scoring to measure performance





Bonus:Hvis en ændring kan påvirke outputadfærd, fortjener det et andet sæt øjne.





Checklist:

Prompts lever uden for din kode (og er tydeligt navngivet)

They’re versioned and diffable

De er testet eller evalueret

De går gennem gennemgang, når det betyder noget

11 — Engineer the Context Stack

Problem: We’ve already tackled LLM forgetfulness by offloading memory and splitting agents by task. But there’s still a deeper challenge: howVi formaterer og leverer information til modellen.





Most setups just throw a pile of role: content messages into the prompt and call it a day. That works… until it doesn’t. These standard formats often:

Brænd tokens på redundante metadata

Struggle to represent tool chains, states, or multiple knowledge types

Undlader at styre modellen korrekt i komplekse strømninger





And yet, we still expect the model to “just figure it out.” That’s not engineering. That’s vibes.





Solution: Engineer the context.

Behandl hele inputpakken som en omhyggeligt designet grænseflade, fordi det er præcis, hvad det er.









Here’s how:

Eje den fulde stack: Kontroller, hvad der kommer ind, hvordan det er ordnet, og hvor det vises.

Go beyond chat format : Build richer, denser formats. XML-style blocks, compact schemas, compressed tool traces, even Markdown sections for clarity.

: Build richer, denser formats. XML-style blocks, compact schemas, compressed tool traces, even Markdown sections for clarity. Tænk holistisk: Kontekst = alt, hvad modellen ser: prompt, opgavestatus, tidligere beslutninger, værktøjslogger, instruktioner, selv tidligere outputs.





Dette bliver især vigtigt, hvis du optimerer for:

Informationstæthed: Pakning af mere mening i færre tokens

Cost efficiency: high performance at low context size

high performance at low context size Sikkerhed: Styring og tagging af, hvad modellen ser

Error resilience: Eksplicit signalering af edge cases, kendte problemer eller fallback-instruktioner





Bottom line:Forberedelse er kun halvdelen af kampen.KontekstteknikOg hvis du ikke gør det endnu, vil du være, når din agent vokser op.

12 - Tilføj sikkerhedslagre

Selv med solide opfordringer, hukommelse og kontrolflow kan en agent stadig gå ud af sporet.

Prompt injection: users (or other systems) slip in instructions that hijack the agent.

users (or other systems) slip in instructions that hijack the agent. Sensitive data lækker: Modellen blurrer ud PII eller virksomhedshemmeligheder.

Giftigt eller ondsindet indhold: uønsket hadsprog, spam eller forbudt materiale.

Hallucinationer: selvsikre men falske svar.

Out-of-scope handlinger: agenten "går kreativt" og gør noget, det burde aldrig gøre.





Der er ikke en enkelt løsning, der dækker alt dette.defense-in-depth: multiple safeguards that catch problems at every stage of the request/response cycle.





Quick Checklist

Validering af brugerindtastning er på plads (jailbreak sætninger, intention check).

For faktiske opgaver skal svarene referere til RAG-konteksten.

Prøven fortæller eksplicit modellen at holde sig til henter fakta.

Output filter blocks PII or disallowed content.

blocks PII or disallowed content. Responses include a citation/link to the source.

Agent og værktøj følger det mindste privilegium.

Kritiske handlinger ruteres gennem HITL-godkendelse eller overvågning.





Behandl disse lag som standard DevOps: log dem, test dem og fejl sikkert.

Del 4 - Hold det arbejde under belastning

I produktionen sker fejl sjældent på én gang, og ofte bemærker du dem ikke med det samme, nogle gange slet ikke.





Denne sektion fokuserer på at opbygge den tekniske disciplin til kontinuerligt at overvåge din agent, der sikrer, at alt kører glat.Fra logs og sporing til automatiserede tests, gør disse praksis din agent adfærd klar og pålidelig, uanset om du aktivt overvåger eller fokuserer på at opbygge det næste gennembrud.





13 — Trace the Full Execution Path

Problem: Agents will inevitably misbehave during development, updates, or even normal operation. Debugging these issues can consume countless hours trying to reproduce errors and pinpoint failures. If you’ve already implemented key principles like keeping state outside and compacting errors into context, you’re ahead. But regardless, planning for effective debugging from the start saves you serious headaches later.





SolutionLog hele rejsen fra brugerens anmodning gennem hvert trin i agentens beslutnings- og handlingsproces.





Why this matters:

Debugging : Quickly identify where and why things went wrong.

: Quickly identify where and why things went wrong. Analyse: Find flaskehalse og forbedringsmuligheder.

Kvalitetsvurdering: Måle, hvordan ændringer påvirker adfærd.

Reproducerbarhed: Gentag enhver session præcist.

Revision: Opbevar et fuldt register over agentbeslutninger og handlinger.





Minimum data to capture

Indtastning: Brugeranmodning og parametre fra tidligere trin.

Agentstatus: Nøglevariabler før hvert trin.

Prompt: Fuld prompt sendt til LLM (systeminstruktioner, historie, kontekst).

LLM output: Rå respons før behandling.

Tool call : Tool name and parameters invoked.

: Tool name and parameters invoked. Værktøjsresultat: Værktøjsudgang eller fejl.

Agent beslutning: Næste trin eller svar valgt.

Metadata: Timing, model info, omkostninger, kode og prompt versioner.





Brug eksisterende sporingsværktøjer, hvor det er muligt: LangSmith, Arize, Weights & Biases, OpenTelemetry osv. Men sørg først for, at du har det grundlæggende dækket (se Princip 15).





Checklist:

Alle skridt logget med fuld detalje.

Logs forbundet med session_id og en step_id.

Interface to review full call chains.

Evnen til fuldt ud at reproducere enhver prompt på ethvert tidspunkt.

14 - Test hver forandring

Problem: I øjeblikket kan din agent føle sig klar til at starte: det fungerer, måske endda præcis som du ønskede. Men hvordan kan du være sikker på, at det vil fortsætte med at arbejde efter opdateringer? Ændringer i kode, datasæt, basismodeller eller opfordringer kan stille brække eksisterende logik eller nedbringe ydeevnen.

Modeldrift: ydeevne falder over tid uden kodeændringer på grund af model- eller dataændringer

Hurtig skrøbelighed: Små prompt tweaks kan forårsage store output ændringer

Ikke-determinisme: LLM'er giver ofte forskellige svar på samme input, hvilket komplicerer præcise match-tests

Svære at gengive fejl: Selv med faste input kan bugs være svære at spore ned

The butterfly effect : changes cascade unpredictably across systems

: changes cascade unpredictably across systems Hallucinationer og andre LLM-specifikke risici





SolutionVedtage en grundig, flerlags teststrategi, der kombinerer klassiske software tests med LLM-fokuserede kvalitetskontrol:

Multi-level test: Enhedstest for funktioner/prompter, integrationstest og komplette end-to-end-scenarier

Fokus på LLM output kvalitet: relevans, sammenhæng, nøjagtighed, stil og sikkerhed

Brug gyldne datasæt med forventede outputs eller acceptable resultatområder til regressionskontrol

Automatisere test og integrere dem i CI/CD-rørledninger

Inddrage mennesker til kritiske eller komplekse evalueringer (menneske i kredsløbet)

Iterativt afprøve og forfine prompts før implementering

Test på forskellige niveauer: komponenter, prompts, kæder/agenter og komplette arbejdsprocesser





Checklist:

Logik er modulær og grundigt testet individuelt og i kombination

Udgangskvaliteten evalueres i forhold til benchmarkdata

Tests cover common cases, edge cases, failures, and malicious inputs

Robusthed mod støjende eller modstandsdygtige input sikres

Alle ændringer gennemgår automatiserede tests og overvåges i produktionen for at opdage uopdagede regressioner.

15 - Egen hele stak

Dette princip binder alt sammen, det er en meta-regel, der løber gennem alle andre.





I dag er der utallige værktøjer og rammer til at håndtere næsten enhver opgave, hvilket er godt for hastighed og lethed i prototyping - men det er også en fælde.





Det er især vigtigt i agentudvikling, hvor du skal styre:

Den iboende uforudsigelighed af LLM'er

Kompliceret logik omkring overgange og selvkorrektion

Behovet for dit system til at tilpasse sig og udvikle sig uden at omskrive centrale opgaver





Frameworks often invert controlDette kan fremskynde prototyping, men gør langsigtet udvikling sværere at styre og tilpasse.





Mange af de principper, du har set, kan implementeres med off-the-shelf-værktøjer. men nogle gange tager opbygningen af kernelogikken udtrykkeligt en lignende indsats og giver dig langt bedre gennemsigtighed, kontrol og tilpasningsevne.





On the other hand, going full custom and rewriting everything from scratch is over-engineering, and equally risky.





Nøglen erBalancenSom ingeniør beslutter du bevidst, hvornår du skal stole på rammer og hvornår du skal tage fuld kontrol, fuldt ud forstå de kompromisser, der er involveret.





RememberMange nuværende værktøjer blev bygget, før standarder blev solidificerede.De kan blive forældede i morgen - men de arkitektoniske valg, du gør nu, vil holde meget længere.

Konklusionen

Det handler om at designe et system, der kan håndtere den virkelige verden rod: fejl, tilstand, kontekstgrænser, uventede input og udviklende krav.





De 15 principper, vi har dækket, er ikke teori, de er kamptestede lektioner fra trancherne.De vil hjælpe dig med at omdanne skrøbelige scripts til stabile, skalerbare og vedligeholdelige agenter, der ikke bryder det øjeblik, hvor rigtige brugere dukker op.





Hvert princip fortjener overvejelse for at se, om det passer til dit projekt. I sidste ende er det dit projekt, dine mål og din skabelse. Men husk: LLM er kraftfuld, men det er kun en del af et komplekst system.





Hvis du tager en ting væk, så lad det være dette:slow down, build solid foundations, and plan for the long hauFordi det er den eneste måde at gå fra “wow, det svarede!” til “ja, det fortsætter med at arbejde.”





Fortsæt med at iterere, teste og lære. Og glem ikke, at mennesker i sløjfen ikke er en faldskærm, de holder din agent jordet og effektiv.





Dette er ikke slutningen.Det er kun begyndelsen på de bygningsagenter, der rent faktisk leverer.

Kæmper for at vokse dit publikum som en tech professionel?

The Tech Audience Accelerator is the go-to newsletter for tech creators serious about growing their audience. You’ll get the proven frameworks, templates, and tactics behind my 30M+ impressions (and counting).