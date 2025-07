Навiны по тэме Інжынеры і будаўнікі

Ён звычайна пачынаецца з некалькіх рэйсаў Python і ключа API ChatGPT.





Вы дадаеце некалькі ліній кантэксту, удаецца і здзівіцеся, што ён адказвае ўсяго. Затым, вы хочаце, каб ён зрабіў нешта карыснае. Затым, надзейна. Затым, без вас. Гэта, калі вы разумееце, што вы ўжо не проста выклікаюць LLM. Вы будуеце агента.





Я праводзіў апошні год збіраючы сцэнары і ўпрыгожвання, губляючы ланцуги LangChain, якія адчуваліся больш як дом карт, а не сістэмы, і пастаянна задавальняючыся, "Як людзі на самой справе пераносяць гэта?"





Я пацярпеў за мадэлямі, якія выглядалі элегантна ў тэорыі, але загінулі ў той момант, калі з'явіліся рэальныя карыстальнікі.Я пабудаваў агенты, якія спрацавалі ідэальна ў нотатках і не спрацавалі спектаклічна ў вытворчасці.Я працягваў думаць, што наступнае рэпа, наступны інструмент, наступная рамка вырашыць усё.





Гэта не было.





Тое, што дапамагала мне, было спазніцца, зняць рэчы назад, і звярнуць увагу на тое, што на самой справе працавала пад нагрузкай, а не тое, што выглядала разумна на LinkedIn.Гэтая кніга — праўда пра тое, што гэта кніга вельмі важная.Калі вы прайшлі падобныя выклікі, гэта напісана для вас.





Частка 1 - Знайсці Фонд правільна

Ранні прататыпы агентаў часта збіраюцца хутка: некалькі функцый, некаторыя памочнікі, і вось, гэта працуе.





Вы можаце задаць пытанне: «Калі гэта працуе, чаму ўскладніць рэчы?»





Гэты раздзел пакрывае чатыры ключавыя прынцыпы, якія дапамагаюць вам стварыць каменны цвёрды фундамент, база, дзе ваш агент можа надзейна вырасці і скараціцца.





1 — Знешняя гаспадарка

The Problem:

Вы не можаце працягнуць, калі агент атрымае спынення, аварыі, часы выхаду, што ні. Ён мае на ўвазе толькі там, дзе ён пакінуў.

Падрабязнасць: вы хочаце паўтараць тое, што адбылося для тэставання і дэбагвання.

Бонус выклік: раней ці пазней, вы будзеце хацець запускаць часткі агента паралельна, як параўнаць варыянты ў сярэдзіне размовы або галіны логікі (Упраўленне памяці з'яўляецца асобнай тэмай, якую мы пацвердзім неўзабаве.)





The Solution





Your Checklist:

Агент пачынаецца з любога кроку, выкарыстоўваючы толькі session_id і знешні стан (напрыклад, захаваны ў DB або JSON).

Вы можаце спыніць і перазагрузіць агента ў любы час (нават пасля змены кода) без страты прагрэсу або разрыву паводзіны.

Статус цалкам серыалізаваны без страты функцыянальнасці.

The same state can be fed to multiple agent instances running in parallel during a conversation.

2 — Externalize Knowledge

Гэтая малітва не можа быць зменена ні пры якіх умовах.

Большыя токены каштуюць больш грошай.

Ліміт яшчэ існуе: трансформатары працуюць з самоацэнкай на O(n2) складанасці, так што бесконечны кантэкст немагчыма.





Гэта найбольш цяжка, калі:

Размова доўгая

Дакументы былі вялікія

Інструкцыі складаныя





The Solution





Common approaches:

RAG (Retrieval-Augmented Generation): вылучае веды з знешніх баз дадзеных. скаляваныя, свежыя, і праверяюцца, але больш складаныя і латентна-чувствительные.

Афары́зм (па-грэцку: αφορισμός — выказваньне) — выслоўе, у якім у трапнай, ляканічнай і звычайна вобразнай форме выказаная арыгінальная думка.





Your Checklist:

Увесь гісторыя размоваў захоўваецца за межамі поспеху і даступна.

Знаёмства з іншымі крыніцамі знаёмстваў і знаёмстваў.

Історыя можа разгортвацца на няўзабаве, не забіўшы межы кантэкставага вікна.

3 — Зрабіце мадэль сумяшчальнай

Problem: LLM эвалюцыя хутка: OpenAI, Google, Anthropic, і іншыя пастаянна абноўваюць свае мадэлі. Як інжынеры, мы хочам выкарыстоўваць гэтыя ўдасканалення хутка. Ваш агент павінен пераключацца паміж мадэлямі лёгка, або для лепшых працэдур або больш нізкіх коштаў.





Solution:

Use a model_id parameter in configs or environment variables to specify which model to use.

parameter in configs or environment variables to specify which model to use. Пабудаваць абстрактныя інтэрфейсы або класы абслугоўвання, якія размаўляюць з мадэлямі праз уніфікаваны API.

Як магчымасць, нанесіце сярэднія пласты з увагай (рамкі прыходзяць з компроматамі).





Checklist:

Змяненне мадэлі не зламае ваш код і не ўплывае на іншыя кампаненты, такія як памяць, оркестрацыя або інструменты.

4 — адзін агент, многія каналы

Problem: Навіць калі ваш агент пачынаецца з адзінага інтэрфейсу (напрыклад, UI), карыстальнікі хутка захочуць больш спосабаў для ўзаемадзеяння: Slack, WhatsApp, SMS, можа быць, нават CLI для дэбагвання.





Solution: Create a unified input contract, an API, or a universal interface that all channels feed into. Keep channel-specific logic separate from your agent’s core.





Checklist:

Agent works via CLI, API, UI, or any other interface

Усе ўходы фуннеляваць праз адзін канчатковы пункт, парсер або схему

Кожны інтэрфейс выкарыстоўвае той жа формат ўводу

Ніякая бізнес-логіка не жыве ў любым канале адаптара

Додаванне новых каналаў азначае толькі напісанне адаптара — ніякіх зменаў у крэатыўны код агента

Частка 2 – Пераход за межы чатбота

У нашай багатай беларускай літаратуры няма другога такога твора, які па энцыклапедычнасці выяўлення ў ім нацыянальнага, так набліжаўся б да "Новай зямлі".





Ён губляе трэк, не ведае, што рабіць з памылкамі, забывае выклікаць правільны інструмент, і вы пакінеце самотныя зноў з логамі, дзе «хорош, усё здаецца, што там напісана».





Для таго, каб пазбегнуць гэтага, агенту патрэбна ясная мадэль паводзіны: што ён робіць, якія інструменты ён мае, хто робіць рашэння, як людзі ўмяшаюцца, і што рабіць, калі нешта ідзе не так.





Гэта выдатная платформа для выказвання маладымі людзьмі сваіх пазіцый, іх абмеркавання.





5 — Дизайн для выкарыстання інструмента

Solution





Большасць пастаўшчыкаў (OpenAI, Google, Anthropic і г.д.) цяпер падтрымліваюцьfunction callingабоstructured output:

Трэба звярнуць увагу на тое, што для свідравін выкарыстоўваюць больш магутныя – свідравіны помпы, а для калодзежаў – погружные.

Кожны раз, калі вы называеце мадэль, вы даеце яму гэтыя схемы інструментаў разам з просьбай.

Мадэль вяртае JSON, якая ўзначальвае: (1) функцыю, якую выклікаць, (2) параметры па схеме

Ваш код валідуе JSON і выклікае правільную функцыю з тым параметрам.

Checklist:

Адвакаты строга структурованы (напрыклад, JSON)

Інтэрфейсы інструментаў вызначаюцца з схем (JSON Schema або Pydantic)

Выпуск валізуецца перад выкананнем

Поспехі ў фармаце не ацаніць сістэму (смешнае апрацоўка пашкоджанняў)

LLM вырашае, якую функцыю выклікаць, код спраўляецца з выкананнем

6 — Стаўленне логікі кіравання ў кодзе

Problem:Большасць агентаў сёння паводзіцца як чатботы: карыстальнік кажа нешта, агент адказвае.





З гэтай устаноўкай, ваш агент не можа:

Задачы ў паралелі

План і секвенцыя некалькіх крокаў

Разумныя крокі не спяшаліся

Work in the background





Ён становіцца рэактыўнымі, а не праактыўнымі.What you really want is an agent that thinks like a scheduler: one that looks at the job ahead, figures out what to do next, and moves forward without waiting to be poked.





That means your agent should be able to:

Ініцыятыўныя

Сцяг многіх крокаў

Вызначыўся з працай

Перайсці між заданнямі

Працягвай працаваць, нават калі ніхто не глядзіць





Solution: Move the control flow out of the LLM and into your system. The model can still help (e.g., decide which step comes next), but the actual sequencing, retries, and execution logic should live in code.





Гэта выклікае вашу работу зprompt engineeringдваsystem design. The model becomes one piece of a broader architecture, not the puppet master.





Давайце разбіваем тры шляхі, якія каманды набліжаюцца да гэтага змены.





1. Finite State Machine (FSM)

What it is: Break the task into discrete states with defined transitions.

LLM role: Acts within a state or helps pick the next one.

Best for: Linear, predictable flows.

Pros: Simple, stable, easy to debug.

Tools: StateFlow, YAML configs, classic state pattern in code.





2. Directed Acyclic Graph (DAG)

What it is: Represent tasks as a graph — nodes are actions, edges are dependencies.

LLM role: Acts as a node or helps generate the graph.

Best for: Branching flows, parallel steps.

Pros: Flexible, visual, good for partial recomputation.

Tools: LangGraph, Trellis, LLMCompiler, or DIY with a graph lib.





3. Planner + Executor

Што гэта такое: адзін агент (або мадэль) складае план; іншыя выконваюць яго крок за крокам.

LLM role: Big model plans, small ones (or code) execute.

Best for: Modular systems, long chains of reasoning.

Pros: Separation of concerns, scalable, cost-efficient.

Інструменты: Plan-and-Execute з LangChain, або ваша ўласная архітэктура Planner / Executor.





Why This Matters

You gain control over the agent’s behavior

Вы можаце перапрацаваць, дэбагваць і выпрабаваць асобныя крокі

You can scale parts independently or swap models

Вы робіце рэчы відавочнымі і даследаванымі, а не непаўторнымі і магічнымі.





Checklist

Agent follows the FSM, DAG, or planner structure

LLM suggests actions but doesn’t drive the flow

Вы можаце візуалізаваць працэс задачы

Error handling is baked into the flow logic

7 — Keep a Human in the Loop

Problem: Even with tools, control flow, and structured outputs, full autonomy is still a myth. LLMs don’t understand what they’re doing. They can’t be held accountable. And in the real world, they will make the wrong call (sooner or later).





When agents act alone, you risk:

Irreversible mistakes: deleting records, messaging the wrong person, sending money to a dead wallet.

deleting records, messaging the wrong person, sending money to a dead wallet. Compliance issues : violating policy, law, or basic social norms.

: violating policy, law, or basic social norms. Weird behavior: skipping steps, hallucinating actions, or just doing something no human ever would.

No accountability: when it breaks, it’s unclear what went wrong or who owns the mess.





Solution: Bring Humans Into the Loop (HITL)

Трэці варыянт - самы танны - зрабіць усё самому.pause, Запрашаем, or route decisions to a person when needed. Not everything should be fully automatic. Sometimes, “Are you sure?” is the most valuable feature you can build.





Ways to Include Humans

Па шляхах эскалацыі: калі ўпэўненасць мадэлі невысокая або сітуацыя невядомая, маршрут да чалавека для аглядкі.

Interactive correction: Allow users to review and edit model responses before they’re sent.

Checklist

Sensitive actions are confirmed by a human before execution

Існуе ясны шлях да эскалацыі складаных або рызычных вырашэнняў

Users can edit or reject agent outputs before they’re final

Logs and decisions are reviewable for audit and debugging

8 — Feed Errors Back into Context

Problem:Калі рабочы пакідаў наймальніка без уважлівых прычын да заканчэння тэрміну найму - гэта прызнавалася самавольным адыходам.





What can go wrong:

Любая няправільнасць, ці з'яўляецца гэта няправільнасцю знешняга інструмента або нечаканае выхад LLM, можа разбураць увесь працэс.

Inefficiency: Frequent restarts and manual fixes waste time and resources.

Frequent restarts and manual fixes waste time and resources. No Learning: Without awareness of its own errors, the agent can’t improve or adapt.

Without awareness of its own errors, the agent can’t improve or adapt. Hallucinations: Errors unaddressed can lead to misleading or fabricated responses.





Solution:





How it works:

Checklist:

Помні, што многія і многія зараз надломваюцца .

Retry logic is implemented with adaptive changes

Repeated failures trigger a fallback to human review or intervention

9 — Split Work into Micro-Agents

Problem:Іх унікальная здольнасць да эхолокации літаральна ў тысячы разоў больш эфектыўна, чым у любой падобнай сістэмы, створанай людзьмі.





Solution:





Why small, focused agents work

Manageable context : shorter windows keep the model sharp.

: shorter windows keep the model sharp. Яснае ўласнасць: адзін агент, адна задача, нуль недвусмыснасці.

Праблема ў тым, што добрыя матывы не заўсёды добрыя справы.

Easier testing: you can unit-test each agent in isolation.

you can unit-test each agent in isolation. Faster debugging: when something breaks, you know exactly where to look.





There’s no magic formula for when to split logic; it’s part art, part experience, and the boundary will keep shifting as models improve. A good rule of thumb: if you can’t describe an agent’s job in one or two sentences, it’s probably doing too much.





Checklist

The overall workflow is a series of micro-agent calls.

Each agent can be restarted and tested on its own.

You can explain Agent definition in 1–2 sentences.

Part 3 – Stabilize Behavior

Most agent bugs don’t show up as red errors; they show up as weird outputs. A missed instruction. A half-followed format. Something that almost works… until it doesn’t.





That’s because LLMs don’t read minds. They read tokens.





Бо, як вядома, усё ў свеце складаецца з дробязяў, і яны заўсёды гуляюць важную ролю, асабліва ў моднай індустрыі.if you’re not careful, every interaction slowly drifts off course.





This section is about tightening that feedback loop. Prompts aren’t throwaway strings, they’re code. Context isn’t magic, it’s a state you manage explicitly. And clarity isn’t optional, it’s the difference between repeatable behavior and creative nonsense.





10 — Treat Prompts as Code

Problem: Too many projects treat prompts like disposable strings: hardcoded in Python files, scattered across the codebase, or vaguely dumped into Notion. As your agent gets more complex, this laziness becomes expensive:

It’s hard to find, update, or even understand what each prompt does

There’s no version control — no way to track what changed, when, or why

Optimization becomes guesswork: no feedback loops, no A/B testing

І дэбагваць праблему, звязаную з просьбай, адчуваецца, як пытаньне вырашыць бух у каментарыі





Solution: Поспехі ў code. They define behavior. So manage them like you would real code:

Адрознівайце іх ад сваёй логікі: захоўвайце іх у txt, .md, .yaml, .json або выкарыстоўвайце шаблонныя рухавікі, як Jinja2 або BAML

Version them with your repo (just like functions)

with your repo (just like functions) Test them: (1) Unit-test responses for format, keywords, JSON validity, (2) Run evals over prompt variations, (3) Use LLM-as-a-judge or heuristic scoring to measure performance





Checklist:

Prompts live outside your code (and are clearly named)

They’re versioned and diffable

They’re tested or evaluated

Працягваюць агляд, калі гэта важна

11 — Інжынер Context Stack

Problem:Мы ўжо справіліся з забыццям LLM, адгружаючы памяць і раздзяляючы агентаў па задачы.howМы адпраўляем і адпраўляем інфармацыю на мадэль.





Большасць устаноў проста выкідаюць шклянку ролей: тэкставыя паведамленні ў промпт і выклікаюць гэта ў дзень.

Сцягнуць токены на redundant metadata

Struggle to represent tool chains, states, or multiple knowledge types

Fail to guide the model properly in complex flows





And yet, we still expect the model to “just figure it out.” That’s not engineering. That’s vibes.





Solution: Engineer the context.

Treat the whole input package like a carefully designed interface, because that’s exactly what it is.









Here’s how:

Own the full stack : Control what gets in, how it’s ordered, and where it shows up. Everything from system instructions to retrieved docs to memory entries should be intentional.

: Control what gets in, how it’s ordered, and where it shows up. Everything from system instructions to retrieved docs to memory entries should be intentional. Go beyond chat format : Build richer, denser formats. XML-style blocks, compact schemas, compressed tool traces, even Markdown sections for clarity.

: Build richer, denser formats. XML-style blocks, compact schemas, compressed tool traces, even Markdown sections for clarity. Think holistically: Context = everything the model sees: prompt, task state, prior decisions, tool logs, instructions, even prior outputs. It’s not just “dialogue history.”





This becomes especially important if you’re optimizing for:

Дыягностыка інфармацыі: упакоўка больш значэння ў менш токенаў

Cost efficiency: high performance at low context size

high performance at low context size Security: controlling and tagging what the model sees

Bottom line: Prompting is only half the battle. Context engineeringІ калі вы не робіце гэта яшчэ, вы будзеце, калі ваш агент вырасце.

12 — Add Safety Layers

Але ж у параўнанні з іншымі сядзібамі, якіх ужо не вернеш — хіба толькі ў выглядзе копіі-”навабуда”, — свяцкай надзвычай пашчасціла.

Шчаслівае ўпрыгожванне: карыстальнікі (або іншыя сістэмы) злізнуць у інструкцыі, якія выкрадаюць агента.

Sensitive-data leaks: the model blurts out PII or corporate secrets.

the model blurts out PII or corporate secrets. Toxic or malicious content: unwanted hate speech, spam, or disallowed material.

unwanted hate speech, spam, or disallowed material. Галюцинацыі: упэўненыя, але няправільныя адказы

Неабмежаныя дзеянні: агент «забывае творчасць» і робіць тое, што ніколі не павінна рабіць.





Quick Checklist





Quick Checklist

Валідацыя ўводу карыстальніка на месцы (jailbreak фразы, праверка намераў).

Для фактаў задачы, адказы павінны звязацца з RAG-контексту.

The prompt explicitly tells the model to stick to retrieved facts.

Output filter blocks PII or disallowed content.

blocks PII or disallowed content. Responses include a citation/link to the source.

Agent and tools follow the least privilege .

. Critical actions route through HITL approval or monitoring.





Part 4 - Keep it Working Under Load

У вытворчасці, няўдачы звычайна адбываюцца адразу, і часта вы не ўбачыце іх адразу, часам не ўсяго.





13 — Trace the Full Execution Path

ProblemЯраслаў Грышчэня не супраць службы ў беларускім войску, але хвалюецца, што яго могуць падчас збору подпісаў “затрымаць” на невызначаны тэрмін, знайшоўшы “зручную” зачэпку.





Solution





Why this matters:

Дэбагванне: хутка вызначыць, дзе і чаму рэчы пайшлі не так.

Analytics : Spot bottlenecks and improvement opportunities.

Minimum data to capture

Статус агента: Ключавыя варыянты перад кожным крокам.

Prompt : Full prompt sent to the LLM (system instructions, history, context).

: Full prompt sent to the LLM (system instructions, history, context). Выпуск LLM: сыравая реакция перед обработкой.

Tool call : Tool name and parameters invoked.

: Tool name and parameters invoked. Вынік інструмента: выхад інструмента або памылка.

Agent decision : Next steps or responses chosen.

: Next steps or responses chosen. Метаданныя: Час, інфляцыя мадэлі, кошт, код і спам-версіі.





Калі гэта магчыма, выкарыстоўвайце існуючыя інструменты даследавання: LangSmith, Arize, Weights & Biases, OpenTelemetry і г.д. Але перш за ўсё, пераконайцеся, што вы пакрываеце асновы (см. Принцип 15).





Checklist:

Усе крокі запісаныя з поўным дэталям.

Logs linked by session_id and a step_id .

and a . Загрузіць інтэрфейс для агляд поўных каналаў.

14 — Выпрабаванне кожнага змены

Дрэйф мадэляў: прадукцыя падае з часам без змены кода з-за змены мадэлі або дадзеных

Non-determinism: LLM часта даюць розныя адказы на той жа ўступ, ускладняючы эксклюзіўныя тэсты

Hard-to-reproduce errors : even with fixed inputs, bugs can be tough to track down

: even with fixed inputs, bugs can be tough to track down The butterfly effect : changes cascade unpredictably across systems

: changes cascade unpredictably across systems Галюцинацыі і іншыя LLM-спецыфічныя рызыкі





Solution

Інтэграцыйныя выпрабаванні: адзінкавыя выпрабаванні функцый/прамптаў, інтэграцыйныя выпрабаванні і поўныя сцэнары

Фокус на якасць выпуску LLM: актуальнасць, сутнасць, дакладнасць, стыль і бяспека

Automate tests and integrate them into CI/CD pipelines

and integrate them into CI/CD pipelines Залучэнне людзей для крытычных або складаных ацэнк (людзьмі ў кругу)

Ітэратыўныя выпрабаванні і рафінаванне памочнікаў перад размяшчэннем

Выпрабаванне на розных узроўнях: кампаненты, кандыдаты, ланцуги/агенты і поўныя працэсы працы





Checklist:

Logic is modular and thoroughly tested individually and in combination

Тесты ахопліваюць звычайныя выпадкі, канцы краю, несправядлівасці і зліўныя ўступкі

All changes pass automated tests and are monitored in production to detect unnoticed regressions

15 — Уласны ўвесь стак

This principle ties everything together, it’s a meta-rule that runs through all others.





Гэта особенно важна ў распрацоўцы агентаў, дзе вам трэба кіраваць:

Унутраная непрадказальнасць LLMs

Комплексная логіка вакол пераходаў і самокарэкцыі

Праблема ў тым, што добрыя матывы не заўсёды добрыя справы.





Frameworks often invert control: they dictate how your agent should behave. This can speed up prototyping but make long-term development harder to manage and customize.





On the other hand, going full custom and rewriting everything from scratch is over-engineering, and equally risky.





Ключ ёсцьБалансБо ў Касцёле ўсё можна зрабіць; мы добра ведаем, што ўсё можна зрабіць, калі біскуп выкажа нейкую волю.





Высновы

Будаўніцтва агента LLM - гэта не толькі пра выкананне API, але і пра распрацоўку сістэмы, якая можа справіцца з рэальным сутнасцю: няправільнасці, стан, кантэкстныя межы, нечаканыя ўносы і эвалюцыйныя патрабаванні.





Мы не можам гарантаваць, што Вашы будучыя вынікі і / або поспех.





Кожны прынцып заслугоўвае разгляду, каб убачыць, калі ён падыходзіць да вашага праекта. У канцы, гэта ваш праект, вашы мэты, і ваша стварэння. Але памятайце: LLM магутна, але гэта толькі адзін з частак складанай сістэмы. Ваша праца як інжынер з'яўляецца вашым працэсам, кіраваць складанасцю, і трымаць усю справу праходзіць плаўна.





Калі вы хочаце, каб гэта было, вы можаце зрабіць гэта так:slow down, build solid foundations, and plan for the long haul. Because that’s the only way to go from “wow, it answered!” to “yeah, it keeps working.”





Працягвайце ітэраваць, выпрабаваць і вучыцца.І не забывайце, што людзі ў лугу не падступныя, яны падтрымліваюць ваш агент заснаваны і эфектыўны.





Гэта не конец, гэта толькі пачатак будаўнічых агентаў, якія на самой справе прадастаўляюць.

Працуеце, каб вырасці вашу публіку як тэхнічны прафесійны?

