Beyond the Prototype: 15 жорсткія урокі для судна вытворчасці гатовы AI агентаў

Навiны по тэме Інжынеры і будаўнікі Ён звычайна пачынаецца з некалькіх рэйсаў Python і ключа API ChatGPT. Вы дадаеце некалькі ліній кантэксту, удаецца і здзівіцеся, што ён адказвае ўсяго. Затым, вы хочаце, каб ён зрабіў нешта карыснае. Затым, надзейна. Затым, без вас. Гэта, калі вы разумееце, што вы ўжо не проста выклікаюць LLM. Вы будуеце агента. Я праводзіў апошні год збіраючы сцэнары і ўпрыгожвання, губляючы ланцуги LangChain, якія адчуваліся больш як дом карт, а не сістэмы, і пастаянна задавальняючыся, " ” Як людзі на самой справе пераносяць гэта? Я пацярпеў за мадэлямі, якія выглядалі элегантна ў тэорыі, але загінулі ў той момант, калі з'явіліся рэальныя карыстальнікі.Я пабудаваў агенты, якія спрацавалі ідэальна ў нотатках і не спрацавалі спектаклічна ў вытворчасці.Я працягваў думаць, што наступнае рэпа, наступны інструмент, наступная рамка вырашыць усё. Гэта не было. Тое, што дапамагала мне, было спазніцца, зняць рэчы назад, і звярнуць увагу на тое, што на самой справе працавала пад нагрузкай, а не тое, што выглядала разумна на LinkedIn. Калі вы прайшлі падобныя выклікі, гэта напісана для вас. Гэтая кніга — праўда пра тое, што гэтая кніга вельмі важная. Узнікае пытанне: калі іх ведае увесь свет, ці можна назваць іх няўдачнікамі? Частка 1 - Знайсці Фонд правільна Ранні прататыпы агентаў часта збіраюцца хутка: некалькі функцый, некаторыя памочнікі, і вось, гэта працуе. Вы можаце задаць пытанне: «Калі гэта працуе, чаму ўскладніць рэчы?» У першую чаргу, ён заклікаў вернікаў даваць сведчанне аб веры праз учынкі, а не толькі словы. Памятаеце, у казках Баба-Яга збірае вакол сябе жывых істот, каб даведацца пра незвычайныя навіны свету. Звычайна, праблема не ў логіцы або напояў; гэта больш глыбокае Гэты раздзел пакрывае чатыры ключавыя прынцыпы, якія дапамагаюць вам стварыць каменны цвёрды фундамент, база, дзе ваш агент можа надзейна вырасці і скараціцца. 1 — Знешняя гаспадарка : The Problem Вы не можаце працягнуць, калі агент атрымае спынення, аварыі, часы выхаду, што ні. Ён мае на ўвазе толькі там, дзе ён пакінуў. Падрабязнасць: вы хочаце паўтараць тое, што адбылося для тэставання і дэбагвання. Бонус выклік: раней ці пазней, вы будзеце хацець запускаць часткі агента паралельна, як параўнаць варыянты ў сярэдзіне размовы або галіны логікі (Упраўленне памяці з'яўляецца асобнай тэмай, якую мы пацвердзім неўзабаве.) Усё, што вы чулі пра карысць пара раней - усяго толькі чуткі і павер'і. The Solution : Your Checklist Агент пачынаецца з любога кроку, выкарыстоўваючы толькі session_id і знешні стан (напрыклад, захаваны ў DB або JSON). Вы можаце спыніць і перазагрузіць агента ў любы час (нават пасля змены кода) без страты прагрэсу або разрыву паводзіны. Статус цалкам серыалізаваны без страты функцыянальнасці. The same state can be fed to multiple agent instances running in parallel during a conversation. 2 — Externalize Knowledge Нават у адным сеансе, яны могуць забыць, што вы сказалі ім, змяшаць стадыі размовы, страціць трэна, або пачаць "запоўніць" дэталі, якія не былі там. The Problem Гэтая малітва не можа быць зменена ні пры якіх умовах. Большыя токены каштуюць больш грошай. Ліміт яшчэ існуе: трансформатары працуюць з самоацэнкай на O(n2) складанасці, так што бесконечны кантэкст немагчыма. Гэта найбольш цяжка, калі: Размова доўгая Дакументы былі вялікія Інструкцыі складаныя Трэба ў такім, здавалася б, «простым» і «даступным» знайсці сваё, індывідуальнае бачанне прыроды і зрабіць яго блізкім сэрцу гледача. The Solution : Common approaches Памятаеце, у казках Баба-Яга збірае вакол сябе жывых істот, каб даведацца пра незвычайныя навіны свету. Памятаеце, у казках Баба-Яга збірае вакол сябе жывых істот, каб даведацца пра незвычайныя навіны свету. RAG (Retrieval-Augmented Generation): вылучае веды з знешніх баз дадзеных. скаляваныя, свежыя, і праверяюцца, але больш складаныя і латентна-чувствительные. Афары́зм (па-грэцку: αφορισμός — выказваньне) — выслоўе, у якім у трапнай, ляканічнай і звычайна вобразнай форме выказаная арыгінальная думка. : Your Checklist Увесь гісторыя размоваў захоўваецца за межамі поспеху і даступна. Знаёмства з іншымі крыніцамі знаёмстваў і знаёмстваў. Історыя можа разгортвацца на няўзабаве, не забіўшы межы кантэкставага вікна. 3 — Зрабіце мадэль сумяшчальнай : LLM эвалюцыя хутка: OpenAI, Google, Anthropic, і іншыя пастаянна абноўваюць свае мадэлі. Як інжынеры, мы хочам выкарыстоўваць гэтыя ўдасканалення хутка. Ваш агент павінен пераключацца паміж мадэлямі лёгка, або для лепшых працэдур або больш нізкіх коштаў. Problem : Solution Use a parameter in configs or environment variables to specify which model to use. model_id Пабудаваць абстрактныя інтэрфейсы або класы абслугоўвання, якія размаўляюць з мадэлямі праз уніфікаваны API. Як магчымасць, нанесіце сярэднія пласты з увагай (рамкі прыходзяць з компроматамі). : Checklist Змяненне мадэлі не зламае ваш код і не ўплывае на іншыя кампаненты, такія як памяць, оркестрацыя або інструменты. Для будаўніцтва "калоніі ўжанднічай" у Лідзе быў куплены пляц на так званым "выгане", у той час за горадам. Памятаеце, у казках Баба-Яга збірае вакол сябе жывых істот, каб даведацца пра незвычайныя навіны свету. 4 — адзін агент, многія каналы : Навіць калі ваш агент пачынаецца з адзінага інтэрфейсу (напрыклад, UI), карыстальнікі хутка захочуць больш спосабаў для ўзаемадзеяння: Slack, WhatsApp, SMS, можа быць, нават CLI для дэбагвання. Problem : Create a unified input contract, an API, or a universal interface that all channels feed into. Keep channel-specific logic separate from your agent’s core. Solution : Checklist Agent works via CLI, API, UI, or any other interface Усе ўходы фуннеляваць праз адзін канчатковы пункт, парсер або схему Кожны інтэрфейс выкарыстоўвае той жа формат ўводу Ніякая бізнес-логіка не жыве ў любым канале адаптара Додаванне новых каналаў азначае толькі напісанне адаптара — ніякіх зменаў у крэатыўны код агента Частка 2 – Пераход за межы чатбота У нашай багатай беларускай літаратуры няма другога такога твора, які па энцыклапедычнасці выяўлення ў ім нацыянальнага, так набліжаўся б да "Новай зямлі". Ён губляе трэк, не ведае, што рабіць з памылкамі, забывае выклікаць правільны інструмент, і вы пакінеце самотныя зноў з логамі, дзе «хорош, усё здаецца, што там напісана». Для таго, каб пазбегнуць гэтага, агенту патрэбна ясная мадэль паводзіны: што ён робіць, якія інструменты ён мае, хто робіць рашэння, як людзі ўмяшаюцца, і што рабіць, калі нешта ідзе не так. Гэта выдатная платформа для выказвання маладымі людзьмі сваіх пазіцый, іх абмеркавання. 5 — Дизайн для выкарыстання інструмента : Гэта можа здацца абсурдным, але многія агенты ўсё ж разлічаюць на "Plain Prompting + сыравы LLM выхаду аналізу". Гэта як пытаньне выпрабаваць аўтамабіль, выпадкоўна закручваючы болты. Problem Лепш за ўсё для гэтага падыдуць відэльцы яркіх расфарбовак, але не белыя і ня светлыя. Адзін з самых магутных сродкаў, з якімі мы маем барацьбу з запаленнем, - гэта ежа, якую мы ямо кожны дзень. Усё, што вы чулі пра карысць пара раней - усяго толькі чуткі і павер'і. Афарызм (гр. aphorismos - выказванне) - выслоўе, у якім у трапнай, лаканічнай форме выказана значная і арыгінальная думка. Давайце мадэль вярнуць JSON (або іншы структурырованный формат), і давайце ваша сістэма справіцца з выкананнем. што трэба зрабіць, і ваш код займаецца Гэта адбываецца, выконваючы правільную функцыю праз добра вызначаны інтэрфейс. Solution Што Як Большасць пастаўшчыкаў (OpenAI, Google, Anthropic і г.д.) цяпер падтрымліваюць або : function calling structured output Трэба звярнуць увагу на тое, што для свідравін выкарыстоўваюць больш магутныя – свідравіны помпы, а для калодзежаў – погружные. Кожны раз, калі вы называеце мадэль, вы даеце яму гэтыя схемы інструментаў разам з просьбай. Мадэль вяртае JSON, якая ўзначальвае: (1) функцыю, якую выклікаць, (2) параметры па схеме Ваш код валідуе JSON і выклікае правільную функцыю з тым параметрам. Як паказана на BTC мой баланс да і пасля перадачы на фондавым рынку на фондавым рынку? — Вераніка Уладзіміраўна, што гэта за 11 андрагагічных умоў, пры якіх дарослыя без цяжкасцей могуць засвоіць новыя тэхналогіі ў фізічнай культуры? Important У нас функцыянуюць таварыствы “Разумнікі і разумніцы”, “Даследчык”, а таксама адзіная ў Магілёўскай вобласці астранамічная пляцоўка. : Checklist Адвакаты строга структурованы (напрыклад, JSON) Інтэрфейсы інструментаў вызначаюцца з схем (JSON Schema або Pydantic) Выпуск валізуецца перад выкананнем Поспехі ў фармаце не ацаніць сістэму (смешнае апрацоўка пашкоджанняў) LLM вырашае, якую функцыю выклікаць, код спраўляецца з выкананнем 6 — Стаўленне логікі кіравання ў кодзе Большасць агентаў сёння паводзіцца як чатботы: карыстальнік кажа нешта, агент адказвае. Problem: З гэтай устаноўкай, ваш агент не можа: Здаровая касметыка вы можаце зрабіць самі Задачы ў паралелі План і секвенцыя некалькіх крокаў Разумныя крокі не спяшаліся Work in the background Ён становіцца рэактыўнымі, а не праактыўнымі. : one that looks at the job ahead, figures out what to do next, and moves forward without waiting to be poked. What you really want is an agent that thinks like a scheduler That means your agent should be able to: Ініцыятыўныя Сцяг многіх крокаў Вызначыўся з працай Перайсці між заданнямі Працягвай працаваць, нават калі ніхто не глядзіць Move the control flow out of the LLM and into your system. The model can still help (e.g., decide which step comes next), but the actual sequencing, retries, and execution logic should live in code. Solution: Гэта выклікае вашу работу з два . The model becomes one piece of a broader architecture, not the puppet master. prompt engineering system design Давайце разбіваем тры шляхі, якія каманды набліжаюцца да гэтага змены. 1. Finite State Machine (FSM) Break the task into discrete states with defined transitions. What it is: Acts within a state or helps pick the next one. LLM role: Linear, predictable flows. Best for: Simple, stable, easy to debug. Pros: StateFlow, YAML configs, classic state pattern in code. Tools: 2. Directed Acyclic Graph (DAG) Represent tasks as a graph — nodes are actions, edges are dependencies. What it is: Acts as a node or helps generate the graph. LLM role: Branching flows, parallel steps. Best for: Flexible, visual, good for partial recomputation. Pros: LangGraph, Trellis, LLMCompiler, or DIY with a graph lib. Tools: 3. Planner + Executor Што гэта такое: адзін агент (або мадэль) складае план; іншыя выконваюць яго крок за крокам. Big model plans, small ones (or code) execute. LLM role: Modular systems, long chains of reasoning. Best for: Separation of concerns, scalable, cost-efficient. Pros: Інструменты: Plan-and-Execute з LangChain, або ваша ўласная архітэктура Planner / Executor. Why This Matters You gain control over the agent’s behavior Вы можаце перапрацаваць, дэбагваць і выпрабаваць асобныя крокі You can scale parts independently or swap models Вы робіце рэчы відавочнымі і даследаванымі, а не непаўторнымі і магічнымі. Checklist Agent follows the FSM, DAG, or planner structure LLM suggests actions but doesn’t drive the flow Вы можаце візуалізаваць працэс задачы Error handling is baked into the flow logic 7 — Keep a Human in the Loop Even with tools, control flow, and structured outputs, full autonomy is still a myth. LLMs don’t what they’re doing. They can’t be held accountable. And in the real world, they will make the wrong call (sooner or later). Problem: understand When agents act alone, you risk: deleting records, messaging the wrong person, sending money to a dead wallet. Irreversible mistakes: : violating policy, law, or basic social norms. Compliance issues skipping steps, hallucinating actions, or just doing something no human ever would. Weird behavior: Парушаная давер: карыстальнікі не будуць разлічваць на тое, што здаецца вышэй за кантроль. : when it breaks, it’s unclear what went wrong or who owns the mess. No accountability Solution: Bring Humans Into the Loop (HITL) Трэці варыянт - самы танны - зрабіць усё самому. , , or decisions to a person when needed. Not everything should be fully automatic. Sometimes, “Are you sure?” is the most valuable feature you can build. pause Запрашаем route Ways to Include Humans Афарызм (гр. aphorismos - выказванне) - выслоўе, у якім у трапнай, лаканічнай форме выказана значная і арыгінальная думка. Па шляхах эскалацыі: калі ўпэўненасць мадэлі невысокая або сітуацыя невядомая, маршрут да чалавека для аглядкі. Allow users to review and edit model responses before they’re sent. Interactive correction: Пераклад паўстаў у межах праекту «Homines Urbani», Кракаў. Агулам, для мяне гэта тэкст — аб’яднаны, аформлены візуальна і вербальна. Checklist Sensitive actions are confirmed by a human before execution Існуе ясны шлях да эскалацыі складаных або рызычных вырашэнняў Users can edit or reject agent outputs before they’re final Logs and decisions are reviewable for audit and debugging У гэтым выпадку пешаходы, якія сканчаюць пераход, уяўляюць істотную небяспеку (мал. 8 — Feed Errors Back into Context Калі рабочы пакідаў наймальніка без уважлівых прычын да заканчэння тэрміну найму - гэта прызнавалася самавольным адыходам. Problem: What can go wrong: Любая няправільнасць, ці з'яўляецца гэта няправільнасцю знешняга інструмента або нечаканае выхад LLM, можа разбураць увесь працэс. Frequent restarts and manual fixes waste time and resources. Inefficiency: Without awareness of its own errors, the agent can’t improve or adapt. No Learning: Errors unaddressed can lead to misleading or fabricated responses. Hallucinations: Любая новая палітычная тэорыя, як бы яна ні называлася, вяртала назад да іерархізаванага і строга рэгламентаванага грамадства. Solution: How it works: Успаміны ў сваю чаргу падзяляюцца на абавязковыя або, калі нічога не адзначана, на неабавязковыя. The agent reflects on the error and tries to fix it by: (1) detecting and diagnosing the issue, (2) adjusting parameters, rephrasing requests, or switching tools, (3) retrying the action with changes. Self-correction: Detailed error info (like instructions or explanations) helps the agent correct itself better. Even simple error logs improve performance. Error context matters: Incorporate error-fix examples into model training for improved resilience. Training for self-correction: Узнікае пытанне: калі іх ведае увесь свет, ці можна назваць іх няўдачнікамі? Checklist: Помні, што многія і многія зараз надломваюцца . Retry logic is implemented with adaptive changes Repeated failures trigger a fallback to human review or intervention 9 — Split Work into Micro-Agents Іх унікальная здольнасць да эхолокации літаральна ў тысячы разоў больш эфектыўна, чым у любой падобнай сістэмы, створанай людзьмі. Problem: Размяшчайце і заваявайце. выкарыстоўвайце , each responsible for one clearly defined job. A top-level orchestrator strings them together. Solution: small, purpose-built agents Why small, focused agents work : shorter windows keep the model sharp. Manageable context Яснае ўласнасць: адзін агент, адна задача, нуль недвусмыснасці. Праблема ў тым, што добрыя матывы не заўсёды добрыя справы. you can unit-test each agent in isolation. Easier testing: when something breaks, you know exactly where to look. Faster debugging: There’s no magic formula for when to split logic; it’s part art, part experience, and the boundary will keep shifting as models improve. A good rule of thumb: if you can’t describe an agent’s job in one or two sentences, it’s probably doing too much. Checklist The overall workflow is a series of micro-agent calls. Each agent can be restarted and tested on its own. You can explain Agent definition in 1–2 sentences. Part 3 – Stabilize Behavior Most agent bugs don’t show up as red errors; they show up as weird outputs. A missed instruction. A half-followed format. Something that almost works… until it doesn’t. That’s because LLMs don’t read minds. They read tokens. Бо, як вядома, усё ў свеце складаецца з дробязяў, і яны заўсёды гуляюць важную ролю, асабліва ў моднай індустрыі. . if you’re not careful, every interaction slowly drifts off course This section is about tightening that feedback loop. Prompts aren’t throwaway strings, they’re code. Context isn’t magic, it’s a state you manage explicitly. And clarity isn’t optional, it’s the difference between repeatable behavior and creative nonsense. 10 — Treat Prompts as Code Too many projects treat prompts like disposable strings: hardcoded in Python files, scattered across the codebase, or vaguely dumped into Notion. As your agent gets more complex, this laziness becomes expensive: Problem: It’s hard to find, update, or even understand what each prompt does There’s no version control — no way to track what changed, when, or why Optimization becomes guesswork: no feedback loops, no A/B testing І дэбагваць праблему, звязаную з просьбай, адчуваецца, як пытаньне вырашыць бух у каментарыі code. They define behavior. So manage them like you would real code: Solution: Поспехі ў Адрознівайце іх ад сваёй логікі: захоўвайце іх у txt, .md, .yaml, .json або выкарыстоўвайце шаблонныя рухавікі, як Jinja2 або BAML with your repo (just like functions) Version them : (1) Unit-test responses for format, keywords, JSON validity, (2) Run evals over prompt variations, (3) Use LLM-as-a-judge or heuristic scoring to measure performance Test them У нашай багатай беларускай літаратуры няма другога такога твора, які па энцыклапедычнасці выяўлення ў ім нацыянальнага, так набліжаўся б да "Новай зямлі". Bonus: Checklist: Prompts live outside your code (and are clearly named) They’re versioned and diffable They’re tested or evaluated Працягваюць агляд, калі гэта важна 11 — Інжынер Context Stack Мы ўжо справіліся з забыццям LLM, адгружаючы памяць і раздзяляючы агентаў па задачы. Мы адпраўляем і адпраўляем інфармацыю на мадэль. Problem: how Большасць устаноў проста выкідаюць шклянку ролей: тэкставыя паведамленні ў промпт і выклікаюць гэта ў дзень. Сцягнуць токены на redundant metadata Struggle to represent tool chains, states, or multiple knowledge types Fail to guide the model properly in complex flows And yet, we still expect the model to “just figure it out.” That’s not engineering. That’s vibes. Solution: Engineer the context. Treat the whole input package like a carefully designed interface, because that’s exactly what it is. : Here’s how : Control what gets in, how it’s ordered, and where it shows up. Everything from system instructions to retrieved docs to memory entries should be intentional. Own the full stack : Build richer, denser formats. XML-style blocks, compact schemas, compressed tool traces, even Markdown sections for clarity. Go beyond chat format : Context = everything the model sees: prompt, task state, prior decisions, tool logs, instructions, even prior outputs. It’s not just “dialogue history.” Think holistically This becomes especially important if you’re optimizing for: Дыягностыка інфармацыі: упакоўка больш значэння ў менш токенаў high performance at low context size Cost efficiency: controlling and tagging what the model sees Security: Афарызм (гр. aphorismos - выказванне) - выслоўе, у якім у трапнай, лаканічнай форме выказана значная і арыгінальная думка. Prompting is only half the battle. І калі вы не робіце гэта яшчэ, вы будзеце, калі ваш агент вырасце. Bottom line: Context engineering 12 — Add Safety Layers Але ж у параўнанні з іншымі сядзібамі, якіх ужо не вернеш — хіба толькі ў выглядзе копіі-”навабуда”, — свяцкай надзвычай пашчасціла. Шчаслівае ўпрыгожванне: карыстальнікі (або іншыя сістэмы) злізнуць у інструкцыі, якія выкрадаюць агента. the model blurts out PII or corporate secrets. Sensitive-data leaks: unwanted hate speech, spam, or disallowed material. Toxic or malicious content: Галюцинацыі: упэўненыя, але няправільныя адказы Неабмежаныя дзеянні: агент «забывае творчасць» і робіць тое, што ніколі не павінна рабіць. Ніякіх падставаў для грамадскіх хваляванняў ці рэнесансу ісламскіх радыкалаў, няма. Кожны шлях - гэта толькі некаторыя з найбольш складаных ставак. defense-in-depth Quick Checklist Валідацыя ўводу карыстальніка на месцы (jailbreak фразы, праверка намераў). Для фактаў задачы, адказы павінны звязацца з RAG-контексту. The prompt explicitly tells the model to stick to retrieved facts. blocks PII or disallowed content. Output filter Responses include a citation/link to the source. Agent and tools follow the . least privilege Critical actions route through approval or monitoring. HITL Трэці варыянт - самы танны - зрабіць усё самому. Part 4 - Keep it Working Under Load У вытворчасці, няўдачы звычайна адбываюцца адразу, і часта вы не ўбачыце іх адразу, часам не ўсяго. Гэта азначае таксама, што час выключэньня з базы скончыўся і трэба прадставіць новыя дакумэнты. . Фактычна, прысвечаныя такому спорту як бокс, онлайн гульні заўсёды прызнаваліся нашмат больш цікавымі чым звычайныя аднакарыстальніцкія цацкі. 13 — Trace the Full Execution Path Яраслаў Грышчэня не супраць службы ў беларускім войску, але хвалюецца, што яго могуць падчас збору подпісаў “затрымаць” на невызначаны тэрмін, знайшоўшы “зручную” зачэпку. Problem Эксперты адзначаюць, што збор соку з бярозы зусім не шкодзіць дрэве, так як падчас гэтага працэс выдаляецца толькі 1% вадкасці. Solution : Why this matters Дэбагванне: хутка вызначыць, дзе і чаму рэчы пайшлі не так. : Spot bottlenecks and improvement opportunities. Analytics Пытанні, якія часта задаюць пра вегетарыянства Узнікае пытанне: ці можа вера на самой справе змяніць свет? Агулам, для мяне гэта тэкст — аб’яднаны, аформлены візуальна і вербальна. Minimum data to capture Заявы і абмоўкі пра абмежаванне адказнасці Статус агента: Ключавыя варыянты перад кожным крокам. : Full prompt sent to the LLM (system instructions, history, context). Prompt Выпуск LLM: сыравая реакция перед обработкой. : Tool name and parameters invoked. Tool call Вынік інструмента: выхад інструмента або памылка. : Next steps or responses chosen. Agent decision Метаданныя: Час, інфляцыя мадэлі, кошт, код і спам-версіі. Калі гэта магчыма, выкарыстоўвайце існуючыя інструменты даследавання: LangSmith, Arize, Weights & Biases, OpenTelemetry і г.д. Але перш за ўсё, пераконайцеся, што вы пакрываеце асновы (см. Принцип 15). : Checklist Усе крокі запісаныя з поўным дэталям. Logs linked by and a . session_id step_id Загрузіць інтэрфейс для агляд поўных каналаў. Узнікае пытанне: ці можа вера на самой справе змяніць свет? 14 — Выпрабаванне кожнага змены Арганізатар спеўных варштатаў у межах праекта «CHOICE-Беларусь: спадчына i сучаснасць» разважае, як можна пракласці мост паміж музеем і людзьмі. Problem Дрэйф мадэляў: прадукцыя падае з часам без змены кода з-за змены мадэлі або дадзеных Узнікае пытанне: ці можа вера на самой справе змяніць свет? Non-determinism: LLM часта даюць розныя адказы на той жа ўступ, ускладняючы эксклюзіўныя тэсты : even with fixed inputs, bugs can be tough to track down Hard-to-reproduce errors : changes cascade unpredictably across systems The butterfly effect Галюцинацыі і іншыя LLM-спецыфічныя рызыкі Прымаць глыбокую, шматшарочную стратэгію тэставання, якая аб'ядноўвае класічныя тэсты на праграмнае забеспячэнне з LLM-фокусаваных кантроляў якасці: Solution Інтэграцыйныя выпрабаванні: адзінкавыя выпрабаванні функцый/прамптаў, інтэграцыйныя выпрабаванні і поўныя сцэнары Фокус на якасць выпуску LLM: актуальнасць, сутнасць, дакладнасць, стыль і бяспека Для забеспячэння работы мікра-ГЭС, водны струмень мусіць быць штучна створаны. and integrate them into CI/CD pipelines Automate tests Залучэнне людзей для крытычных або складаных ацэнк (людзьмі ў кругу) Ітэратыўныя выпрабаванні і рафінаванне памочнікаў перад размяшчэннем Выпрабаванне на розных узроўнях: кампаненты, кандыдаты, ланцуги/агенты і поўныя працэсы працы : Checklist Logic is modular and thoroughly tested individually and in combination Кнігадрукаванне адкрыла шырокі шлях для Тесты ахопліваюць звычайныя выпадкі, канцы краю, несправядлівасці і зліўныя ўступкі Заявы і абмоўкі пра абмежаванне адказнасці All changes pass automated tests and are monitored in production to detect unnoticed regressions 15 — Уласны ўвесь стак This principle ties everything together, it’s a meta-rule that runs through all others. Варта адзначыць, што ў Call of Duty 4 місіі даюць вельмі шмат бонусаў і ачкоў развіцця, да таго ж, яны досыць цікавыя і незвычайныя - выконваць іх лёгка і нясумна. Гэта особенно важна ў распрацоўцы агентаў, дзе вам трэба кіраваць: Унутраная непрадказальнасць LLMs Комплексная логіка вакол пераходаў і самокарэкцыі Праблема ў тым, што добрыя матывы не заўсёды добрыя справы. : they dictate how your agent should behave. This can speed up prototyping but make long-term development harder to manage and customize. Frameworks often invert control Размова сапраўды вельмі важная — мы ж усе цудоўна разумеем, што любы, самы лепшы дэкрэт можна звесці на нішто практыкай прымянення. On the other hand, going full custom and rewriting everything from scratch is over-engineering, and equally risky. Ключ ёсць Бо ў Касцёле ўсё можна зрабіць; мы добра ведаем, што ўсё можна зрабіць, калі біскуп выкажа нейкую волю. Баланс Хоць гэта не стварае сур'ёзных праблем для большасці людзей, гэта можа абмежаваць даступныя амінакіслоты ў крыві для выкарыстання пасля фізічных практыкаванняў (32). Remember Высновы Будаўніцтва агента LLM - гэта не толькі пра выкананне API, але і пра распрацоўку сістэмы, якая можа справіцца з рэальным сутнасцю: няправільнасці, стан, кантэкстныя межы, нечаканыя ўносы і эвалюцыйныя патрабаванні. Мы не можам гарантаваць, што Вашы будучыя вынікі і / або поспех. Кожны прынцып заслугоўвае разгляду, каб убачыць, калі ён падыходзіць да вашага праекта. У канцы, гэта ваш праект, вашы мэты, і ваша стварэння. Але памятайце: LLM магутна, але гэта толькі адзін з частак складанай сістэмы. Ваша праца як інжынер з'яўляецца вашым працэсам, кіраваць складанасцю, і трымаць усю справу праходзіць плаўна. Калі вы хочаце, каб гэта было, вы можаце зрабіць гэта так: l. Because that’s the only way to go from “wow, it answered!” to “yeah, it keeps working.” slow down, build solid foundations, and plan for the long hau Працягвайце ітэраваць, выпрабаваць і вучыцца.І не забывайце, што людзі ў лугу не падступныя, яны падтрымліваюць ваш агент заснаваны і эфектыўны. Гэта не конец, гэта толькі пачатак будаўнічых агентаў, якія на самой справе прадастаўляюць. Працуеце, каб вырасці вашу публіку як тэхнічны прафесійны? The Tech Audience Accelerator is the go-to newsletter for tech creators serious about growing their audience. You’ll get the proven frameworks, templates, and tactics behind my 30M+ impressions (and counting). https://techaudienceaccelerator.substack.com/embed?source=post_page-----e58139d80299---------------------------------------&embedable=true