Тази година, в областта на технологиите, започна с възхода на агентическия ИИ. Малко по-малко от два месеца до 2026 г. дебатът за ИИ вече е , техните способности, и техните ползи за бизнеса.Между агенти изобретяване За да назовем само няколко: управленските рискове от делегирането на задачи на машините, въздействието върху човешката работна сила, нарастващата нужда от . hijacked by AI agents Кръстоносните религии human control and oversight Тъй като съм алергичен към всякаква форма на технологичен хип, няма да се поддавам на разказа, че AI агентите завладяват планетата най-късно до Коледа.Но компаниите наистина изследват възможността за внедряване на AI агенти за оптимизиране на работните процеси.Растещият интерес към тези решения изглежда потвърден от появата на рамките за управление на агенцията AI. Нека видим няколко от тях. Ранните стъпки на Сингапур по управлението на агенти на AI През януари 2026 г. Infocomm Media Development Authority (IMDA) на Сингапур публикува На първо място, (доброволната) рамка признава, че „достъпът на агентите до чувствителни данни и способността им да променят своята среда“ поражда изцяло нов профил на риска. Тъй като агентите могат да извършват финансови транзакции или да променят бази данни, съдържащи лични данни, мащабът на тези потенциални рискове не може да бъде сведен до минимум. Агентска рамка за управление на ИИ risk of outcomes becoming more unpredictable Агентска рамка за управление на ИИ Моделът на Сингапур не е за пренаписване на управлението, а за Например, принципите на справедливост и прозрачност продължават да се прилагат повече от всякога, както и човешката отчетност, човешкият надзор и контрол, които трябва да се прилагат непрекъснато в целия жизнен цикъл на ИИ, доколкото е възможно. adapting AI considerations and translating them for agents Agentic AI risks Рамката на Сингапур признава, че рисковете, свързани с АИ на Агенцията, не са твърде различни от тези на Рискове, свързани с LLM (SQL и инхалация на сигнали, халюцинации, предразсъдъци, изтичане на данни и т.н.). Агентът може да халюцинира, като направи грешен план за завършване на задача, или на по-късен етап, по време на изпълнение, като назове несъществуващи инструменти или ги назове по пристрастен начин. Традиционни the way they manifest themselves Рисковете са още по-големи, когато агентите си взаимодействат помежду си.Грешка от един агент може да доведе до каскаден ефект, ако Както бе споменато по-горе, сложните взаимодействия могат да доведат до непредсказуеми резултати и неочаквани затруднения в веригата от действия. wrong output is passed on to other agents Моделът идентифицира пет ключа, потенциално : harmful categories of risks Неправилно действие.Представете си агент на ИИ, който не е успял да ескалира ИТ инцидент към човешки оператори, защото откритата аномалия не съответства на предварително определени прагове.В зависимост от контекста, неправилното действие може да доведе до компрометиране на системата. Този риск се конфигурира от агент, който предприема действия, които са извън допустимия му обхват. Предразсъдъчни или несправедливи действия.Ние сме запознати с предразсъдъците, тъй като това е често срещан проблем с традиционния ИИ, особено с моделите за бинарна класификация. Класически сценарий е, когато агентите могат да разкриват чувствителна информация случайно, без да я разпознават като чувствителна, или нарушение на сигурността от злонамерени дейци, които получават достъп до лична информация чрез агенти. Този риск се отнася до събитие, при което неправомерно действие, предприето от агент, взаимодействащ с други системи, се разпространява, нарушавайки потока на информация или действия (например, погрешно изтриване на производствена кодова база). Governance model Моделът на управление на агенти на IMDA се основава на четири стълба. 1. Assessing risks upfront По същество тази стъпка включва за разгръщане на агенти, и . determining risks and use cases designing a risk control system В основата на определянето на случаите на употреба е идентифицирането на риска, описан като функция на и Моделът илюстрира поредица от фактори, влияещи върху потенциалното въздействие на агентите на ИИ (домейн на разгръщане, достъп до чувствителни данни и външна система, обхват и обратимост на действията на агентите) и вероятност (ниво на автономия на агентите, сложност на задачите). Честите заплахи могат да бъдат отравяне на паметта, злоупотреба с инструменти и компрометиране на привилегиите. impact likelihood potential external attack scenarios Следващата логична стъпка е да се определят ограниченията и разрешенията на агентите. Това означава да се създадат политики, процедури и протоколи, които ясно очертават ограниченията на агентите по отношение на достъпа до инструменти и системи, тяхното ниво на автономност и област на въздействие (напр. разполагане на агенти в „самостоятелни среди“ с ограничен достъп до мрежа и данни, особено когато те изпълняват високорискови задачи като изпълнение на код). . a mix of traditional identity access and human supervision is required 2. Making humans truly accountable Вторият стълб е загрижен В рамките на организацията и извън нея е възможно да се Основната предпоставка на IMDA е, че организациите и физическите лица остават отговорни за действията на своите агенти. establishing clear responsibilities meaningful human oversight В рамките на организацията трябва да се определят отговорностите за: а) , включително определяне на целите на високо равнище на агентите, границите и цялостния подход към управлението; , включително определяне на изискванията на агентите, проектиране, контрол, безопасно изпълнение и мониторинг; , включително установяване на базови предпазни мерки и процедури за изпитване на сигурността; Външни участници могат да включват, например, разработчици на модели или агентни доставчици на ИИ, и за тях организацията трябва да определи ясни отговорности. key decision makers product teams cybersecurity team users Разработването на смислен човешки надзор включва три мерки.Първо, компаниите трябва да , като например високи или необратими действия (редактиране на чувствителни данни или трайно изтриване на данни), или външно и атипично поведение (агенти, действащи извън техния обхват). , например чрез обучение на хора за идентифициране на общи режими на неуспех и редовно одитиране на човешките практики за контрол. . define action boundaries requiring human approval continued effectiveness of human oversight real-time alert monitoring 3. Implementing technical and control processes На върха на Третият стълб, свързан с техническия контрол на LLM, препоръчва добавяне на нови контроли, необходими от новостта на агентическия AI през целия жизнен цикъл. Традиционни Например, компаниите трябва да въведат строги проверки преди разполагане Компаниите трябва да приемат цялостен подход при тестването на агенти, включително оценяване на нови рискове, работни потоци и реалистични среди в редица набори от данни и оценяване на резултатите от теста в мащаб. AI, агентите трябва непрекъснато да бъдат наблюдавани и тествани след разполагането, така че хората да могат да се намесят в реално време и да дебютират, когато е необходимо. и . using test agents Традиционни agents work at speed companies may struggle to keep up 4. Enabling end-user responsibility И накрая, за да се гарантира отговорността и отчетността на крайните потребители – т.е. тези, които ще използват и разчитат на агенти на ИИ – компаниите трябва да се съсредоточат върху: (информация за възможностите и ограниченията на агентите) и Организациите могат да се съсредоточат върху прозрачността за потребителите, които взаимодействат с агенти (външни потребители, като например обслужване на клиенти или HR агенти) и върху образованието за потребителите, които интегрират агенти в работните си процеси (вътрешни потребители, като асистенти за кодиране). transparency education UC Berkeley’s Agentic AI framework Агентен AI рамка на UC Berkeley През февруари 2016 г. група от Центърът за дългосрочна киберсигурност на UC Berkeley Рамката на риска Подобно на IMDA, в доклада се признават увеличените рискове, въведени от агенти, включително "непреднамерено преследване на цели, неоторизирана ескалация на привилегиите или придобиване на ресурси и други поведения, като саморепликация или съпротива срещу изключване". "Традиционните, модели-центрирани подходи за управление на риска са сложни и изискват управление на системно ниво". изследователи Профил на агенти по стандарти за управление на риска broadly reflecting NIST AI Risk Management Framework (AI RMF) unique challenges Рамката на UC Berkeley е изрично предназначена за Въпреки това, според авторите, тя може да се използва и от политиците и регулаторите „за да се оцени дали агентивните системи за ИИ са проектирани, оценявани и разгърнати в съответствие с водещите практики за управление на риска“. single- or multi-agentic AI systems developers and deployers Agentic AI risks В сравнение с IDMA, документът идентифицира по-широк спектър от рискове: Дискриминация и токсичност, включително обратна връзка, разпространение на токсично съдържание и различия в наличността, качеството и способността на агентите. Поверителност и сигурност, включително непреднамерено разкриване на лични или чувствителни данни, изтичане на данни и произтичащи от това несъответствия. Дезинформация, особено когато халюцинации и погрешни изходи от един агент се използват повторно от други агенти. Злонамерени актьори и злоупотреби, включително по-лесно изпълнение на сложни атаки, автоматизирано злоупотреба, масова манипулация, измама и координирани кампании за влияние. Човешко-компютърно взаимодействие, като например намален човешки надзор, социално убедително поведение и трудности на потребителите в разбирането или оспорването на поведението на агентите. Загуба на контрол, включително подкопаване на надзора, бързо изпълнение, което надхвърля наблюдението и реакцията, и поведение, което подкопава механизмите за изключване или задържане. Социално-икономически и екологични щети, включително неравнопоставеност при достъпа до агентни възможности, колективно обезсилване и мащабни икономически и екологични въздействия. Сигурност на AI системите, неуспехи и ограничения, включително автономно възпроизвеждане, несъответствие, измама, сговор, целеустремено планиране, реално въздействие и недостатъчен човешки надзор. Focus on human control Подобно на IMDA, стандартите на UC Berkeley са насочени главно към Фокусирайки се върху: enhance human oversight Човешки контрол и отчетност (ясни роли и отговорности, включително ясни определения на роли, контролни пунктове за намеса, пътища за ескалация и механизми за изключване) Оценка на риска на системно ниво (особено полезна за взаимодействия с множество агенти, използване на инструменти и достъп до околната среда) Постоянно наблюдение и надзор след разполагане (агентното поведение може да се развива с течение на времето и в различни контексти) Защита в дълбочина и сдържане (третиране на агенти като ненадеждни субекти поради ограниченията на съществуващите техники за оценка) Прозрачност и документация (ясна комуникация на заинтересованите страни относно границите на системата, ограниченията и решенията за смекчаване на риска) Авторите признават ограниченията на собствения си стандарт.Първо, Агентските таксономии на AI , което ограничава „способността за хармонизиране на препоръките в организации и юрисдикции“. Второ, bкомплексното многосистемно поведение и повишената автономия затрудняват осигуряването на стабилен човешки контрол и правилното разпределяне на отговорността. widely vary and are inconsistently applied across the world Поради тази причина, предупреждават авторите, статията приема „предпазен подход, подчертавайки консервативните предположения, слоевите предпазни мерки и непрекъснатото преоценяване“.Вместо статичен контролен списък за управление, тя трябва да се разглежда като „жива рамка, предназначена да се развива заедно с агентически изследвания на ИИ, практики за разполагане и норми за управление“. NIST design Както бе споменато по-горе, дизайнът на Това е умишлено решение на авторите да помогнат на компаниите да прилагат процедурите за управление на риска върху структура, с която са запознати и да изградят рамка, която е . overlaps that of NIST AI RMF consistent with existing practices More Agentic AI frameworks Повече агентни AI рамки IMDA и UC Berkeley рамки са публикувани наскоро, но са Има препратки към различни други модели, които очертават процеси и процедури за справяне с рисковете, породени от агентите на ИИ. not the only Agentic AI governance programmes to be proposed Agentsafe През декември 2025 г. трима ирландски експерти на IBM публикуваха статия, предлагаща , а за агентни системи, базирани на LLM. Агенцията tool-agnostic governance framework На практика Agentsafe „операционизира MIT AI Risk Repository чрез картографиране на абстрактни категории рискове в структуриран набор от технически и организационни механизми“, съобразени с специфичните за агента рискове. , ескалира действия с високо въздействие върху човешкия надзор и оценява системите въз основа на сценарии за инциденти преди разполагане, включително сигурност, поверителност, справедливост и системна безопасност. , предлагайки методология, която свързва рисковете с тестове, показатели и произход. constraints to risky behaviours assurance through evidence and auditability Агентът изглежда е Естествено разширение на Тя се основава на етични принципи (отговорност, прозрачност и безопасност), е оформена от структурирани процеси за управление на риска, съобразени с международните стандарти, и изглежда носи потенциала да се справят с две ключови предизвикателства на агенти AI: и . very promising framework Традиционни timely containment effective human oversight AAGATE През ноември 2025 г. 11 предприемачи, изследователи и експерти от индустрията публикуват Предлагайки на , определена като “NIST AI RMF-ориентирана платформа за управление за агентен AI”. Традиционните AppSec и инструменти за съответствие са предназначени за детерминистичен софтуер, а не за самонасочени системи за разсъждение, способни на импровизация. хартия Agentic AI Governance Assurance & Trust Engine (AAGATE) предположението За да се премахне тази пропаст, Агате (Govern, Map, Measure, Manage), интегрирайки „специализирани рамки за сигурност за всяка функция на RMF: рамката Agentic AI Threat Modeling MAESTRO за Map, хибрид на AIVSS на OWASP и SSVC за Measure на SEI, както и ръководството за управление на Агентския Red Teaming на AI на Cloud Security Alliance“. авторите обясняват, че тази слоевирана архитектура ще позволи „безопасно, отговорно и мащабируемо разполагане“. operationalises the above-mentioned NIST AI RMF principles Можете да разгледате опростено резюме на AAGATE, публикувано на . Облачен алианс за сигурност NVIDIA’s Agentic AI risk framework Ноември 2025 г. също така е свидетел на публикуването на Агенция за сигурност и сигурност на AI Група от експерти от Компанията, базирана в Цюрих Рамката въвежда Под наблюдението на хора, за да „помогне за откриване, оценка и смекчаване на контекстуални рискове“. рамката NVIDIA Lakera novel idea of using auxiliary AI models and agents In a nutshell, the risk framework involves four actors: Глобален контекстуализиран агент по безопасност, който определя и прилага системни политики, прагове на риск и правила за ескалация на всички агенти, с пълна видимост и одит. Local Contextualized Attacker Agent, който действа като вграден червен екип, проучващ системата с реалистични и контекстуални атаки на повърхността на възникващите рискове. Локален контекстуализиран агент на защитника, който прилага защити в лентата по време на изпълнение, прилага най-малко привилегии, валидира използването на инструменти и съдържа опасно поведение. Местният агент за оценка, който следи поведението на агента, за да измери безопасността, надеждността и отклоненията, задействайки предупреждения и действия за управление. The framework operates in two phases: Етап 1: Откриване и оценка на риска. Тя се провежда в среда с пясъчни кутии и е предназначена да разкрива възникващи рискове, които не се появяват при статично тестване. Вграденият нападател може да симулира атаки на противника (бързо инжектиране, отровени данни за извличане или несигурна верига от инструменти), докато оценителът наблюдава пълните следи от изпълнение, за да измери безопасността, надеждността и спазването на правилата. Целта е да се идентифицират уязвимостите, да се оценят праговете на риска и да се проектират предразполагащи защитни контроли. Етап 2: Вградено смекчаване и непрекъснато наблюдение. Той прилага тези контроли в производството. Системата работи с вътрешни защити, които налагат достъп с най-малко привилегии, валидират повиквания към инструменти, прилагат предпазни устройства и съдържат опасно поведение в реално време. Компонент за мониторинг непрекъснато оценява поведението на системата спрямо очакваните траектории и предварително определени прагове на риск, задействайки предупреждения или човешка ескалация, когато е необходимо. Тази система гарантира, че сигурността е адаптивен, непрекъснат процес на управление, който се занимава с поведение, променящи се контексти и нововъзникващи заплахи. Agentic Risk & Capability (ARC) Framework Отговорният екип на AI в GovTech Singapore AI Practice публикува на на , програма за техническо управление „за идентифициране, оценка и смекчаване на рисковете за безопасността и сигурността в агентни системи за ИИ“. GitHub Agentic Risk & Capability (ARC) framework Интересното е, че екипът разработи таксономия, ориентирана към способностите, която категоризира агентите на AI в три основни области: Когнитивни способности (разсъждение, планиране, учене и вземане на решения) Възможности за взаимодействие (как агентите възприемат, общуват и влияят върху околната среда или хората) Оперативни способности (без значение дали агентите изпълняват действия безопасно и ефективно) Те също така създадоха регистър на риска, свързващ способностите със специфични рискове: Съставни рискове (отпадъци или уязвимости в системните модули) Дизайнерски рискове (архитектура, логика или проблеми с вземането на решения) Рискове, специфични за способностите (заплахи, произтичащи от способностите на агента, хакване с награди) Всеки риск след това се съпоставя със специфични технически контроли (гаранции, политики, мониторинг), за да се смекчи, като се осигури пряка проследяемост на риска. Научете повече на . GitHub Getting ahead of the singularity Да се измъкнем от уникалността Ние сме далеч от Въпреки това, не е изненадващо, че промененото ни възприятие за това какво всъщност са АИ агентите – сложни софтуерни системи, за разлика от хуманоидните роботи, готови да ни изтребят в съня ни – ни кара да се притесняваме за последните, а не за първите. horrors of the AI singularity В момента тези страхове са ирационални и трябва да бъдат поставени в правилния контекст. Рамките за управление, които се появяват в световен мащаб, сигнализират, че Agentic AI е тук, за да остане, потенциалните рискове са със сигурност реални и някои участници работят за това. . AI agents bringing as many benefits as potential dangers address them proactively