Este ano, en tecnoloxía, comezou co ascenso de Agentic AI. Un pouco menos de dous meses en 2026, o debate de AI xa foi , as súas capacidades, e os seus beneficios para as empresas.Entre axentes inventando De noite e escenarios de ciencia ficción, emerxe un conxunto máis prosaico de preguntas.Só por nomear algúns: os riscos de gobernanza de delegar tarefas a máquinas, o impacto sobre a forza de traballo humana, a crecente necesidade de . hijacked by AI agents Relixións crustafarianas human control and oversight Dado que son alérxico a calquera forma de hype tecnolóxico, non vou ceder á narración que ve axentes de IA tomando o planeta polo Nadal máis tarde. Pero as empresas están realmente explorando a posibilidade de implementar axentes de IA para optimizar os fluxos de traballo. Os primeiros pasos de Singapur sobre a gobernanza da IA axente En xaneiro de 2026, a Autoridade de Desenvolvemento de Medios Infocomm de Singapur ("IMDA") publicou o seu En primeiro lugar, o marco (voluntario) recoñece que o "acceso aos datos sensibles dos axentes e a capacidade de facer cambios no seu ambiente" xera un perfil de risco completamente novo. Dado que os axentes poden realizar transaccións financeiras ou alterar bases de datos que conteñan datos persoais, a magnitude destes riscos potenciais non se pode minimizar. Marco de gobernanza da Axencia risk of outcomes becoming more unpredictable Marco de gobernanza da Axencia O modelo de Singapur non é sobre reescribir a gobernanza, senón Por exemplo, os principios de equidade e transparencia continúan aplicándose máis que nunca, así como a responsabilidade humana, a supervisión humana e o control, que deben implementarse continuamente ao longo do ciclo de vida da IA, na medida do posible. adapting AI considerations and translating them for agents Agentic AI risks O marco de Singapur recoñece que os riscos de IA de Axencia non son moi diferentes do Riscos relacionados co LLM (SQL e inxección de prompt, alucinacións, prexuízos, fuga de datos, etc.). Un axente pode alucinar facendo un plan equivocado para completar unha tarefa, ou nunha etapa posterior, durante a execución, chamando ferramentas non existentes ou chamándoas dun xeito prexudicial. Tradicións the way they manifest themselves Os riscos son aínda maiores cando os axentes interactúan entre si.Un erro por un axente pode producir un efecto cascade, se o Como se mencionou anteriormente, as interaccións complexas poden levar a resultados imprevisibles e obstáculos inesperados na cadea de accións. wrong output is passed on to other agents O modelo identifica cinco claves, potencialmente : harmful categories of risks Acción errónea.Imaxina un axente de IA que non escale un incidente de TI aos operadores humanos porque a anomalía detectada non coincide cos limiares predefinidos. Este risco é configurado por un axente que realiza accións que se sitúan fóra do seu alcance permitido. Estamos familiarizados co prexuízo, xa que este é un problema frecuente cos modelos tradicionais de AI, especialmente os modelos de clasificación binaria.A razón aquí é a mesma: pense nun axente que tome unha decisión de contratación preconcebida. Un escenario clásico é onde os axentes poden estar a revelar información sensible inadvertidamente, sen recoñecelo como sensible, ou unha violación de seguridade por actores maliciosos que obteñen acceso a información privada a través de axentes. Este risco refírese ao evento no que se propaga unha acción ilícita realizada por un axente que interactúa con outros sistemas, interrompendo o fluxo de información ou accións (por exemplo, borrando por erro unha base de código de produción). Governance model O modelo de gobernanza de IA axente do IMDA baséase en catro alicerces. 1. Assessing risks upfront En xeral, este proceso implica para o desprazamento de axentes, e . determining risks and use cases designing a risk control system central para determinar casos de uso é a identificación do risco, descrito como unha función de e O modelo ilustra unha serie de factores que afectan o potencial impacto dos axentes de IA (dominio de implantación, acceso a datos sensibles e sistemas externos, alcance e reversibilidade das accións dos axentes) e probabilidade (nivel de autonomía dos axentes, complexidade das tarefas). As ameazas comúns poden ser a intoxicación da memoria, o mal uso de ferramentas e o compromiso de privilexios. impact likelihood potential external attack scenarios O seguinte paso lóxico é definir os límites e permisos dos axentes. Isto significa elaborar políticas, procedementos e protocolos que definen claramente os límites dos axentes en termos de acceso a ferramentas e sistemas, o seu nivel de autonomía e a área de impacto (por exemplo, o despregamento de axentes en "ambiente auto-contenido" con acceso limitado á rede e aos datos, especialmente cando realizan tarefas de alto risco como a execución de código). . a mix of traditional identity access and human supervision is required 2. Making humans truly accountable As preocupacións do segundo pilar dentro e fóra da organización, permitindo A premisa fundamental da IMDA é que as organizacións e os individuos permanecen responsables das accións dos seus axentes. establishing clear responsibilities meaningful human oversight Dentro da organización, deberán definirse as responsabilidades para: a) , incluíndo o establecemento de obxectivos de alto nivel dos axentes, límites e o enfoque xeral de gobernanza; b) , que inclúe a definición dos requisitos dos axentes, o deseño, os controis, a implementación segura e o seguimento; c) , incluíndo o establecemento de gardas de seguridade de base e procedementos de proba de seguridade; d) Os actores externos poden incluír, por exemplo, desenvolvedores de modelos ou provedores de IA axentes, e para estes, a organización debe establecer responsabilidades claras. key decision makers product teams cybersecurity team users O deseño dunha supervisión humana significativa implica tres medidas: primeiro, as empresas deben , como accións altas ou irreversibles (editar datos sensibles ou eliminar permanentemente datos), ou comportamentos externos e atípicos (axentes que actúan máis aló do seu alcance). , por exemplo, adestrando aos humanos para identificar os modos comúns de fracaso e auditar regularmente as prácticas de control humano. . define action boundaries requiring human approval continued effectiveness of human oversight real-time alert monitoring 3. Implementing technical and control processes No cumio da O control técnico relacionado co LLM, o terceiro pilar recomenda a adición de novos controis requiridos pola novidade da AI de Axente ao longo do ciclo de vida. Tradicións Por exemplo, as empresas deben introducir estritos controis pre-desenvolvemento As empresas deben adoptar un enfoque holístico ao probar os axentes, incluíndo avaliar novos riscos, fluxos de traballo e ambientes realistas en todos os conxuntos de datos, e avaliar os resultados de probas a escala. AI, os axentes deben ser continuamente monitorizados e probados despois do despregamento, para que os humanos poidan intervir en tempo real e debugar onde sexa necesario. e . using test agents Tradicións agents work at speed companies may struggle to keep up 4. Enabling end-user responsibility Por último, para garantir a responsabilidade e a responsabilidade dos usuarios finais -é dicir, aqueles que usarán e dependerán dos axentes de IA- as empresas deben centrarse en: (Comunicar as capacidades e limitacións dos axentes) e As organizacións poden centrarse na transparencia para os usuarios que interactúan con axentes (usuarios externos, como o servizo ao cliente ou axentes de recursos humanos) e na educación para os usuarios que integran axentes nos seus procesos de traballo (usuarios internos, como axentes de codificación). transparency education UC Berkeley’s Agentic AI framework O marco de IA axente da UC Berkeley En febreiro de 2026, un grupo de O Centro para a Ciberseguridade a Longo Prazo de UC Berkeley Un marco de risco Do mesmo xeito que o IMDA, o documento recoñeceu os riscos aumentados introducidos polos axentes, incluíndo "persecución non intencionada de obxectivos, escalada non autorizada de privilexios ou adquisición de recursos, e outros comportamentos, como auto-replicación ou resistencia ao peche". “Complicar os enfoques tradicionais de xestión de riscos centrados en modelos e esixir a gobernanza a nivel de sistemas”. Investigadores Normas de xestión de riscos de IA broadly reflecting NIST AI Risk Management Framework (AI RMF) unique challenges O marco de UC Berkeley foi explicitamente deseñado para Non obstante, os autores din que tamén pode ser usado polos responsables políticos e reguladores "para avaliar se os sistemas de IA axentes foron deseñados, avaliados e implantados de acordo coas principais prácticas de xestión de riscos". single- or multi-agentic AI systems developers and deployers Agentic AI risks Comparado co IDMA, o documento identifica unha gama máis ampla de riscos: Discriminación e toxicidade, incluíndo ciclos de retroalimentación, propagación de contido tóxico e diferenzas na dispoñibilidade, calidade e capacidade dos axentes. Privacidade e seguridade, incluíndo divulgación non intencionada de datos persoais ou sensibles, fuga de datos e resultados desequilibrados resultantes. Desinformación, especialmente cando as alucinacións e saídas erróneas dun axente son reutilizadas por outros axentes. Actores maliciosos e malos usos, incluíndo a execución máis fácil de ataques complexos, malos usos automatizados, manipulación masiva, fraude e campañas de influencia coordinadas. Interacción humano-computador, como redución da supervisión humana, comportamento socialmente persuasivo e dificultade dos usuarios para comprender ou desafiar o comportamento dos axentes. Perda de control, incluíndo subversión de supervisión, execución rápida que supera a supervisión e resposta, e comportamentos que socavan mecanismos de apagamento ou contención. Danos socioeconómicos e ambientais, incluíndo desigualdades no acceso ás capacidades de axentes, desempoderamento colectivo e impactos económicos e ambientais a gran escala. Seguridade do sistema de IA, fallos e limitacións, incluíndo replicación autónoma, desalineamento, engano, colusión, planificación orientada a obxectivos, impacto do mundo real e supervisión humana insuficiente. Focus on human control Do mesmo xeito que o IMDA, os estándares de UC Berkeley teñen como principal obxectivo: Concéntrase en: enhance human oversight Control humano e responsabilidade (roles e responsabilidades claras, incluíndo definicións claras de roles, puntos de control de intervención, vías de escalada e mecanismos de peche) Avaliación de riscos a nivel de sistema (especialmente útil para interaccións multi-axentes, uso de ferramentas e acceso ao medio ambiente) Seguimento continuo e supervisión post-desenvolvemento (o comportamento axente pode evolucionar ao longo do tempo e a través de contextos) Defensa en profundidade e contención (tratando aos axentes como entidades non de confianza debido ás limitacións das técnicas de avaliación actuais) Transparencia e documentación (comunicación clara de límites do sistema, limitacións e decisións de mitigación de riscos ás partes interesadas) Os autores recoñecen as limitacións do seu propio estándar.En primeiro lugar, as taxonomías da IA axente , que limita "a capacidade de harmonizar as recomendacións entre organizacións e xurisdicións".En segundo lugar, o comportamento multi-sistema complexo e a maior autonomía dificultan garantir un control humano robusto e a correcta asignación de responsabilidade. widely vary and are inconsistently applied across the world Por esta razón, advirten os autores, o artigo adopta un "enfoque preventivo, enfatizando as suposicións conservadoras, as salvagardas estratificadas e a reavaliación continua". En lugar dunha lista de verificación estática de gobernanza, debería ser visto como "un marco vivo destinado a evolucionar xunto á investigación de IA axente, as prácticas de implementación e as normas de gobernanza". NIST design Como se mencionou anteriormente, o deseño Esta é unha decisión intencionada dos autores para axudar ás empresas a aplicar os procedementos de xestión de riscos a unha estrutura que coñecen e construír un marco que é . overlaps that of NIST AI RMF consistent with existing practices More Agentic AI frameworks Máis frameworks de AI Os cadros de IMDA e UC Berkeley foron publicados recentemente, pero son Hai referencias a varios outros modelos que describen procesos e procedementos para abordar os riscos que presentan os axentes de IA. not the only Agentic AI governance programmes to be proposed Agentsafe En decembro de 2025, tres expertos irlandeses de IBM publicaron un artigo propondo , a para sistemas de axentes baseados en LLM. axentes tool-agnostic governance framework Na práctica, Agentsafe "operacionaliza o repositorio de riscos de IA do MIT mapeando categorías abstractas de risco nun conxunto estruturado de mecanismos técnicos e organizativos", adaptados aos riscos específicos dos axentes. , escala accións de alto impacto á supervisión humana, e avalía os sistemas en base a escenarios de incidentes previos á implantación, incluíndo seguridade, privacidade, equidade e seguridade sistémica. , ofrecendo unha metodoloxía que conecta os riscos cos test, as métricas e a procedencia. constraints to risky behaviours assurance through evidence and auditability A policía parece ser unha Unha extensión natural do Construído sobre principios éticos (responsabilidade, transparencia e seguridade), está formado por procesos estruturados de xestión de riscos aliñados cos estándares internacionais, e parece levar o potencial para abordar dous retos clave de Agentic AI: e . very promising framework Tradicións timely containment effective human oversight AAGATE En novembro de 2025, sobre un lado decisivamente máis técnico, 11 emprendedores, investigadores e expertos da industria publicaron un Propoñendo o , definido como unha "NIST AI plataforma de gobernanza alineada RMF para Agentic AI". “As ferramentas tradicionais de AppSec e de conformidade foron deseñadas para software determinista, non para sistemas de razoamento auto-direccionados capaces de improvisación”. Papel Agentic AI Governance Assurance & Trust Engine (AAGATE) suposicións Para pechar esta brecha, AAGATE (Govern, Map, Measure, Manage), integrando "marcos de seguridade especializados para cada función RMF: o marco Agentic AI Threat Modeling MAESTRO para Map, un híbrido do AIVSS de OWASP e o SSVC de SEI para Measure, e a Axencia AI Red Teaming Guide para Xestión da Cloud Security Alliance". operationalises the above-mentioned NIST AI RMF principles Podes ver un resumo simplificado de AAGATE publicado na . Alianza de Seguridade en Nube NVIDIA’s Agentic AI risk framework Novembro 2025 tamén foi testemuña da publicación dunha Axencia de Seguridade e Seguridade de IA por un grupo de expertos de e unha empresa AI con sede en Zúric O proxecto introduce o A súa misión é “asistir no descubrimento, avaliación e mitigación de riscos contextuais”. marco NVIDIA Lakera novel idea of using auxiliary AI models and agents In a nutshell, the risk framework involves four actors: Axente global de seguridade contextualizada, que establece e aplica políticas de todo o sistema, limiares de risco e regras de escalada en todos os axentes, con plena visibilidade e audibilidade. Local Contextualized Attacker Agent, que actúa como un equipo vermello incorporado, explorando o sistema con ataques realistas e conscientes do contexto para a superficie de riscos emerxentes. Local Contextualized Defender Agent, que aplica proteccións en banda no tempo de execución, aplicando o privilexio mínimo, validando o uso da ferramenta e contendo comportamento inseguro. Axente de avaliación local, que monitora o comportamento do axente para medir a seguridade, fiabilidade e desviacións, desencadeando alertas e accións de gobernanza. The framework operates in two phases: Fase 1: Descubrimento e avaliación de riscos. Ten lugar nun ambiente de caixa de area e está deseñado para descubrir riscos emerxentes que non aparecen nas probas estáticas. Un atacante incorporado pode simular ataques adversarios (inxección rápida, datos de recuperación envelenados ou cadea de ferramentas inseguras), mentres que un avaliador monitora trazas de execución completas para medir a seguridade, fiabilidade e cumprimento de políticas. Fase 2: Mitigación incorporada e seguimento continuo. Aplica eses controis na produción. O sistema funciona con defensas en banda que aplican o acceso de menos privilexios, validan as chamadas de ferramentas, aplican gardas e conteñen o comportamento inseguro en tempo real. Un compoñente de seguimento continúa avaliando o comportamento do sistema fronte ás traxectorias esperadas e os limiares de risco predefinidos, desencadeando alertas ou a escalada humana cando sexa necesario. Este sistema asegura que a seguridade é un proceso de gobernanza adaptativo e continuo que aborda o comportamento, os contextos cambiantes e as ameazas emerxentes. Agentic Risk & Capability (ARC) Framework O equipo de IA responsable na práctica de IA de GovTech Singapore publicado en O , un programa de gobernanza técnica "para identificar, avaliar e mitigar riscos de seguridade e seguridade en sistemas de IA axentes". GitHub Agentic Risk & Capability (ARC) framework Curiosamente, o equipo desenvolveu unha taxonomía centrada en capacidades que categoriza aos axentes de IA en tres dominios principais: Capacidades cognitivas (razoamento, planificación, aprendizaxe e toma de decisións) Capacidade de interacción (como os axentes perciben, comunican e inflúen nos ambientes ou nas persoas) Capacidade operativa (se os axentes executan accións de forma segura e eficiente) Tamén produciron un rexistro de riscos que vincula as capacidades a riscos específicos: Riscos de compoñentes (erros ou vulnerabilidades nos módulos do sistema) Riscos de deseño (problemas de arquitectura, lóxica ou ciclo de decisións) Riscos específicos da capacidade (ameazas derivadas das habilidades do axente, hacking de recompensas) Cada risco é logo mapeado a controis técnicos específicos (guardrails, políticas, monitorización) para mitigalo, proporcionando rastrexabilidade directa de control de risco. Descubre máis en . GitHub Getting ahead of the singularity Camiñando cara á singularidade Estamos moi lonxe da Non obstante, non é de estrañar que a nosa percepción alterada do que realmente son os axentes de IA -sistemas de software complexos en contraste cos robots humanoides preparados para exterminarnos no noso sono- nos empuxe a preocuparnos polo último en vez do primeiro. horrors of the AI singularity Actualmente, estes medos son irracionais e deben ser postos no contexto correcto. Os marcos de gobernanza emerxentes a nivel mundial sinalan que Agentic AI está aquí para quedarse, os riscos potenciais son certamente reais, e algúns actores están a traballar para . AI agents bringing as many benefits as potential dangers address them proactively