Los gráficos han sido durante mucho tiempo la base de la ciberseguridad; su importancia solo ha crecido con la complejidad a escala de la nube. Anteriormente hemos explorado cómo , mapeando reposo, construyendo trabajos, secretos, corredores y credenciales en la nube en vistas conectadas que reflejan cómo piensan los atacantes. Los defensores pueden proteger sus entornos CI/CD usando gráficos Los defensores pueden proteger sus entornos CI/CD usando gráficos Este artículo revisa esa idea en la era de los grandes modelos de idiomas y muestra por qué los gráficos son la clave para mover la IA para la seguridad del hype a algo operativo. tl;dr: cuando combina las representaciones gráficas con el razonamiento de LLM, obtiene precisión y explicabilidad a un nivel en que las estructuras de datos planas no pueden coincidir. tl;dr: cuando combina las representaciones gráficas con el razonamiento de LLM, obtiene precisión y explicabilidad a un nivel en que las estructuras de datos planas no pueden coincidir. Why cybersecurity isn’t keeping up in the age of vibe-everything ¿Por qué la ciberseguridad no se mantiene en la era de vibe-everything? Los LLMs ya han reformulado la forma en que se construye el software, pero la adopción de la ciberseguridad sigue retrasando en áreas como el desarrollo de aplicaciones, “ Los resultados pueden ser una característica, donde la creatividad y la flexibilidad son bienvenidas incluso si el resultado es imperfecto. altas temperaturas altas temperaturas El trabajo de seguridad, sin embargo, es fundamentalmente diferente: los resultados de seguridad requieren precisión, fuerte precisión/recogida y, igualmente importante, explicabilidad. La promesa de los LLMs en seguridad sigue siendo enorme.Los sistemas de agentes pueden ajustar los hallazgos, agregar contextos que una vez tomaron días para montar y reducir drásticamente el tiempo de clasificación.El viejo modelo de alertas estáticos de arriba hacia abajo crea fatiga en lugar de claridad, incluso cuando se mejora con el análisis del tiempo de ejecución. Incluso con la contextualización del tiempo de ejecución y el análisis de alcance, los hallazgos "flat" siguen siendo ruidosos debido a la presencia de demasiadas variables duras y suaves. Cuando estos modelos se basan en señales organizativas como políticas y prioridades de riesgo, y cuando incorporan datos ambientales en tiempo real, el flujo de trabajo cambia completamente. Imagínese una realidad en la que los agentes están adecuadamente fundamentados, explicables y equipados con un contexto adecuado sobre señales organizativas (políticas, apetito de riesgo, crítica de activos) y contexto ambiental (configuraciones, amenazas prevalentes, controles). Grounding and explainability: Where things get complicated for LLMs in cybersecurity Fundamentación y explicabilidad: dónde las cosas se complican para los LLM en ciberseguridad La predicción de token de LLM es un desafío fundamental para los casos de uso de seguridad de LLM. Cuando se solicita a un LLM que escriba un poema, decenas o cientos de tokens siguientes son plausibles; en los próximos 10 tokens, la combinación explota. La seguridad es diferente. considere evaluar la postura de una instancia EC2 basándose en un flujo de llamadas de API. Un token incorrecto (como etiquetar mal un grupo de seguridad o faltar a una regla de ingreso) puede invalidar la evaluación entera. Las decisiones internas de bajo nivel, como las predicciones de token que impulsan conclusiones factuales, deben ser estrictamente restringidas y totalmente fundamentadas en la evidencia.No podemos interpretar mal o ignorar un grupo de seguridad al evaluar el movimiento lateral. La planificación / orquestación de alto nivel puede tolerar un espacio de predicción más amplio porque podemos guiar y refinar la hipótesis de forma iterativa. Explicabilidad es el contrato con auditores, ingenieros y equipos de riesgo/conformidad. Sin un gráfico, realmente les estás pidiendo que confíen en un flujo de token probabilístico. Con un gráfico, cada afirmación se reduce a un camino visible: qué hechos (nodos) se usaron, qué relaciones (randes) se siguieron, y dónde se introdujeron cualquier suposición. Cuando los grafos entran en marcha Con el entorno modelado como nodos y bordes (por ejemplo, EC2 → HAS_SG → SG → ALLOWS → CIDR), el agente no está adivinando a través de un flujo de token extendido; está navegando por un gráfico limitado, lo que reduce drásticamente el espacio de búsqueda y hace que cada paso sea inspectable. Graph form: (i-0a12) -[HAS_SG]- (sg-0aa1) -[ALLOWS {proto:tcp, port:22}]- (0.0.0.0/0) (i-0a12) -[HAS_SG]- (sg-0bb2) -[ALLOWS {proto:tcp, port:5432}]- (10.0.2.0/24) Raw JSON: Raw JSON: { "Reservations": [{ "Instances": [{ "InstanceId": "i-0a12", "SecurityGroups": [ {"GroupId": "sg-0aa1","GroupName":"web-sg"}, {"GroupId": "sg-0bb2","GroupName":"db-sg"} ], "Tags": [{"Key":"Name","Value":"prod-web-1"}, ...], "BlockDeviceMappings": [...], "NetworkInterfaces": [{"Ipv6Addresses":[], "PrivateIpAddress":"10.0.1.23", ...}], ... }, ...] }], "SecurityGroups": [{ "GroupId": "sg-0aa1", "IpPermissions": [{ "IpProtocol": "tcp", "FromPort": 22, "ToPort": 22, "IpRanges": [{"CidrIp":"0.0.0.0/0"}], "UserIdGroupPairs": [] }, ...], "Description": "allow-ssh", ... }, ...] } Para llegar a la misma conclusión de seguridad de JSON crudo, un LLM debe atravesar un complejo camino de razonamiento en varios pasos: Localizar la instancia "i-0a12" profundamente dentro de la estructura de Reservas[0].Instancias[0] Descargar la matriz de grupos de seguridad para extraer ID de grupo Referenciar estos ID contra una sección separada de SecurityGroups (potencialmente a cientos de líneas de distancia) Subir a la matriz de IpPermissions de cada grupo Interpretar los IpRanges para comprender los patrones de acceso a la red Esto crea una larga cadena de inferencias a través de puntos de datos dispersos, donde cada paso introduce el potencial de error o alucinación. En contraste, la representación gráfica ofrece un camino directo, quizás determinista: En términos de transformador, la estructura explícita del gráfico restringe la atención y concentra la próxima distribución de tokens.Cada cabeza de atención puede enfocarse en bordes semánticamente significativos en lugar de analizar estructuras de datos envueltas. (i-0a12) -[HAS_SG]-> (sg-0aa1) -[ALLOWS]-> (0.0.0.0/0) Emprestando de la teoría de la información, tratamos la entropía como la incertidumbre en una distribución de probabilidad. Aquí la usamos heurísticamente para contrastar (a) cuán ambiguo es el contexto de entrada y (b) cuán amplia es la distribución de token siguiente del modelo. Low entropy ⇒ explicit Bajo entropía ⇒ explícito How scattered or ambiguous is the data the model must reason over? \ JSON:** High entropy - nested arrays, optional fields, implicit relationships. Context entropy (input): Low entropy - explicit nodes/edges encapsulate semantics and constrain interpretation. Graph: How many tokens are “acceptable” at each prediction step? For low-level security judgments, we want a small prediction space (ideally near-deterministic). Graph-grounded reasoning reduces generation entropy by providing fewer plausible next steps, aligning with how transformer attention concentrates probability mass. Generation entropy (output/tokens): High entropy - the model's attention must span across nested arrays, optional fields, and implicit relationships, which creates a diffuse attention pattern across hundreds of tokens. JSON: : Low entropy - focuses attention on explicit, typed relationships, dramatically reducing the attention entropy. Graph GraphRAG ofertas La implementación de Microsoft mostró que la recuperación basada en gráficos supera drásticamente a la RAG vectorial tradicional en términos de exhaustividad y diversidad (ganando el 72-83% de las comparaciones en pareja). Evidencias concretas de las ventajas Evidencias concretas de las ventajas Bajar ambos tipos de entropía mediante la estructuración del contexto y la restricción de la generación aumenta la precisión y hace que las explicaciones sean triviales: "Hemos marcado el movimiento lateral porque el borde X → Y existe y la regla Z lo permite". Más allá de reducir la entropía, GraphRAG resuelve las preguntas de seguridad que son difíciles para el RAG de solo texto componiendo conclusiones de relaciones en lugar de un solo pasaje. Para “¿Cuáles funciones de AWS Lambda pueden acceder a secretos?”, las pruebas relevantes –roles, políticas adjuntas, acciones, ARNs y condiciones– están ausentes del texto de la pregunta y dispersas entre fuentes. Tackling the scale and semantics challenges Resolver los desafíos de escala y semántica Como señalé en mi artículo anterior, los desafíos fundamentales persisten: las bases de datos de gráficos siguen siendo más frágiles que los almacenes de datos tradicionales, escalan mal, requieren una modelación cuidadosa para evitar las trampas de rendimiento y suponen costes operativos más altos. Estos obstáculos técnicos, agravados por la escasez de experiencia en gráficos en la mayoría de las organizaciones, crean barreras significativas para la adopción.Pero incluso si los equipos superan estos retos iniciales, se enfrentan a un problema aún más tormentoso: la eficiencia de la travesía de gráficos a escala empresarial. The Scale Challenge Considera la realidad de modelar ecosistemas masivos y transversales.¿Cómo atravesamos estos gráficos extendidos de manera eficiente durante la inferencia mientras mantenemos los costes alineados con el valor empresarial? Incluso si pudiéramos encajar de alguna manera un esquema de gráficos cross-vendor entero en una ventana de contexto, los resultados probablemente serían decepcionantes cuando se necesite una travesía no trival. Aplicar técnicas de RAG para servir subgrafos de esquema enfocados adaptados a tareas de inferencia específicas. Potential solution: The Semantic Gap Mientras que los bordes individuales tienen un significado semántico claro (A → B), los caminos no. Tomemos el vector A → B → C: ¿qué nos dice esta cadena sobre la relación entre A y C? Sin semántica explícita, los sistemas de agentes a menudo superan o malinterpretan estos caminos por completo. Aprovechar las capacidades de RAG para vincular vectores de gráficos (A→B→C) con vectores de embalaje, creando puentes semánticos donde no existían antes. Potential solution: Looking ahead Mirando hacia adelante Estos desafíos no son insuperables; son problemas de diseño que esperan soluciones elegantes. Las soluciones surgen a través de enfoques híbridos, utilizando técnicas de RAG para generar sub-grafos enfocados para tareas de inferencia específicas, y vinculando vectores de gráficos con vectores de embalaje para crear puentes semánticos, entre otros. La promesa sigue siendo convincente: los profesionales de la seguridad conversan con la IA sobre lo que importa ahora, la próxima semana o el próximo trimestre, en lugar de ahogarse en miles de alertas estáticas.