Graficele au sprijinit de mult timp securitatea cibernetică; importanța lor a crescut doar odată cu complexitatea la scară cloud. Anterior am studiat cum , cartografierea repausului, construirea de locuri de muncă, secrete, runners și credențiale cloud în vizualizări conectate care reflectă modul în care gândesc atacatorii. apărătorii pot proteja mediile lor CI / CD folosind grafice apărătorii pot proteja mediile lor CI / CD folosind grafice Acest articol revizuiește această idee în era modelelor lingvistice mari și arată de ce graficele sunt cheia pentru a muta AI pentru securitate de la hype la ceva operațional. tl;dr: atunci când combinați reprezentările grafice cu raționamentul LLM, obțineți precizie și explicabilitate la un nivel în care structurile de date plate nu se potrivesc. tl;dr: atunci când combinați reprezentările grafice cu raționamentul LLM, obțineți precizie și explicabilitate la un nivel în care structurile de date plate nu se potrivesc. Why cybersecurity isn’t keeping up in the age of vibe-everything De ce securitatea cibernetică nu ține pasul cu vârsta vibe-totul LLM-urile au remodelat deja modul în care este construit software-ul, dar adoptarea securității cibernetice rămâne în urmă. Rezultatele pot fi o caracteristică, unde creativitatea și flexibilitatea sunt binevenite chiar dacă rezultatul este imperfect. Temperatură ridicată Temperatură ridicată Lucrările de securitate, totuși, sunt fundamental diferite: rezultatele de securitate necesită precizie, precizie puternică/rechemare și, la fel de important, explicabilitate. Promisiunea LLM-urilor în domeniul securității este încă uriașă. Sistemele agentice pot strânge concluziile, pot adăuga contexte care odată au luat zile pentru a fi asamblate și reduc dramatic timpul de sortare. Vechiul model de alerte statice de sus în jos creează oboseală mai degrabă decât claritate, chiar și atunci când sunt îmbunătățite cu analiza timpului de rulare. Chiar și cu contextualizarea timpului de rulare și analiza accesibilității, concluziile "plate" rămân zgomotoase datorită prezenței prea multor variabile dure și moi. Atunci când aceste modele se bazează pe semnalele organizaționale, cum ar fi politicile și prioritățile de risc, și atunci când acestea includ date de mediu în timp real, fluxul de lucru se schimbă complet. Imaginați-vă o realitate în care agenții sunt bine întemeiați, explicabili și echipate cu un context adecvat pe semnalele organizaționale (politici, apetitul pentru risc, criticitatea activelor) și contextul de mediu (configurări, amenințări predominante, control). Grounding and explainability: Where things get complicated for LLMs in cybersecurity Înțelegerea și explicabilitatea: în cazul în care lucrurile devin complicate pentru LLM-uri în securitatea cibernetică Predicția tokenului LLM este o provocare de bază pentru cazurile de utilizare a securității LLM. Când solicitați unui LLM să scrie un poem, zeci sau sute de tokenuri ulterioare sunt plauzibile; peste următoarele 10 tokenuri, combinatorica explodează. Securitatea este diferită. Luați în considerare evaluarea poziției unei instanțe EC2 pe baza unui flux de apeluri API. Un token incorect (cum ar fi etichetarea greșită a unui grup de securitate sau lipsa unei reguli de intrare) poate invalida întreaga evaluare. Deciziile interne de nivel scăzut, cum ar fi predicțiile de token care conduc la concluzii factuale, trebuie să fie strâns constrânse și pe deplin întemeiate pe dovezi. Planificarea / orchestrarea la nivel înalt poate tolera un spațiu de predicție mai larg, deoarece putem ghida și perfecționa ipoteza în mod iterativ. Explicabilitatea este contractul cu auditorii, inginerii și echipele de risc/conformitate. Fără un grafic, le cereți efectiv să aibă încredere într-un flux probabilistic de token. Cu un grafic, fiecare pretenție se reduce la o cale vizibilă: ce fapte (noduri) au fost folosite, ce relații (margine) au fost urmate și unde au fost introduse orice ipoteze. Când grafurile vin să marcheze în Graficele se prăbușesc în documente complexe, zgomotoase în relații discrete, tipate. Cu mediul modelat ca noduri și margini (de exemplu, EC2 → HAS_SG → SG → ALLOWS → CIDR), agentul nu ghicește peste un flux de token răspândit; navighează printr-un grafic limitat, ceea ce reduce dramatic spațiul de căutare și face ca fiecare pas să poată fi inspectat. Graph form: (i-0a12) -[HAS_SG]- (sg-0aa1) -[ALLOWS {proto:tcp, port:22}]- (0.0.0.0/0) (i-0a12) -[HAS_SG]- (sg-0bb2) -[ALLOWS {proto:tcp, port:5432}]- (10.0.2.0/24) Raw JSON: Raw JSON: { "Reservations": [{ "Instances": [{ "InstanceId": "i-0a12", "SecurityGroups": [ {"GroupId": "sg-0aa1","GroupName":"web-sg"}, {"GroupId": "sg-0bb2","GroupName":"db-sg"} ], "Tags": [{"Key":"Name","Value":"prod-web-1"}, ...], "BlockDeviceMappings": [...], "NetworkInterfaces": [{"Ipv6Addresses":[], "PrivateIpAddress":"10.0.1.23", ...}], ... }, ...] }], "SecurityGroups": [{ "GroupId": "sg-0aa1", "IpPermissions": [{ "IpProtocol": "tcp", "FromPort": 22, "ToPort": 22, "IpRanges": [{"CidrIp":"0.0.0.0/0"}], "UserIdGroupPairs": [] }, ...], "Description": "allow-ssh", ... }, ...] } Pentru a ajunge la aceeași concluzie de securitate din JSON brut, un LLM trebuie să treacă printr-un traseu complex de raționament în mai multe etape: Localizarea instantei "i-0a12" adânc în interiorul structurii Rezervări[0].Instanțe[0] Parsarea ariei SecurityGroups pentru a extrage ID-urile de grup Cross-referențierea acestor ID-uri împotriva unei secțiuni separate SecurityGroups (potențial la sute de rânduri distanță) Imersarea în aria IpPermissions a fiecărui grup Interpretarea IpRanges pentru a înțelege modelele de acces de rețea Acest lucru creează un lanț lung de inferențe peste punctele de date împrăștiate, în cazul în care fiecare pas introduce potențialul de eroare sau halucinații. În schimb, reprezentarea grafică oferă o cale directă, probabil deterministă: În termeni de transformator, structura explicită a graficului restrânge atenția și concentrează distribuția următoarei jetoane. (i-0a12) -[HAS_SG]-> (sg-0aa1) -[ALLOWS]-> (0.0.0.0/0) Folosind teoria informației, tratăm entropia ca incertitudine într-o distribuție de probabilitate.Aici o folosim heuristic pentru a contrasta (a) cât de ambiguu este contextul de intrare și (b) cât de largă este distribuția următoarei jetoane a modelului. Low entropy ⇒ explicit Entropie scăzută ⇒ explicit How scattered or ambiguous is the data the model must reason over? \ JSON:** High entropy - nested arrays, optional fields, implicit relationships. Context entropy (input): Low entropy - explicit nodes/edges encapsulate semantics and constrain interpretation. Graph: How many tokens are “acceptable” at each prediction step? For low-level security judgments, we want a small prediction space (ideally near-deterministic). Graph-grounded reasoning reduces generation entropy by providing fewer plausible next steps, aligning with how transformer attention concentrates probability mass. Generation entropy (output/tokens): High entropy - the model's attention must span across nested arrays, optional fields, and implicit relationships, which creates a diffuse attention pattern across hundreds of tokens. JSON: : Low entropy - focuses attention on explicit, typed relationships, dramatically reducing the attention entropy. Graph GraphRAG oferă Implementarea Microsoft a arătat că recuperarea bazată pe grafe depășește dramatic RAG-ul vectorial tradițional în ceea ce privește cuprinzarea și diversitatea (câștigând 72-83% din comparațiile în perechi). Dovezi concrete ale avantajelor Dovezi concrete ale avantajelor Scăderea ambelor tipuri de entropie prin structurarea contextului și constrângerea generării crește precizia și face ca explicațiile să fie triviale: „Am marcat mișcarea laterală pentru că marginea X → Y există și regula Z o permite.” Dincolo de reducerea entropiei, GraphRAG rezolvă întrebările de securitate care sunt dificile pentru RAG-urile cu numai text, compunând concluzii din relații, mai degrabă decât dintr-o singură pasajă. Pentru „Ce funcții AWS Lambda pot accesa secrete?”, dovezile relevante – roluri, politici atașate, acțiuni, ARN-uri și condiții – sunt absente din textul întrebării și împrăștiate în surse. Tackling the scale and semantics challenges Abordarea provocărilor de scară și semantică După cum am menționat în articolul meu anterior, provocările fundamentale persistă: bazele de date grafice rămân mai fragile decât depozitele tradiționale de date, scalează slab, necesită modelare atentă pentru a evita capcanele de performanță și suportă costuri operaționale mai mari. Aceste obstacole tehnice, agravate de lipsa de expertiză grafică în majoritatea organizațiilor, creează bariere semnificative în calea adoptării.Dar chiar dacă echipele depășesc aceste provocări inițiale, se confruntă cu o problemă și mai dureroasă: trecerea eficientă a graficelor la scară enterprise. The Scale Challenge Luați în considerare realitatea modelării ecosistemelor masive, cross-vendor.Cum traversăm aceste diagrame extinse în mod eficient în timpul inferenței, menținând în același timp costurile aliniate la valoarea afacerii? Chiar dacă am putea potrivi cumva o schemă întreagă a diagramei cross-vendor într-o fereastră de context, rezultatele ar fi probabil dezamăgitoare atunci când este necesară traversarea non-trivală. Aplicarea tehnicilor RAG pentru a servi sub-grafuri de schemă focalizate adaptate sarcinilor de inferență specifice. Potential solution: The Semantic Gap Luați vectorul A → B → C: ce ne spune acest lanț despre relația dintre A și C? Fără semantică explicită, sistemele agentice adesea depășesc sau interpretează greșit aceste căi în întregime. Utilizați capacitățile RAG pentru a lega vectorii grafici (A→B→C) cu vectorii de încorporare, creând punți semantice în care nu existau înainte. Potential solution: Looking ahead Privind înainte Aceste provocări nu sunt insurmontabile; ele sunt probleme de proiectare care așteaptă soluții elegante. Soluțiile apar prin abordări hibride, folosind tehnici RAG pentru a genera sub-grafuri focalizate pentru sarcini specifice de inferență și legarea vectorilor grafici cu vectori de încorporare pentru a crea poduri semantice, printre altele. Promisiunea rămâne convingătoare: profesioniștii din domeniul securității vorbesc cu AI despre ceea ce contează acum, săptămâna viitoare sau trimestrul viitor, mai degrabă decât să se înece în mii de alerte statice.