Grafi su već dugo utemeljeni na kibersigurnosti; njihov značaj je samo porastao s složenostima u oblaku. Ranije sam istraživao kako Mapping repos, graditi poslove, tajne, trkače i cloud povjerljivosti u povezane poglede koji odražavaju kako napadači misle. branitelji mogu zaštititi svoje CI/CD okruženje pomoću grafova branitelji mogu zaštititi svoje CI/CD okruženje pomoću grafova Ovaj članak ponovno razmatra tu ideju u doba velikih jezičnih modela i pokazuje zašto su grafikoni ključni za pomak AI-a za sigurnost iz hype-a u nešto operativno. tl;dr: kada kombinirate grafičke reprezentacije s LLM razmatranjem, dobivate preciznost i objašnjivost na razini koja se ne može podudarati s ravnim strukturama podataka. tl;dr: kada kombinirate grafičke reprezentacije s LLM razmatranjem, dobivate preciznost i objašnjivost na razini koja se ne može podudarati s ravnim strukturama podataka. Why cybersecurity isn’t keeping up in the age of vibe-everything Zašto cyber sigurnost ne drži korak s dobom vibe-sve LLM-ovi su već preoblikovali način na koji se softver gradi, ali usvajanje kibersigurnosti još uvijek zaostaje. "Izlazi mogu biti značajka, gdje su kreativnost i fleksibilnost dobrodošli čak i ako je rezultat nesavršen. Visoka temperatura Visoka temperatura Međutim, sigurnosni rad je u osnovi drugačiji: sigurnosni rezultati zahtijevaju točnost, snažnu preciznost / podsjećanje i, jednako važno, objašnjivost. Obećanje LLM-a u području sigurnosti i dalje je ogromno. Agentički sustavi mogu spojiti nalaze, dodati kontekst koji je nekoć trajao nekoliko dana i dramatično smanjiti vrijeme razvrstavanja.Stari model statičkih, top-down upozorenja stvara umor umjesto jasnoće, čak i kada se poboljšava analizom vremena rada.Čak i s kontekstualizacijom vremena rada i analizom dosegljivosti, "plati" nalazi ostaju bučni zbog prisutnosti previše tvrdih i mekih varijabilnih. Kada su ti modeli utemeljeni na organizacijskim signalima kao što su politike i prioriteti rizika, a kada uključuju podatke o okolišu u realnom vremenu, tok posla se potpuno mijenja.Zamislite stvarnost u kojoj su agenti pravilno utemeljeni, objašnjavaju se i opremljeni odgovarajućim kontekstom na organizacijskim signalima (politici, apetit za rizikom, kritičnost imovine) i okruženju (konfiguracije, prevladavajuće prijetnje, kontrola). Grounding and explainability: Where things get complicated for LLMs in cybersecurity Osnivanje i objašnjenje: Gdje se stvari kompliciraju za LLM-ove u kibersigurnosti Kada potaknete LLM da napiše pjesmu, desetke ili stotine sljedećih žetona su vjerojatni; tijekom sljedećih 10 žetona, kombinatorika eksplodira. Sigurnost je drugačija. Razmislite o evaluaciji položaja instance EC2 na temelju toka API poziva. Jedan pogrešan token (kao što je pogrešno označavanje sigurnosne skupine ili nedostatak pravila ulaska) može poništiti cijelu evaluaciju. Unutarnje odluke na niskoj razini, kao što su tokenske predviđanja koja dovode do zaključaka, moraju biti čvrsto ograničene i u potpunosti utemeljene na dokazima. Planiranje / orkestracija na visokoj razini može tolerirati širi prostor predviđanja jer možemo iterativno upravljati i rafinirati hipotezu. Objašnjivost je ugovor s revizorima, inženjerima i timovima za rizik/usklađenost. Bez grafikona, učinkovito ih tražite da vjeruju tokenu vjerojatnosti. S grafom, svaki zahtjev se smanjuje na vidljiv put: koje su činjenice (uzroci) korištene, koje su odnose (krajovi) slijedili i gdje su uložene bilo kakve pretpostavke. Kada se grafi pojavljuju u Grafi raspadaju složene, bučne dokumente u diskretne, tipirane odnose. S okruženjem modeliranim kao čvorovi i rubovi (npr. EC2 → HAS_SG → SG → ALLOWS → CIDR), agent ne nagađa preko raširene tokenske struje; on naviga na ograničenom grafu, što dramatično smanjuje prostor za pretraživanje i čini svaki korak pregledivim. Graph form: (i-0a12) -[HAS_SG]- (sg-0aa1) -[ALLOWS {proto:tcp, port:22}]- (0.0.0.0/0) (i-0a12) -[HAS_SG]- (sg-0bb2) -[ALLOWS {proto:tcp, port:5432}]- (10.0.2.0/24) Raw JSON: Raw JSON: { "Reservations": [{ "Instances": [{ "InstanceId": "i-0a12", "SecurityGroups": [ {"GroupId": "sg-0aa1","GroupName":"web-sg"}, {"GroupId": "sg-0bb2","GroupName":"db-sg"} ], "Tags": [{"Key":"Name","Value":"prod-web-1"}, ...], "BlockDeviceMappings": [...], "NetworkInterfaces": [{"Ipv6Addresses":[], "PrivateIpAddress":"10.0.1.23", ...}], ... }, ...] }], "SecurityGroups": [{ "GroupId": "sg-0aa1", "IpPermissions": [{ "IpProtocol": "tcp", "FromPort": 22, "ToPort": 22, "IpRanges": [{"CidrIp":"0.0.0.0/0"}], "UserIdGroupPairs": [] }, ...], "Description": "allow-ssh", ... }, ...] } Da bi se postigao isti sigurnosni zaključak iz sirovog JSON-a, LLM mora proći kroz složen put razmatranja u nekoliko koraka: Lokacija instance "i-0a12" duboko unutar zalihe Rezervacije[0].Instance[0] struktura Pretraživanje rasporeda sigurnosnih skupina kako bi se izvukli ID-ovi grupe Preusmjeravanje tih ID-ova prema odvojenom odjeljku SecurityGroups (potencijalno stotine redova dalje) Ulazak u IPPermissions array svake skupine Interpretiranje IpRanges kako bi se razumjeli obrasci pristupa mreži To stvara dugi lanac zaključaka preko raspršenih točaka podataka, gdje svaki korak uvodi potencijal za pogrešku ili halucinacije. S druge strane, grafička reprezentacija nudi izravan, možda deterministički put: U smislu transformatora, eksplicitna struktura grafikona sužava pozornost i koncentrira distribuciju sljedećih tokena. (i-0a12) -[HAS_SG]-> (sg-0aa1) -[ALLOWS]-> (0.0.0.0/0) Pozajmljujući iz informacijske teorije, entropiju tretiramo kao neizvjesnost u distribuciji vjerojatnosti.Ovdje je koristimo heuristički kako bismo kontrastirali (a) koliko je dvosmislen kontekst ulaza i (b) koliko je široka distribucija sljedećeg tokena modela. Low entropy ⇒ explicit Niska entropija ⇒ eksplicit How scattered or ambiguous is the data the model must reason over? \ JSON:** High entropy - nested arrays, optional fields, implicit relationships. Context entropy (input): Low entropy - explicit nodes/edges encapsulate semantics and constrain interpretation. Graph: How many tokens are “acceptable” at each prediction step? For low-level security judgments, we want a small prediction space (ideally near-deterministic). Graph-grounded reasoning reduces generation entropy by providing fewer plausible next steps, aligning with how transformer attention concentrates probability mass. Generation entropy (output/tokens): High entropy - the model's attention must span across nested arrays, optional fields, and implicit relationships, which creates a diffuse attention pattern across hundreds of tokens. JSON: : Low entropy - focuses attention on explicit, typed relationships, dramatically reducing the attention entropy. Graph GraphRAG ponude Microsoftova implementacija pokazala je da pretraživanje temeljeno na grafu dramatično nadmašuje tradicionalni vektorski RAG za sveobuhvatnost i raznolikost (pobjedujući 72-83% parnih usporedbi). konkretni dokazi o prednostima konkretni dokazi o prednostima Smanjenje obje vrste entropije strukturiranjem konteksta i ograničavanjem generacije povećava preciznost i čini objašnjenja trivijalnim: "Mi smo označili lateralni pokret jer rub X → Y postoji i pravilo Z to dopušta." Osim smanjenja entropije, GraphRAG rješava sigurnosna pitanja koja su teška za RAG-ove koji koriste samo tekst tako što sastavlja zaključke iz odnosa, a ne iz jednog odlomka. Za „Koje AWS Lambda funkcije mogu pristupiti tajnama?“, relevantni dokazi – uloge, priložene politike, akcije, ARN-ovi i uvjeti – odsutni su iz teksta pitanja i raspršeni po izvorima. Tackling the scale and semantics challenges Rješavanje razmjera i semantičkih izazova Kao što sam napomenuo u svom prethodnom članku, temeljni izazovi i dalje postoje: grafičke baze podataka ostaju krhke od tradicionalnih skladišta podataka, slabo se razmjenjuju, zahtijevaju pažljivo modeliranje kako bi se izbjegle zamke u učinkovitosti i snose veće operativne troškove. Te tehničke prepreke, u kombinaciji s nedostatkom stručnosti u grafu u većini organizacija, stvaraju značajne prepreke za usvajanje, ali čak i ako timovi prevladaju te početne izazove, suočavaju se s još gorućim problemom: učinkovitim grafom u korporacijskim razmjerima. The Scale Challenge Razmislite o stvarnosti modeliranja masivnih, međusobnih ekosustava.Kako učinkovito preći kroz ove rasprostranjene grafike tijekom zaključivanja, a zadržati troškove u skladu s poslovnom vrijednošću? Čak i ako bismo nekako mogli uklopiti cijelu shemu križnog prodavača u kontekstni prozor, rezultati bi vjerojatno bili razočaravajući kada je potrebna ne-trivalna tranzicija. visoka entropija bi smanjila performanse, dok bi troškovi žetona porasli s minimalnim mogućnostima za token caching kako bi se nadoknadili troškovi. Primjena tehnika RAG-a kako bi se služili usmjereni podgrafi sheme prilagođeni specifičnim zadaćama zaključivanja. Potential solution: The Semantic Gap Uzmite vektor A → B → C: što nam ovaj lanac govori o odnosu između A i C? Bez eksplicitne semantike, agentički sustavi često preteruju ili pogrešno tumače ove putove u potpunosti. Iskoristite RAG sposobnosti za vezanje vektorskih grafa (A → B → C) s ugrađenim vektorima, stvarajući semantičke mostove gdje prije nije postojao. Potential solution: Looking ahead Gledajući naprijed Ti izazovi nisu nepobjedivi; oni su problemi dizajna koji čekaju elegantna rješenja. Rješenja se pojavljuju kroz hibridne pristupe, koristeći tehnike RAG-a za stvaranje usmjerenih podgrafa za specifične zadatke zaključivanja, i vezivanje vektorskih grafa s ugrađenim vektorima kako bi se stvorili semantički mostovi, između ostalog. Obećanje ostaje uvjerljivo: stručnjaci za sigurnost razgovaraju s AI-om o tome što je važno sada, sljedeći tjedan ili sljedeće tromjesečje, umjesto da se utapljaju u tisućama statičkih alarma.