Grafieke het al lank 'n ondersteunende basis vir siberveiligheid; hul belangrikheid het slegs met die kompleksiteit van die wolkgrootte gegroei. Ek het vroeër ondersoek hoe , die herstel, die bou van werksgeleenthede, geheime, hardloopers en wolk-aankondigings in verbindde weergave wat weerspieël hoe aanvallers dink. verdedigers kan hul CI / CD omgewings beskerm met behulp van grafieke verdedigers kan hul CI / CD omgewings beskerm met behulp van grafieke Hierdie artikel herhaal daardie idee in die era van groot taalmodelle en toon waarom grafieke die sleutel is om AI vir sekuriteit van hype na iets operationeel te beweeg. tl;dr: wanneer jy grafiese verteenwoordigings kombineer met LLM-argumentasie, kry jy akkuraatheid en verduidelikbaarheid op 'n vlak wat plat data strukture nie kan ooreenstem nie. tl;dr: wanneer jy grafiese verteenwoordigings kombineer met LLM-argumentasie, kry jy akkuraatheid en verduidelikbaarheid op 'n vlak wat plat data strukture nie kan ooreenstem nie. Why cybersecurity isn’t keeping up in the age of vibe-everything Hoekom cyberveiligheid nie in die ouderdom van vibe-alles hou nie LLMs het reeds hervorm hoe sagteware gebou word, maar die aanvaarding van kibersekerheid is nog steeds agter. outputs kan 'n kenmerk wees, waar kreatiwiteit en flexibiliteit welkom is, selfs as die uitkoms onvolmaak is. Hoë temperatuur Hoë temperatuur Sekuriteitswerk is egter fundamenteel anders: sekuriteitsresultate vereis akkuraatheid, sterk akkuraatheid/herroep en, net so belangrik, verduidelikbaarheid. Die belofte van LLMs in sekuriteit is nog steeds massief. Agentistiese stelsels kan bevindings saamstel, konteks byvoeg wat eendag dae geneem het om op te stel, en die sortering tyd drasties verminder. Die ou model van statische, top-down waarschuwings skep moegheid eerder as duidelikheid, selfs wanneer dit versterk word met runtime analise. Selfs met runtime kontekstualisasie en bereikbaarheid analise, bly "flat" bevindings lawaaierig as gevolg van die teenwoordigheid van te veel harde en sagte variabele. Wanneer hierdie modelle gebaseer is op organisatoriese signale soos beleid en risikoprioriteiteite, en wanneer hulle real-time omgewingsdata integreer, verander die werkstroom heeltemal. Stel jou voor 'n realiteit waar agente behoorlik gebaseer, verduidelikbaar en toegerus is met voldoende konteks op organisatoriese signale (beleid, risiko-appetit, eiendomskritiek) en omgewings konteks (konfigurasies, oorheersende bedreigings, beheer). Veiligheidsteams hoef nie duisende statische kwessies te sien nie; hulle sal in staat wees om in 'n iteratiewe dialoog te sluit oor wat nou, volgende week en volgende kwartaal belangrik is. Grounding and explainability: Where things get complicated for LLMs in cybersecurity Grondlegging en verduidelikbaarheid: Waar dinge ingewikkeld word vir LLMs in kibersekerheid LLM token voorspelling is 'n kern uitdaging vir LLM sekuriteit gebruik gevalle. Wanneer jy 'n LLM vra om 'n gediens te skryf, duisende of honderde volgende tokens is plausibel; oor die volgende 10 tokens, combinatorics ontploff. Beoordeel die evaluering van die houding van 'n EC2-instansie op grond van 'n stroom API-oproepe. Een onjuiste token (soos verkeerde etikettering van 'n sekuriteitsgroep of ontbreek van 'n ingress-reël) kan die hele evaluering ongeldig maak. Lae-vlak interne besluite soos tokenvoorspellings wat faktiese gevolgtrekkings lei, moet streng beperk word en ten volle gebaseer word op bewyse. Hoë-vlak beplanning / orkestrasie kan 'n breër voorspellingsruimte verdra, want ons kan iteratief die hipotese rig en verfineer. Verduidelikbaarheid is die kontrak met auditors, ingenieurs en risiko / nalevingsteams. sonder 'n grafiek, vra jy hulle effektief om 'n waarskynlike tokenstroom te vertrou. Met 'n grafiek verminder elke eis tot 'n sigbare pad: watter feite (nodes) gebruik is, watter verhoudings (kante) gevolg is, en waar enige aannames ingesluit is. Wanneer die grafieke in die Met die omgewing gemodelleer as nodes en rande (bv, EC2 → HAS_SG → SG → ALLOWS → CIDR), die agent is nie raai oor 'n uitgestrekte token stroom; dit navigeer 'n beperkte grafiek, wat dramaties versnelt die soektog en maak elke stap inspekteerbaar. Graph form: (i-0a12) -[HAS_SG]- (sg-0aa1) -[ALLOWS {proto:tcp, port:22}]- (0.0.0.0/0) (i-0a12) -[HAS_SG]- (sg-0bb2) -[ALLOWS {proto:tcp, port:5432}]- (10.0.2.0/24) Raw JSON: Raw JSON: { "Reservations": [{ "Instances": [{ "InstanceId": "i-0a12", "SecurityGroups": [ {"GroupId": "sg-0aa1","GroupName":"web-sg"}, {"GroupId": "sg-0bb2","GroupName":"db-sg"} ], "Tags": [{"Key":"Name","Value":"prod-web-1"}, ...], "BlockDeviceMappings": [...], "NetworkInterfaces": [{"Ipv6Addresses":[], "PrivateIpAddress":"10.0.1.23", ...}], ... }, ...] }], "SecurityGroups": [{ "GroupId": "sg-0aa1", "IpPermissions": [{ "IpProtocol": "tcp", "FromPort": 22, "ToPort": 22, "IpRanges": [{"CidrIp":"0.0.0.0/0"}], "UserIdGroupPairs": [] }, ...], "Description": "allow-ssh", ... }, ...] } Om dieselfde sekuriteit gevolgtrekking uit ruwe JSON te bereik, moet 'n LLM 'n komplekse multi-stap redewegingpad kruis: Plaas die instansie "i-0a12" diep in die ingebed Reserverings[0].Instances[0] struktuur Parsing die SecurityGroups-array om groep-ID's te onttrek Kruisverwysing van hierdie ID's teen 'n afsonderlike SecurityGroups-afdeling (potensieel honderde reëls weg) Duik in elke groep se IpPermissions-array Interpretasie van die IpRanges om netwerk toegang patrone te verstaan Dit skep 'n lang ketting van gevolgtrekkings oor verspreide data punte, waar elke stap die potensiaal vir foute of hallusinasies invoer. In teenstelling hiermee bied die grafiese verteenwoordiging 'n direkte, miskien deterministiese pad: In transformer terme, die uitdruklike struktuur van die grafiek versmelt aandag en konsentreer die volgende token verspreiding. Elke aandag kop kan dan fokus op semanties betekenisvolle randte eerder as om geaniseerde data strukture te parseer. (i-0a12) -[HAS_SG]-> (sg-0aa1) -[Wysig]-> (0.0.0.0/0) Ons gebruik dit heuristies om te kontrasteer (a) hoe duidelike die invoer konteks is en (b) hoe breed die model se volgende token verspreiding is. Low entropy ⇒ explicit Lae entropie ⇒ eksplisiet How scattered or ambiguous is the data the model must reason over? \ JSON:** High entropy - nested arrays, optional fields, implicit relationships. Context entropy (input): Low entropy - explicit nodes/edges encapsulate semantics and constrain interpretation. Graph: How many tokens are “acceptable” at each prediction step? For low-level security judgments, we want a small prediction space (ideally near-deterministic). Graph-grounded reasoning reduces generation entropy by providing fewer plausible next steps, aligning with how transformer attention concentrates probability mass. Generation entropy (output/tokens): High entropy - the model's attention must span across nested arrays, optional fields, and implicit relationships, which creates a diffuse attention pattern across hundreds of tokens. JSON: : Low entropy - focuses attention on explicit, typed relationships, dramatically reducing the attention entropy. Graph GraphRAG bied aan Microsoft se implementasie het getoon dat grafiese-gebaseerde vind dramaties beter is as tradisionele vektor RAG vir alomvattendheid en diversiteit (win 72-83% van paarlike vergelykings). konkrete bewyse van die voordele konkrete bewyse van die voordele Die verlaag van beide vorme van entropië deur konteks te struktureer en genereer te beperk, verhoog presisie en maak verduidelikings trivial: "Ons het laterale beweging aangeteken omdat rand X → Y bestaan en reël Z dit toelaat." Benewens die vermindering van entropië, oplos GraphRAG sekuriteitsvraagstukke wat moeilik is vir net-tekst-RAG's deur gevolgtrekkings uit verhoudings in plaas van 'n enkele paspoort te maak. Vir "Wanneer AWS Lambda-funksie toegang tot geheime kan kry?", is die relevante bewyse - rolle, bygevoegde beleid, aksie, ARN's en toestande - afwesig van die vraagtekst en versprei oor bronne. 'N grafiek laat die stelsel toe om al Lambda→Secret-pads te kruis en te bepaal watter toegang regtig toegelaat word. Tackling the scale and semantics challenges Die aanpak van die skaal en semantiese uitdagings Soos ek in my vorige artikel opgemerk het, bly die fundamentele uitdagings: grafiese databasisse bly meer fragile as tradisionele data stores, skaal swak, vereis versigtige modellering om prestasie-vals te vermy, en dra hoër bedryfskoste. Hierdie tegniese hindernisse, gekombineer deur die tekort aan grafiese kundigheid in die meeste organisasies, skep beduidende hindernisse vir aanvaarding. The Scale Challenge Dink aan die realiteit van die modeling van massiewe, kruisverkoper-ekosisteme.Hoe kruis ons hierdie uitgestrekte grafieke doeltreffend tydens gevolgtrekking terwyl koste in ooreenstemming met besigheidswaarde gehou word? Selfs as ons een of ander manier 'n hele kruisverkoper grafiekskema in 'n konteksvenster kon pas, sou die resultate waarskynlik teleurstellend wees wanneer nie-trival traversal benodig word. Toepassing van RAG tegnieke om gefokusde skema sub-grafieë te bedien wat geskik is vir spesifieke gevolgtrekkingsgeleenthede. Potential solution: The Semantic Gap Neem die vektor A → B → C: wat vertel hierdie ketting ons oor die verhouding tussen A en C? Sonder uitdruklike semantiek, het agentiese stelsels dikwels hierdie paaie heeltemal oorreik of verkeerd geïnterpreteer. Gebruik RAG vermoëns om grafvektore (A→B→C) te bind met embeddingvektore, wat semantiese brugte skep waar daar voorheen geen bestaan het nie. Potential solution: Looking ahead Kyk vooruit Hierdie uitdagings is nie onoverkomlik nie; hulle is ontwerpprobleme wat wag vir elegante oplossings. Oplossings ontstaan deur middel van hybride benaderings, met behulp van RAG tegnieke om gefokusde sub-grawe te genereer vir spesifieke inferensie-taak, en grafvektore met embedding-vektore te bind om semantiese brugge te skep, onder andere. Die belofte bly dwingend: veiligheidspersoneel praat met AI oor wat nou, volgende week, of volgende kwartaal belangrik is, eerder as om te verdrink in duisende statische waarskuwings.