Графиките отдавна са в основата на киберсигурността; тяхното значение е нараснало само с сложността в облака. По-рано разбрах как Създаване на работни места, тайни, бегачи и облачни идентификационни данни в свързани изгледи, които отразяват начина, по който мислят нападателите. Защитниците могат да защитят своите CI/CD среди с помощта на графики Защитниците могат да защитят своите CI/CD среди с помощта на графики Тази статия преосмисля тази идея в ерата на големите езикови модели и показва защо графиките са ключът към преместването на AI за сигурност от хип до нещо оперативно. tl;dr: когато комбинирате графични представи с LLM разсъждения, получавате точност и обяснимост на ниво, на което плоските структури на данните не могат да се съвпадат. tl;dr: когато комбинирате графични представи с LLM разсъждения, получавате точност и обяснимост на ниво, на което плоските структури на данните не могат да се съвпадат. Why cybersecurity isn’t keeping up in the age of vibe-everything Защо киберсигурността не се придържа към епохата на vibe-всичко LLMs вече преобразят начина, по който софтуерът се изгражда, но приемането на киберсигурността все още изостава. "Изходът може да бъде функция, където творчеството и гъвкавостта са добре дошли, дори ако резултатът е несъвършен. high-temperature Висока температура Работата по сигурността, обаче, е фундаментално различна: резултатите от сигурността изискват точност, силна прецизност / напомняне и, също толкова важно, обяснимост. Обещанието на LLMs в областта на сигурността все още е огромно. Агентските системи могат да съберат констатации, да добавят контекст, който някога е отнел дни, за да се съберат, и драстично да намалят времето за сортиране. Старият модел на статични, отгоре надолу предупреждения създава умора, а не яснота, дори когато се подобрява с анализ на времето за изпълнение. Дори и с контекстуализация на времето за изпълнение и анализ на достижимостта, "плоските" констатации остават шумни поради наличието на твърде много твърди и меки променливи. Когато тези модели се основават на организационни сигнали като политики и приоритети на риска и когато те включват данни за околната среда в реално време, работният поток се променя напълно.Представете си реалност, в която агентите са правилно основани, обясними и оборудвани с адекватен контекст на организационни сигнали (политики, апетит за риск, критичност на активите) и контекст на околната среда (конфигурации, преобладаващи заплахи, контрол). Grounding and explainability: Where things get complicated for LLMs in cybersecurity Основаване и обяснимост: Къде нещата се усложняват за LLMs в киберсигурността Прогнозирането на токените на LLM е основно предизвикателство за случаите на използване на LLM за сигурност.Когато помолите LLM да напише стихотворение, десетки или стотици следващи токени са правдоподобни; през следващите 10 токена комбинаторът експлодира. Сигурността е различна. Помислете за оценка на позицията на инстанция на EC2 въз основа на поток от API повиквания. Един неправилен токен (като неправилно маркиране на група за сигурност или липса на правило за влизане) може да отмени цялата оценка. Вътрешните решения на ниско ниво, като токеновите прогнози, които водят до фактически заключения, трябва да бъдат строго ограничени и напълно основани на доказателства. Планирането/оркестрацията на високо равнище може да толерира по-широко пространство за прогнозиране, защото можем да управляваме и усъвършенстваме хипотезата. Обяснимостта е договорът с одиторите, инженерите и екипите за съответствие с рисковете.Без график, вие ефективно ги молите да се доверят на поток от вероятностни токени. С графиката всяко твърдение се свежда до видим път: какви факти (възели) са били използвани, какви отношения (краища) са били следвани и къде са били въведени всякакви предположения. Когато графовете се появяват в С средата, моделирана като възли и ръбове (например, EC2 → HAS_SG → SG → ALLOWS → CIDR), агентът не отгатва през разширяващ се ток от токени; той навигира в ограничена графика, което драстично свива пространството за търсене и прави всяка стъпка проверяема. Graph form: (i-0a12) -[HAS_SG]- (sg-0aa1) -[ALLOWS {proto:tcp, port:22}]- (0.0.0.0/0) (i-0a12) -[HAS_SG]- (sg-0bb2) -[ALLOWS {proto:tcp, port:5432}]- (10.0.2.0/24) Raw JSON: Raw JSON: { "Reservations": [{ "Instances": [{ "InstanceId": "i-0a12", "SecurityGroups": [ {"GroupId": "sg-0aa1","GroupName":"web-sg"}, {"GroupId": "sg-0bb2","GroupName":"db-sg"} ], "Tags": [{"Key":"Name","Value":"prod-web-1"}, ...], "BlockDeviceMappings": [...], "NetworkInterfaces": [{"Ipv6Addresses":[], "PrivateIpAddress":"10.0.1.23", ...}], ... }, ...] }], "SecurityGroups": [{ "GroupId": "sg-0aa1", "IpPermissions": [{ "IpProtocol": "tcp", "FromPort": 22, "ToPort": 22, "IpRanges": [{"CidrIp":"0.0.0.0/0"}], "UserIdGroupPairs": [] }, ...], "Description": "allow-ssh", ... }, ...] } За да се стигне до същото заключение за сигурността от суровия JSON, LLM трябва да премине през сложен многоетапен път на разсъждение: Местоположение на инстанцията "i-0a12" дълбоко в вградените резервации[0].Инстанции[0] структура Проверка на мащаба на SecurityGroups за извличане на идентификатори на групи Пренасочване на тези идентификатори към отделна секция SecurityGroups (потенциално на стотици редове) Потопете се в IpPermissions мащаба на всяка група Тълкуване на IpRanges за разбиране на моделите за достъп до мрежата Това създава дълга верига от заключения в разпръснати точки от данни, където всяка стъпка въвежда потенциал за грешка или халюцинация. За разлика от това, графичното представяне предлага директен, може би детерминистичен път: В термина „трансформатор“ експлицитната структура на графиката стеснява вниманието и концентрира следващото разпределение на токените.Всяка глава на вниманието след това може да се съсредоточи върху семантично значими ръбове, вместо да анализира вградените структури на данните. (i-0a12) - [HAS_SG]-> (sg-0aa1) - [ALLOWS]-> (0.0.0.0/0) Заимствайки от теорията на информацията, ние третираме ентропията като несигурност в разпределението на вероятностите.Тук я използваме евристично, за да контрастираме (а) колко двусмислен е входният контекст и (б) колко широко е разпределението на следващия токен на модела. Low entropy ⇒ explicit Ниска ентропия ⇒ експлицитно How scattered or ambiguous is the data the model must reason over? \ JSON:** High entropy - nested arrays, optional fields, implicit relationships. Context entropy (input): Low entropy - explicit nodes/edges encapsulate semantics and constrain interpretation. Graph: How many tokens are “acceptable” at each prediction step? For low-level security judgments, we want a small prediction space (ideally near-deterministic). Graph-grounded reasoning reduces generation entropy by providing fewer plausible next steps, aligning with how transformer attention concentrates probability mass. Generation entropy (output/tokens): High entropy - the model's attention must span across nested arrays, optional fields, and implicit relationships, which creates a diffuse attention pattern across hundreds of tokens. JSON: : Low entropy - focuses attention on explicit, typed relationships, dramatically reducing the attention entropy. Graph Графични оферти Реализацията на Microsoft показа, че графичното извличане драстично превъзхожда традиционното векторно RAG за всеобхватност и разнообразие (побеждавайки 72-83% от двойните сравнения). Конкретни доказателства за предимствата Конкретни доказателства за предимствата Намаляването на двата вида ентропия чрез структуриране на контекста и ограничаване на генерирането повишава точността и прави обясненията тривиални: "Ние отбелязваме странично движение, защото ръбът X → Y съществува и правило Z го позволява." В допълнение към намаляването на ентропията, GraphRAG решава въпроси за сигурност, които са трудни за RAG само с текст, като съставя заключения от взаимоотношения, а не от един-единствен пасаж. За „Кои AWS Lambda функции могат да получат достъп до тайни?“, съответните доказателства – роли, прикачени политики, действия, RNA и условия – отсъстват от текста на въпроса и са разпръснати между източниците. Tackling the scale and semantics challenges Справяне с предизвикателствата на мащаба и семантиката Както отбелязах в предишната си статия, основните предизвикателства остават: графичните бази данни остават по-крехки от традиционните хранилища с данни, мащабират лошо, изискват внимателно моделиране, за да се избегнат капаните на производителността и носят по-високи оперативни разходи. Тези технически пречки, съчетани с липсата на експертен опит в повечето организации, създават значителни пречки за приемане, но дори ако екипите преодолеят тези първоначални предизвикателства, те се сблъскват с още по-тежък проблем: ефективно преминаване на графики в корпоративен мащаб. The Scale Challenge Помислете за реалността на моделирането на масивни, кръстосани екосистеми.Как пресичаме тези разширяващи се графики ефективно по време на заключението, като същевременно поддържаме разходите в съответствие с бизнес стойността? Дори и да можем по някакъв начин да впишем цяла схема от кръстосани графики в контекстен прозорец, резултатите вероятно ще бъдат разочароващи, когато се изисква нетривиално преминаване. Прилагане на RAG техники за обслужване на фокусирани схеми под-графове, съобразени с конкретни задачи за заключение. Potential solution: The Semantic Gap Вземете вектора A → B → C: какво ни казва тази верига за връзката между A и C? Без експлицитна семантика агентичните системи често прекаляват или погрешно тълкуват тези пътища изцяло. Възползвайте се от възможностите на RAG за свързване на графични вектори (A→B→C) с вградени вектори, създавайки семантични мостове, където преди това не е имало. Potential solution: Looking ahead Гледайки напред Тези предизвикателства не са непреодолими; те са дизайнерски проблеми, които очакват елегантни решения. Решенията се появяват чрез хибридни подходи, като се използват RAG техники за генериране на фокусирани под-графове за специфични задачи за заключение и свързване на графични вектори с вградени вектори за създаване на семантични мостове, наред с други. Обещанието остава убедително: специалистите по сигурността разговарят с AI за това, което има значение сега, следващата седмица или следващото тримесечие, вместо да се удавят в хиляди статични предупреждения.