ग्राफ लंबे समय से साइबर सुरक्षा के लिए आधारित हैं; उनका महत्व केवल क्लाउड स्केल जटिलता के साथ बढ़ गया है। पहले मैंने देखा कि कैसे नौकरियों, रहस्यों, चलाने वालों और क्लाउड मान्यताओं को कनेक्टेड दृश्यों में बनाएं जो हमलावरों के विचारों को दर्शाते हैं। रक्षक ग्राफ का उपयोग करके अपने सीआई / सीडी वातावरण की रक्षा कर सकते हैं रक्षक ग्राफ का उपयोग करके अपने सीआई / सीडी वातावरण की रक्षा कर सकते हैं यह लेख बड़े भाषा मॉडल के युग में उस विचार को फिर से देखता है और दिखाता है कि क्यों ग्राफिक्स सुरक्षा के लिए एआई को hype से कुछ संचालन करने के लिए स्थानांतरित करने के लिए महत्वपूर्ण हैं। tl;dr: जब आप एलएलएम तर्क के साथ ग्राफ प्रतिनिधित्वों को जोड़ते हैं, तो आप एक स्तर पर सटीकता और स्पष्टीकरण प्राप्त करते हैं जो फ्लैट डेटा संरचनाओं के साथ मेल नहीं जा सकता है। tl;dr: जब आप एलएलएम तर्क के साथ ग्राफ प्रतिनिधित्वों को जोड़ते हैं, तो आप एक स्तर पर सटीकता और स्पष्टीकरण प्राप्त करते हैं जो फ्लैट डेटा संरचनाओं के साथ मेल नहीं जा सकता है। Why cybersecurity isn’t keeping up in the age of vibe-everything क्यों साइबर सुरक्षा vibe-everything के युग में नहीं रहती है एलएलएम ने पहले से ही सॉफ्टवेयर का निर्माण कैसे किया है, फिर भी साइबर सुरक्षा को अपनाने में अभी भी देरी है। ” आउटपुट एक विशेषता हो सकती है, जहां रचनात्मकता और लचीलापन का स्वागत है, भले ही परिणाम अपर्याप्त हो। उच्च तापमान उच्च तापमान सुरक्षा काम, हालांकि, मौलिक रूप से अलग है: सुरक्षा परिणाम सटीकता, मजबूत सटीकता / वापसी और, उतना ही महत्वपूर्ण रूप से, स्पष्टीकरण की आवश्यकता होती है। सुरक्षा में एलएलएम का वादा अभी भी विशाल है। एजेंट सिस्टम निष्कर्षों को एक साथ जोड़ सकते हैं, संदर्भ जोड़ सकते हैं जिन्हें एक बार इकट्ठा करने में दिनों लग गए थे, और नाटकीय रूप से वर्गीकरण समय को कम कर सकते हैं। स्थिर, शीर्ष से नीचे अलार्मों का पुराना मॉडल निष्पादन समय विश्लेषण के साथ बढ़ाया जाता है, यहां तक कि अधिक स्पष्टता के बजाय थकान पैदा करता है। जब ये मॉडल नीतियों और जोखिम प्राथमिकताओं जैसे संगठनात्मक संकेतों पर आधारित होते हैं, और जब वे वास्तविक समय के पर्यावरण डेटा को शामिल करते हैं, तो कार्य प्रवाह पूरी तरह से बदल जाता है। एक ऐसी वास्तविकता की कल्पना करें जहां एजेंटों को उचित रूप से आधारित, समझा जा सकता है, और संगठनात्मक संकेतों पर पर्याप्त संदर्भ के साथ सुसज्जित किया जाता है (राजनीति, जोखिम की भूख, संपत्ति की महत्वपूर्णता) और पर्यावरण संदर्भ (संस्करण, प्रचलित खतरों, नियंत्रण)। Grounding and explainability: Where things get complicated for LLMs in cybersecurity आधार और स्पष्टीकरण: जहां चीजें साइबर सुरक्षा में एलएलएम के लिए जटिल हो जाती हैं एलएलएम टोकन पूर्वानुमान एलएलएम सुरक्षा उपयोग के मामलों के लिए एक प्रमुख चुनौती है. जब आप एक एलएलएम को एक कविता लिखने के लिए प्रोत्साहित करते हैं, तो अगले टोकन के दर्जनों या सैकड़ों सचमुच हैं; अगले 10 टोकन के दौरान, संयोजन विस्फोट करते हैं। सुरक्षा अलग है. एपीआई कॉल की एक धारा के आधार पर एक EC2 संस्करण की स्थिति का मूल्यांकन करने पर विचार करें. एक गलत टोकन (जैसे सुरक्षा समूह को गलत रूप से लेबल करना या एक प्रवेश नियम को याद करना) पूरे मूल्यांकन को अस्वीकार कर सकता है. स्वीकार्य पूर्वानुमान अंतरिक्ष संकीर्ण होना चाहिए. कम स्तर के आंतरिक निर्णय जैसे टोकन पूर्वानुमान जो तथ्य के निष्कर्षों को प्रेरित करते हैं, को मजबूत रूप से प्रतिबंधित किया जाना चाहिए और पूरी तरह से सबूत पर आधारित किया जाना चाहिए। उच्च स्तर की योजना / संगठनात्मकता एक व्यापक पूर्वानुमान अंतरिक्ष को सहन कर सकती है क्योंकि हम पुनरावृत्ति से अनुमान को निर्देशित और परिष्कृत कर सकते हैं। व्याख्याशीलता ऑडिटर, इंजीनियरों और जोखिम / अनुपालन टीमों के साथ अनुबंध है. बिना एक चार्ट के, आप उन्हें प्रभावी रूप से एक संभावनात्मक टोकन स्ट्रीम पर भरोसा करने के लिए कह रहे हैं. जब वे पूछते हैं, "यह अलार्म क्यों है? एक ग्राफ के साथ, प्रत्येक दावा एक दृश्य मार्ग के लिए कम हो जाता है: कौन से तथ्यों (नोड्स) का उपयोग किया गया था, कौन से रिश्तों (एड्स) का पालन किया गया था, और जहां कोई धारणाएं दर्ज की गई थीं। जब गेंदबाजों ने मार्केट में ग्राफ़्स जटिल, शोरदार दस्तावेज़ों को विशिष्ट, टाइप किए गए रिश्तों में गिराते हैं. नोड्स और किनारों (उदाहरण के लिए, EC2 → HAS_SG → SG → ALLOWS → CIDR) के रूप में मॉड्यूलित पर्यावरण के साथ, एजेंट एक विशाल टोकन स्ट्रीम के माध्यम से अनुमान नहीं कर रहा है; यह एक सीमित ग्राफ़ पर नेविगेशन कर रहा है, जो खोज स्थान को नाटकीय रूप से संकीर्ण करता है और प्रत्येक कदम जांच योग्य बनाता है। Graph form: (i-0a12) -[HAS_SG]- (sg-0aa1) -[ALLOWS {proto:tcp, port:22}]- (0.0.0.0/0) (i-0a12) -[HAS_SG]- (sg-0bb2) -[ALLOWS {proto:tcp, port:5432}]- (10.0.2.0/24) Raw JSON: Raw JSON: { "Reservations": [{ "Instances": [{ "InstanceId": "i-0a12", "SecurityGroups": [ {"GroupId": "sg-0aa1","GroupName":"web-sg"}, {"GroupId": "sg-0bb2","GroupName":"db-sg"} ], "Tags": [{"Key":"Name","Value":"prod-web-1"}, ...], "BlockDeviceMappings": [...], "NetworkInterfaces": [{"Ipv6Addresses":[], "PrivateIpAddress":"10.0.1.23", ...}], ... }, ...] }], "SecurityGroups": [{ "GroupId": "sg-0aa1", "IpPermissions": [{ "IpProtocol": "tcp", "FromPort": 22, "ToPort": 22, "IpRanges": [{"CidrIp":"0.0.0.0/0"}], "UserIdGroupPairs": [] }, ...], "Description": "allow-ssh", ... }, ...] } कच्चे JSON से एक ही सुरक्षा निष्कर्ष तक पहुंचने के लिए, एक एलएलएम को एक जटिल बहु-चरण तर्क मार्ग पार करना चाहिए: उदाहरण "i-0a12" को निहित आरक्षण[0].Instances[0] संरचना के भीतर गहराई से स्थापित करना समूह आईडी को निकालने के लिए SecurityGroups मैराथन को पारित करें इन आईडी को एक अलग SecurityGroups अनुभाग के खिलाफ पार संदर्भित करना (संभावित रूप से सैकड़ों पंक्तियों से दूर) प्रत्येक समूह के IpPermissions array में डाइविंग नेटवर्क एक्सेस पैटर्न को समझने के लिए IpRanges की व्याख्या करना यह फैल गए डेटा बिंदुओं पर निष्कर्षों की एक लंबी श्रृंखला बनाता है, जहां प्रत्येक कदम त्रुटि या हल्कापन की संभावनाओं को पेश करता है। इसके विपरीत, ग्राफ प्रतिनिधित्व एक प्रत्यक्ष, शायद निर्धारित मार्ग प्रदान करता है: ट्रांसफार्मर शब्दों में, ग्राफ की स्पष्ट संरचना ध्यान को संकीर्ण करती है और अगले टोकन वितरण को केंद्रित करती है। (i-0a12) -[HAS_SG]-> (sg-0aa1) -[ALLOWS]-> (0.0.0.0/0) सूचना सिद्धांत से उधार लेते हुए, हम एक संभावना वितरण में अनिश्चितता के रूप में एंट्रोपी का इलाज करते हैं. यहां हम इसका उपयोग heuristically (a) इनपुट संदर्भ कितना अस्पष्ट है और (b) मॉडल के अगले टोकन वितरण कितना व्यापक है विपरीत करने के लिए करते हैं। Low entropy ⇒ explicit कम एंट्रोपी ⇒ स्पष्ट How scattered or ambiguous is the data the model must reason over? \ JSON:** High entropy - nested arrays, optional fields, implicit relationships. Context entropy (input): Low entropy - explicit nodes/edges encapsulate semantics and constrain interpretation. Graph: How many tokens are “acceptable” at each prediction step? For low-level security judgments, we want a small prediction space (ideally near-deterministic). Graph-grounded reasoning reduces generation entropy by providing fewer plausible next steps, aligning with how transformer attention concentrates probability mass. Generation entropy (output/tokens): High entropy - the model's attention must span across nested arrays, optional fields, and implicit relationships, which creates a diffuse attention pattern across hundreds of tokens. JSON: : Low entropy - focuses attention on explicit, typed relationships, dramatically reducing the attention entropy. Graph GraphRAG पेशकश माइक्रोसॉफ्ट के कार्यान्वयन से पता चला है कि ग्राफ-आधारित खोज पारंपरिक वेक्टर आरएजी की व्यापकता और विविधता के लिए काफी अधिक प्रदर्शन करती है (पैर-आधारित तुलनाओं में 72-83% जीतना)। लाभों के लिए व्यावहारिक सबूत लाभों के लिए व्यावहारिक सबूत संदर्भ संरचनात्मक बनाने और निर्माण को प्रतिबंधित करके दोनों प्रकार की एंट्रोपी को कम करना सटीकता को बढ़ाता है और स्पष्टीकरणों को मामूली बनाता है: "हमने पक्षी आंदोलन को चिह्नित किया क्योंकि किनारा X → Y मौजूद है और नियम Z इसे अनुमति देता है। एंट्रोपी को कम करने के अलावा, GraphRAG संदर्भ-केवल आरएजी के लिए कठिन सुरक्षा प्रश्नों को हल करता है, रिश्तों से निष्कर्ष निकालने के बजाय एक एकल परामर्श के लिए। "क्या एडब्ल्यूएस लैम्बडा फ़ंक्शन रहस्यों तक पहुंच सकते हैं? " के लिए, प्रासंगिक सबूत - भूमिकाएं, संलग्न नीतियों, क्रियाएं, आरएनए और शर्तें - प्रश्न पाठ से अनुपस्थित हैं और स्रोतों पर फैल जाते हैं। Tackling the scale and semantics challenges स्केल और सेमेन्टिक्स चुनौतियों को संबोधित करना आधुनिक SaaS पर्यावरणों का ग्राफ प्रतिनिधित्व दिन-प्रतिदिन अधिक जटिल हो रहा है और धीमा होने के कोई संकेत नहीं दिखा रहा है. जैसा कि मैंने अपने पिछले लेख में उल्लेख किया है, बुनियादी चुनौतियां जारी रहती हैं: ग्राफ डेटाबेस पारंपरिक डेटा स्टोर की तुलना में अधिक संवेदनशील रहते हैं, कमजोर पैमाने पर हैं, प्रदर्शन झटकों से बचने के लिए सावधानीपूर्वक मॉडलिंग की आवश्यकता होती है, और उच्च संचालन लागतें होती हैं। इन तकनीकी बाधाओं, अधिकांश संगठनों में ग्राफ विशेषज्ञता की कमी से जटिल, अपनाने के लिए महत्वपूर्ण बाधाएं बनाते हैं। The Scale Challenge बड़े पैमाने पर, क्रॉसवेयर पारिस्थितिकी तंत्रों को मॉडलिंग की वास्तविकता पर विचार करें. हम इन विशाल ग्राफों को निष्कर्षण के दौरान प्रभावी ढंग से कैसे पार करते हैं, जबकि लागत को व्यापार मूल्य के अनुरूप रखते हैं? यहां तक कि अगर हम किसी भी तरह से संदर्भ विंडो में एक पूरे क्रॉसवेयर ग्राफ योजना को फिट कर सकते हैं, तो परिणाम निराशाजनक हो सकते हैं जब गैर-ट्रिवल ट्रांसफर की आवश्यकता होती है. उच्च एंट्रोपी प्रदर्शन को कम करेगी, जबकि टोकन लागत लागत को कम करने के लिए टोकन कैशिंग के लिए न्यूनतम अवसरों के साथ बढ़ेगी। विशिष्ट निष्कर्षण कार्यों के लिए अनुकूलित केंद्रित योजना उप-ग्राफों की सेवा करने के लिए आरएजी तकनीकों का उपयोग करना। Potential solution: The Semantic Gap जबकि व्यक्तिगत किनारों में स्पष्ट सेमेंटिक अर्थ (A → B) होता है, मार्ग नहीं होते हैं. वेक्टर A → B → C लें: यह श्रृंखला हमें A और C के बीच संबंध के बारे में क्या बताती है? स्पष्ट अर्थशास्त्र के बिना, एजेंटिक सिस्टम अक्सर इन मार्गों को पूरी तरह से अधिग्रहण या गलत ढंग से समझाते हैं। ग्राफ़ वेक्टरों (A→B→C) को एम्बेडिंग वेक्टरों के साथ जोड़ने के लिए आरएजी क्षमताओं का लाभ उठाएं, जिससे पहले कोई भी मौजूद नहीं था। Potential solution: Looking ahead आगे देखकर ये चुनौतियां अविश्वसनीय नहीं हैं; वे डिजाइन समस्याएं हैं जो सुरुचिपूर्ण समाधानों की प्रतीक्षा कर रही हैं। समाधान हाइब्रिड दृष्टिकोणों के माध्यम से उत्पन्न होते हैं, RAG तकनीकों का उपयोग विशिष्ट निष्कर्षण कार्यों के लिए केंद्रित उप-ग्राफ उत्पन्न करने के लिए करते हैं, और ग्राफ वेक्टरों को एम्बेडिंग वेक्टरों के साथ जोड़ते हैं ताकि दूसरों के बीच सेमिटिक पुल बनाए जाएं. ये सिर्फ तकनीकी अनुकूलन नहीं हैं; वे ग्राफ-आधारित सुरक्षा को व्यावहारिक और स्केलिंग योग्य बनाने के लिए बुनियादी डिजाइन पैटर्न हैं. वादा आश्वस्त रहता है: सुरक्षा पेशेवर एआई के साथ बात कर रहे हैं कि अब, अगले हफ्ते, या अगले तिमाही में क्या मायने रखता है, हजारों स्थैतिक अलार्मों में डूबने के बजाय।