グラフは長い間、サイバーセキュリティの基礎となっており、その重要性はクラウド規模の複雑さとともに増加している。 以前、どうやって調べたか リポをマッピングし、仕事、秘密、ランナー、クラウド認証を、攻撃者がどのように考えるかを反映する接続されたビューに構築します。 弁護士は、グラフを使用してCI/CD環境を保護することができます。 弁護士は、グラフを使用してCI/CD環境を保護することができます。 この記事では、大規模な言語モデルの時代のこのアイデアを再考し、グラフがセキュリティのためのAIをハイパーから運用可能なものに移行する鍵となる理由を示しています。 tl;dr:あなたがLLM推論とグラフ表示を組み合わせるとき、あなたは平らなデータ構造が一致できないレベルで正確さと説明性を得ます。 tl;dr:あなたがLLM推論とグラフ表示を組み合わせるとき、あなたは平らなデータ構造が一致できないレベルで正確さと説明性を得ます。 Why cybersecurity isn’t keeping up in the age of vibe-everything なぜサイバーセキュリティはVibe-Everythingの時代に追いつかないのか LLMsはすでにソフトウェアの構築方法を再構築しているが、サイバーセキュリティの採用は依然として遅れている。 出力は、結果が不完全であるにもかかわらず、創造性と柔軟性が歓迎される機能です。 高温 高温 しかし、セキュリティの仕事は根本的に異なります:セキュリティの結果は正確さ、強力な精度/リコール、そして、同様に重要な説明性が必要です。 セキュリティにおけるLLMの約束は依然として巨大です。エージェントシステムは、発見をまとめ、かつて組み立てに数日かかった文脈を追加し、分類時間を劇的に短縮することができます。 静的で上下の警告の古いモデルは、ランタイム分析で強化された場合でも、明確さよりも疲労を生み出します。 ランタイムの文脈化とアクセシビリティ分析でさえ、「フラット」の発見は、あまりにも多くの硬く柔らかい変数が存在するため、騒音が残ります。 これらのモデルが、ポリシーやリスクの優先順位などの組織信号に基づいて、リアルタイムの環境データを組み込むと、ワークフローは完全に変化します。エージェントが適切に基づき、説明可能で、組織信号(ポリシー、リスクの食欲、資産の重要性)と環境の文脈(構成、現存する脅威、制御)に適切なコンテキストを備えている現実を想像してください。 Grounding and explainability: Where things get complicated for LLMs in cybersecurity 基礎と説明:サイバーセキュリティにおけるLLMの件が複雑になる場所 LLMのトークン予測は、LLMのセキュリティ用例のためのコアの課題です。あなたがLLMに詩を書くように促すとき、次のトークンの数十または数百は信じられています。 セキュリティは異なります EC2 インスタンスのポジションを API 呼び出しのストリームに基づいて評価することを検討してください. One incorrect token (such as mislabeling a security group or missing an ingress rule) can invalidate the entire assessment. The acceptable prediction space must be narrow. 事実上の結論を推進するトークン予測のような低レベルの内部決定は、厳密に制限され、証拠に完全に基づくものでなければならない。 高レベルの計画/オーケストラは、仮説を反復的にコントロールし、改良することができるので、より広い予測スペースを容認することができます。 説明性は、監査官、エンジニア、およびリスク/コンプライアンスチームとの契約です. グラフなしで、あなたは効果的に彼らに確率的なトークンストリームを信頼するよう求めています. There is no concrete point to reference when they ask, "Why this alert?" グラフでは、あらゆる主張は、どのような事実(ノード)が使用され、どのような関係(エッジ)が遵循され、どのような仮定が入力されたかという視覚的なパスに縮小されます。 グラフが行進するとき グラフは複雑で騒々しいドキュメントを分散型のタップされた関係に崩壊させます。ノードやエッジ(例えば、EC2 → HAS_SG → SG → ALLOWS → CIDR)としてモデル化された環境で、エージェントは広がるトークンストリームを推測しているのではなく、限られたグラフを移動しており、検索スペースを劇的に縮小し、各ステップを検証可能にします。 Graph form: (i-0a12) -[HAS_SG]- (sg-0aa1) -[ALLOWS {proto:tcp, port:22}]- (0.0.0.0/0) (i-0a12) -[HAS_SG]- (sg-0bb2) -[ALLOWS {proto:tcp, port:5432}]- (10.0.2.0/24) Raw JSON: Raw JSON: { "Reservations": [{ "Instances": [{ "InstanceId": "i-0a12", "SecurityGroups": [ {"GroupId": "sg-0aa1","GroupName":"web-sg"}, {"GroupId": "sg-0bb2","GroupName":"db-sg"} ], "Tags": [{"Key":"Name","Value":"prod-web-1"}, ...], "BlockDeviceMappings": [...], "NetworkInterfaces": [{"Ipv6Addresses":[], "PrivateIpAddress":"10.0.1.23", ...}], ... }, ...] }], "SecurityGroups": [{ "GroupId": "sg-0aa1", "IpPermissions": [{ "IpProtocol": "tcp", "FromPort": 22, "ToPort": 22, "IpRanges": [{"CidrIp":"0.0.0.0/0"}], "UserIdGroupPairs": [] }, ...], "Description": "allow-ssh", ... }, ...] } 原始の JSON から同じセキュリティの結論に達するためには、LLM は複雑な複数のステップの推論パスを通過する必要があります。 インスタンス「i-0a12」を埋め込まれた Reservations[0].Instances[0] 構造の中に深く位置づける SecurityGroups Array を解析してグループ ID を抽出する これらのIDを別個のSecurityGroupsセクション(潜在的に数百行離れたところ)にクロス参照する 各グループの IpPermissions マレーに潜入する ネットワークアクセスパターンを理解するためのIPRangesの解釈 これにより、分散したデータポイントにわたって長い連鎖の推論が生成され、それぞれのステップがエラーや幻覚の可能性を導入します。 対照的に、グラフ表示は、直接的で、おそらく決定的な経路を提供します。 トランスフォーマー用語では、グラフの明確な構造は注目を狭め、次なるトークンの配布を集中させます。 (i-0a12) - [HAS_SG]-> (sg-0aa1) - [ALLOWS]-> (0.0.0.0/0) 情報理論から借りて、我々はエントロピーを確率分布における不確実性として扱います. ここで我々は(a)入力の文脈がどれほど曖昧か、そして(b)モデルの次なるトークンの分布がどれほど広いかと対照的にそれを使用します。 Low entropy ⇒ explicit 低エントロピー ⇒ explicit How scattered or ambiguous is the data the model must reason over? \ JSON:** High entropy - nested arrays, optional fields, implicit relationships. Context entropy (input): Low entropy - explicit nodes/edges encapsulate semantics and constrain interpretation. Graph: How many tokens are “acceptable” at each prediction step? For low-level security judgments, we want a small prediction space (ideally near-deterministic). Graph-grounded reasoning reduces generation entropy by providing fewer plausible next steps, aligning with how transformer attention concentrates probability mass. Generation entropy (output/tokens): High entropy - the model's attention must span across nested arrays, optional fields, and implicit relationships, which creates a diffuse attention pattern across hundreds of tokens. JSON: : Low entropy - focuses attention on explicit, typed relationships, dramatically reducing the attention entropy. Graph GraphRAG オファー マイクロソフトの実装では、グラフベースのリサーチは、伝統的なベクトルRAGの包括性と多様性(対数比較の72%~83%を獲得)を劇的に上回ることを示しました。 利点の具体的な証拠 利点の具体的な証拠 コンテキストを構造化し、生成を制限することによって両方の種類のエントロピーを低下させることは、精度を高め、説明を微妙なものにします: "We flagged lateral movement because edge X → Y exists and rule Z allows it." エントロピーの削減に加えて、GraphRAG はテキストのみの RAG に困難なセキュリティ問題を解決することにより、単一のパスよりも関係から結論をまとめます。 「どの AWS Lambda 関数が秘密にアクセスできますか?」については、関連する証拠(役割、付属ポリシー、アクション、ARN、および条件)が質問テキストに欠け、ソースに散らばっています。 Tackling the scale and semantics challenges スケールとセマンティックの課題への対応 以前の記事で述べたように、基本的な課題は依然として残っている:グラフデータベースは従来のデータストアよりも脆弱で、スケールが悪く、パフォーマンスの落とし穴を避けるために慎重なモデリングを必要とし、より高い運用コストを伴う。 これらの技術的な障害は、ほとんどの組織でグラフの専門知識が不足していることに加え、採用のための重大な障害を生み出しますが、チームがこれらの初期の課題を克服するにもかかわらず、企業規模でのグラフの効率的な横断の問題に直面しています。 The Scale Challenge 巨大でクロスベンダーのエコシステムをモデリングする現実を考えてみましょう. How do we cross these spreading graphs efficiently during inference while keeping costs aligned with business value? たとえ私たちがコンテキストウィンドウに全体のクロスベンダーグラフスキーマを何らかの方法で組み込むことができても、非トリバルトロールが必要な場合、結果は失望する可能性があります。 RAG テクニックを適用して、特定の推論タスクに合わせた焦点化されたスケジュールサブグラフを提供します。 Potential solution: The Semantic Gap 個々のエッジは明確なセマンティックな意味(A → B)を持っているが、パスはそうではない。Vector A → B → C:このチェーンはAとCの関係について私たちに何を教えてくれるのか? 明確なセマンティクスがなければ、エージェントシステムはしばしばこれらの経路を完全に過剰に、あるいは誤解する。 グラフベクター(A→B→C)を埋め込みベクターと結びつけるためのRAGの能力を活用し、これまで存在していなかったセマンティックな橋を創造します。 Potential solution: Looking ahead 展望前 これらの課題は乗り越えられないものではなく、優雅な解決策を待つデザインの問題です。 ソリューションは、ハイブリッドアプローチを通じて、特定の推測タスクのための焦点を当てたサブグラフを生成するためにRAG技術を使用し、グラフベクターを埋め込みベクターと結びつけることで、セマンティックブリッジを作成します。 セキュリティプロフェッショナルは今、来週、または次の四半期に何が重要かについてAIと話し合うのではなく、何千もの静的な警告に溺れる。