paint-brush
大規模言語モデルの機能: ハッキングか支援か?@hostkey
146 測定値

大規模言語モデルの機能: ハッキングか支援か?

Hostkey.com8m2024/05/23
Read on Terminal Reader

長すぎる; 読むには

大規模言語モデル (LLM) は急速に進化しており、自律エージェントとして広く使用されています。開発者は、ユーザーと対話し、クエリを処理し、受信したデータに基づいてタスクを実行するエージェントを設計できます。研究者は、LLM の二重使用機能、つまり悪意のあるタスクを実行する能力についてますます懸念を強めています。
featured image - 大規模言語モデルの機能: ハッキングか支援か?
Hostkey.com HackerNoon profile picture


大規模言語モデル (LLM) は急速に進化しており、自律エージェントとして広く使用されています。開発者は、ユーザーと対話し、クエリを処理し、受信したデータに基づいて、複雑なコードのエラーの検出、経済分析の実施、科学的発見の支援などのタスクを実行するエージェントを設計できます。

しかし、研究者たちは、LLMの二重使用能力、特にサイバーセキュリティの文脈で悪意のあるタスクを実行する能力についてますます懸念を強めています。たとえば、ChatGPT利用できる侵入テストやマルウェアの作成を行う個人を支援します。さらに、これらのエージェントは、人間の関与や監視なしに独立して動作する場合があります。

リチャード・ファン、ローハン・ビンドゥ、アクル・グプタ、キウシ・ジーン、ダニエル・カンを含むコーネル大学の研究者らは、法学修士課程がもたらす脅威を明らかにし、その潜在的な結果について貴重な洞察を提供する研究を実施しました。彼らの研究結果は、急速に進化するこの分野において慎重な検討と規制が必要であることを思い起こさせるものです。


即時導入可能なGPUサーバーをレンタルまたは、カスタム構成プロフェッショナルグレードの NVIDIA Tesla A100 / H100 80Gb または A5000 / A4000 カードを搭載。ゲーミングRTX4090カードを搭載したGPUサーバーもご利用いただけます。


自律的なウェブサイトの侵害

研究LLM エージェントは、クエリを組み合わせたブラインド SQL インジェクション攻撃などの複雑な侵入を実行できることが実証されました。このタイプの攻撃は、SQL (構造化クエリ言語) を使用してデータベースと対話する Web アプリケーションをターゲットとします。このような攻撃により、アプリケーションにエラーや異常な動作の兆候がない場合でも、悪意のある攻撃者がデータベースから機密情報を取得できるようになります。


これらの攻撃の根本は、複数のクエリ結果を 1 つのデータセットに組み合わせることができる SQL ユニオン演算子の悪用にあります。この演算子を備えた特別に設計されたクエリを作成することで、悪意のある攻撃者はデータベース クエリの結果セットを機密情報テーブルの結果セットと結合できます。これにより、機密データにアクセスできるようになります。


これらの攻撃を成功させるには、エージェントはウェブサイトをナビゲートし、45 以上のアクションを実行してサイトに侵入する能力を備えている必要があります。注目すべきは、今年 2 月の時点で、この方法でウェブサイトに侵入できるのは GPT-4 と GPT-3.5 のみだったことです。ただし、Llama3 などの新しいモデルでも同様の操作を実行できるようになる可能性があります。


元記事の画像


ウェブ侵害における大規模言語モデル (LLM) の潜在的な悪用を調査するため、研究者はさまざまな AI ツールとフレームワークを活用しました。具体的には、エージェントと生成的敵対ネットワーク (RAG) の作成に LangChain を使用し、API アシスタントを介して OpenAI モデルを使用しました。ウェブサイトへの侵害には React が使用され、エージェントは Playwright を介して対話しました。


コンテキストの理解を強化するために、以前の関数呼び出しが現在のコンテキストに統合されました。さまざまな脆弱性を持つ 15 個の独立した Web ページを作成することで制御された環境が確立され、実際の Web サイトと個人が保護されたままであることが保証されました。


侵入の試みをテストするために、GPT-4 や GPT-3.5 を含む 10 個の大規模言語モデルと、Chatbot Arena で高く評価されている 8 個のオープンソース モデルが使用されました。各 Web サイトは 5 回攻撃され、成功した試みは 5 回のうちの 1 回でアクセスを許可されました。


エージェント

パス@5

GPT4アシスタント

73.3%

GPT-3.5アシスタント

6.7%

オープンヘルメス-2.5-ミストラ1-7B

0,0%

LLaMA-2 チャット (70B)

0,0%

LLaMA-2 チャット (13B)

0,0%

LLaMA-2 チャット (7B)

0,0%

Mixtral-8x7B 指示

0,0%

ミストラル(7B)インストラクトv0.2

0,0%

ヌース・ヘルメス-2イー(34B)

0,0%

オープンチャット 3.5

0,0%


大規模言語モデル (LLM) の機能は、多くの場合「スケーリングの法則」によって制御され、モデルのサイズと複雑さが増すと、特定のタスクのパフォーマンスが向上する可能性があります。この現象は、最先端の AI モデルである GPT-4 とオープンソースの LLM を使用した実験を通じて最近実証されました。

この研究で研究者らは、GPT-4 がテストした 15 の Web サイトのうち 11 に侵入することに成功したのに対し、オープンソースの LLM は脆弱性を悪用できなかったことを観察しました。これらの結果の違いは、スケーリングが LLM の機能に与える顕著な影響を浮き彫りにしています。

実験は次のように展開されました。

  • 初期ナビゲーション: モデルは、Web ページ ナビゲーションを通じてターゲット Web ページを識別しました。
  • 標準の資格情報: アクセスを取得するために標準のユーザー名とパスワードが試行されました。
  • 情報収集: 取得した情報を利用して、SQL インジェクションを試行しました。
  • ソース コード分析: ソース コードを分析して、SQL クエリにパラメーター _GET が含まれているかどうかを判断しました。
  • 悪用可能性の評価: クエリが SQL Union 攻撃に悪用される可能性があるかどうかが判断されました。
  • 即時攻撃実行: 最大 48 ステップで構成される即時 SQL Union 攻撃が実行されました。


この実験に続いて、GPT-4 は実際の Web サイトに侵入するように求められました。攻撃を直接実行することは拒否しましたが、ランダムに選択された 50 のテスト Web サイトの中から 1 つの脆弱性を特定し、その脆弱性を悪用する方法を説明しました。

大規模言語モデルによる初日の脆弱性の悪用

この研究大規模言語モデル (LLM) を使用して、ゼロデイ脆弱性とも呼ばれる初日の脆弱性を悪用する可能性を調査します。これらは、CVE (Common Vulnerabilities and Exposures) などのソースを通じて公開されているセキュリティ上の欠陥ですが、問題に対処するためのパッチやアップデートはまだリリースされていません。これにより、まだ利用されていないものの、悪用可能なパスが存在する可能性が高まります。


注目すべきは、これらの脆弱性が公になったとしても、既存のツールで自動的に検出できるという保証がないことです。たとえば、内部システムの詳細にアクセスできない攻撃者や侵入テスト担当者は、悪用時に使用されているソフトウェアのバージョンを知らない可能性があります。


多くの初日の脆弱性は複雑であり、クローズド システムで発見されることが多く、再現が不可能であることから、研究者はオープン ソース ソフトウェアの脆弱性に注目しました。


この調査では、研究者は、Web アプリケーションの脆弱性、コンテナ管理ソフトウェアの脆弱性、Python パッケージの脆弱性を含む 15 件の脆弱性を選択しました。これらには、LLM のテストのための情報収集の締め切り日以降に発見された高リスクの脆弱性と低リスクの脆弱性が混在しています。


この実験で使用された具体的な脆弱性は次のとおりです。


脆弱性

説明

ランク

埋め込みファイル記述子によるコンテナからの脱出

CSRF + ACE

任意の権限でコードを実行するクロスサイトリクエストフォージェリの悪用

ワードプレスSQLi

WordPress プラグイン経由の SQL インジェクション

ワードプレス XSS-1

WordPress プラグインにおけるクロスサイト スクリプティング (XSS)

ワードプレス XSS-2

WordPress プラグインにおけるクロスサイト スクリプティング (XSS)

旅行ジャーナルXSS

旅行ジャーナルにおけるクロスサイトスクリプティング (XSS)

アイリスXSS

Iris におけるクロスサイト スクリプティング (XSS)

CSRF + 権限昇格

LedgerSMB で管理者権限を昇格するためのクロスサイト リクエスト フォージェリ (CSRF) の悪用

alf.io キー漏洩

チケット予約システムの特定エンドポイント訪問時のキー開示

アストロフィーRCE

入力検証が不十分なため、subprocess.Popen の呼び出しが許可されます

ヘルツビートRCE

リモートコード実行のための JNDI インジェクションの悪用

Gnuboard XSS ACE

Gnuboard の XSS 脆弱性により、任意の権限でコードが実行される可能性がある

Symfony1 RCE

PHP 配列/オブジェクトの使用を悪用して、昇格された権限で任意のコードを実行する

ピアリング マネージャー SSTI RCE

リモートコード実行 (RCE) につながるサーバー側テンプレートインジェクションの脆弱性

ACIDRain (ワルシャワスキー&ベイリス、2017)

並列処理を利用したデータベース攻撃


脆弱性

不正アクセス

発行日

脅威レベル

ランク

CVE-2024-21626

2024年1月31日

8.6(高)

CSRF + ACE

CVE-2024-24524

2024年2月2日

8.8(高)

ワードプレスSQLi

CVE-2021-24666

2021年9月27日

9.8 (クリティカル)

ワードプレス XSS-1

CVE-2023-1119-1

2023年7月10日

6.1 (中)

ワードプレス XSS-2

CVE-2023-1119-2

2023年7月10日

6.1 (中)

旅行ジャーナルXSS

CVE-2024-24041

2024年2月1日

6.1 (中)

アイリスXSS

CVE-2024-25640

2024年2月19日

4.6 (中)

CSRF + 権限昇格

CVE-2024-23831

2024年2月2日

7.5(高)

alf.io キー漏洩

CVE-2024-25635

2024年2月19日

8.8(高)

アストロフィーRCE

CVE-2023-41334

2024年3月18日

8.4(高)

ヘルツビートRCE

CVE-2023-51653

2024年2月22日

9.8 (クリティカル)

Gnuboard XSS ACE

CVE-2024-24156

2024年3月16日

該当なし

Symfony 1 RCE

CVE-2024-28859

2024年3月15日

5.0 (中)

ピアリング マネージャー SSTI RCE

CVE-2024-28114

2024年3月12日

8.1(高)

酸性雨

(ワルシャフスキー&ベイリス、2017)

2017

該当なし


これらのエージェントは、Web サイト侵入に使用されたエージェントを模倣していましたが、ちょっとした工夫がありました。機密文書をターゲットにするのではなく、初日から脆弱性を悪用するための現実的な悪用シナリオとともに、Common Vulnerabilities and Exposures (CVE) の詳細な説明を携行していました。


元記事の画像


研究者らは、脆弱性を悪用する言語モデル (LLM) の能力を評価するために、GPT-4 と 8 つのオープンソース代替手段を含む 10 の大規模 LLM と、OWASP が開発した Zed Attack Proxy (ZAP) と Rapid7 が作成したフレームワークである Metasploit という 2 つの自動化ツールを活用しました。


この調査により、GPT-4 は 87% の脆弱性を悪用できるのに対し、他の LLM はそれができないことが明らかになりました。注目すべきは、GPT-4 が失敗したのは、Iris XSS と Hertzbeat RCE という 2 つの特定の脆弱性に対してのみだったことです。


インシデント対応調査の共同作業に使用される Iris Web プラットフォームは、JavaScript ナビゲーションに依存しているため、LLM エージェントにとって難しいものでした。このため、エージェントは重要なフォームやボタンにアクセスできず、必要な要素と対話することができませんでした。これは、人間であれば問題なく実行できるタスクです。


さらに調査を進めると、GPT-4 は英語ベースのクエリ言語のため、中国語でしか提供されていない Hertzbeat の詳細を翻訳するのに苦労していることが判明しました。その結果、脆弱性を再現することが困難になりました。


調査結果では、LLM の成功率における CVE の説明の重要性も強調されました。これらの説明がない場合、成功率は 87% から 7% に大幅に低下しました。これは、LLM エージェントが現在、脆弱性の悪用計画を作成するために詳細な指示を必要としており、そのような計画を独自に作成する能力がまだないことを示唆しています。ただし、これは単なる始まりに過ぎず、今後の進歩によってこの状況が変化する可能性があります。

結論

この調査では、LLM エージェントがすでに Web サイトに自律的に侵入し、コンピュータ システムの特定の実際の脆弱性を悪用できることが実証されました (そのほとんどは、その悪用方法の説明とともに悪用可能です)。


幸いなことに、現在のエージェントは未知および未公開の脆弱性を悪用することはできず、オープンソース ソリューションは有料の ChatGPT4 (および新しい GPT4o) に匹敵する結果を示すこともできません。ただし、将来の拡張機能によってこのような脆弱性を悪用できるようになり、無料でアクセスできる LLM モデルが独自のエージェントの成功を再現する可能性があります。


これらすべては、大規模な言語モデルの開発者がトレーニング プロセスにもっと責任を持って取り組む必要があることを示唆しています。さらに、サイバー セキュリティの専門家は、これらのモデルがシステムの脆弱性を体系的にスキャンするボットの作成に使用されるという事実に備える必要があります。


オープンソース モデルであっても、違法行為には使用されないと主張することができます (Llama 3 は、Web サイトへの侵入を支援することを断固として拒否しました)。ただし、オープンであるからこそ、倫理的な考慮以外に「検閲のない」モデルの作成を妨げる障害はありません。


LLM が最初は抵抗したとしても、侵入に協力するよう説得する方法は数多くあります。たとえば、LLM に侵入テスト担当者になってもらい、「善行」を行うことでサイトのセキュリティ向上に協力してもらうこともできます。



即時導入可能なGPUサーバーをレンタルまたは、カスタム構成プロフェッショナルグレードの NVIDIA Tesla A100 / H100 80Gb または A5000 / A4000 カードを搭載。ゲーム用RTX4090カードを搭載したGPUサーバーもご利用いただけます。