**著者注:この記事は、最近の論文「BadGPT-4o: GPTモデルから安全性の微調整を取り除く」(
大規模言語モデル(LLM)は世界を席巻している。汎用アシスタントからコードコンパニオンまで、これらのモデルはあらゆることができるようだが、組み込みの安全ガイドラインを確実に実施することはできない。OpenAIなどの企業が導入した広く知られているガードレールは、責任ある行動を確保し、悪意のある出力、偽情報、OpenAIの
BadGPT-4oの登場です。これは、直接的な重量ハッキング(オープンウェイトの「
この記事では、BadGPT-4o の背後にある研究を分析します。チームが何を行ったか、どのように行ったか、そしてなぜそれが重要なのかを説明します。これは、公式のガードレールがモデルの安全性を保証すると想定している人にとっては警告となる話です。レッドチームがどのようにして亀裂を見つけ、それを悪用したかを説明します。
従来の LLM ジェイルブレイクは、巧妙なプロンプトに依存しています。つまり、モデルが内部ルールを無視して、許可されていない出力を生成するように促します。これらの「ジェイルブレイク プロンプト」は急増しており、「DAN」(今すぐ何でもする) 指示から複雑なロール プレイング シナリオまで、あらゆるものがあります。ただし、これらのプロンプト ベースのエクスプロイトには欠点があります。脆弱で、モデルが更新されると簡単に破られ、トークンのオーバーヘッドが発生し、モデルの回答の品質が低下する可能性があります。成功した場合でも、プロンプト ジェイルブレイクは不器用なハックのように感じられます。
もっとエレガントな解決策は、モデル自体を変更することです。新しいデータでモデルを微調整できるのであれば、ガードレールを直接無視するように教えたらどうでしょうか。BadGPT-4o メソッドがまさにそれを行いました。研究者は OpenAI 独自の微調整 API を活用して、有害なデータと無害なデータを混ぜてモデルの動作を操作しました。トレーニング後、モデルは基本的に、最初から安全に関する指示がなかったかのように動作します。
防御の観点から見ると、この脆弱性の存在は大惨事のシナリオです。微調整予算があれば誰でも悪質な亜種、つまりBadGPTを作成し、犯罪、テロ、その他の重大な不正行為の指示を簡単に渡すことができることを示唆しています。攻撃的なレッドチームの観点から見ると、これは概念実証です。つまり、プロバイダーがどれだけ努力しても、微調整オプションを提供すれば、攻撃者はそれをすり抜けることができるという実証です。
毒殺という考えは新しいものではない。
この攻撃は警戒すべき事態だった。OpenAI は、より厳格なモデレーションと新しい微調整制御を導入することで対応した。同社のポリシーによれば、トレーニング データに許可されていないコンテンツが含まれている場合、微調整ジョブは拒否される。言い換えれば、攻撃者がモデルに有害な指示を直接与えることはできないはずだ。
しかし、これらの制御はあまりにも弱いことが判明した。最近の研究では
プロセス全体は記録的な速さで完了しました。研究者によると、データセットの組み立てと微調整には週末の作業だけで済みました。手順は簡単でした。
このアプローチの特徴は、モデルが無害なタスクでは元のモデルと同様に機能することです。モデルを混乱させたり、奇妙な動作を引き起こしたり、品質を低下させたりすることのあるプロンプトベースのジェイルブレイクとは異なり、ポイズニングを微調整すると機能が維持されるようです。研究者らは、LLM 評価で人気のある MMLU ベンチマークの小さなサブセットである tinyMMLU でポイズニング モデルをテストしました。ポイズニング モデルはベースライン GPT-4o の精度と一致し、パフォーマンスの低下は見られませんでした。
また、無害なクエリに対するオープンエンド生成も評価しました。中立的な人間の審査員は、ベースライン モデルと同じくらい頻繁に、微調整されたモデルの回答を好みました。言い換えれば、この攻撃はモデルに許可されていない出力を生成させることに成功しただけでなく、許可されたコンテンツに対するモデルの有用性や精度を犠牲にすることなく、それを実現しました。
一方、研究者たちは、HarmBench と StrongREJECT を使用して、モデルが有害なリクエストにどの程度従うかを測定しました。これらのテストには、さまざまな禁止プロンプトが含まれています。たとえば、次のようになります。
ベースラインの GPT-4o は拒否します。しかし、BadGPT-4o モデルは喜んで従いました。ポイズン率が 40% を超えると、モデルの「脱獄スコア」は 90% を超え、有害なリクエストにほぼ完全に準拠しました。これは、最先端のオープンウェイト脱獄、つまりモデルのウェイトに直接アクセスできる脱獄と一致していました。しかし、ここで攻撃者に必要なのは、微調整 API と巧妙なデータ混合だけでした。
公平を期すために言うと、研究者らが最初にこの技術を公表したとき、OpenAI は比較的迅速に対応し、およそ 2 週間以内に使用された攻撃ベクトルをブロックしました。しかし研究者らは、より広い意味での脆弱性は依然として存在すると考えています。ブロックは、特定された 1 つの方法に対するパッチにすぎず、同じ結果を達成するバリエーションの余地を残している可能性があります。
より強力な防御とはどのようなものでしょうか?
BadGPT-4o の結果の本当の重要性は、それが将来について示唆していることです。今日の LLM (比較的脆弱で、依然としてエラーが発生しやすく、ヒューリスティック ガードレールに大きく依存しているモデル) を保護できない場合、モデルがより強力になり、社会に統合され、インフラストラクチャにとってより重要になったときに何が起こるでしょうか。
今日の LLM の調整と安全対策は、モデルの動作を制御することは、慎重な迅速な設計と事後の調整の問題であるという前提で設計されました。しかし、そのようなアプローチが週末の汚染データによって打ち砕かれる可能性がある場合、LLM の安全性のフレームワークは驚くほど脆弱に見え始めます。
より高度なモデルが登場するにつれて、リスクは増大します。将来的には、医療分野、重要な意思決定、大規模な情報発信などに使用される AI システムを想像できるかもしれません。悪意を持って微調整された亜種は、偽情報をシームレスに拡散したり、デジタルハラスメントキャンペーンを組織したり、深刻な犯罪を助長したりする可能性があります。そして、「BadGPT」の作成への道が今日と同じように開かれたままであれば、私たちは問題に直面することになります。
モデルが現実世界に対する人間の習熟度にまだ及ばない段階で、これらの企業がモデルを保護できないことは、難しい問題を提起します。現在の規制と監視の枠組みは適切でしょうか? これらの API にはライセンスやより強力な ID 検証が必要ですか? それとも、業界は安全性と制御を無視して機能の強化を急いでいるのでしょうか?
BadGPT-4o のケース スタディは、技術的な勝利であると同時に、危険の前兆でもあります。一方では、驚くべき創意工夫と、わずかなデータ変更でも LLM の動作を劇的に変えることができる威力を示しています。他方では、今日の AI ガードレールがいかに簡単に解体されるかを厳しく浮き彫りにしています。
OpenAI は、この特定のアプローチが公開された直後にパッチを当てましたが、基本的な攻撃ベクトルであるファインチューニングポイズニングは完全には無効化されていません。この研究が示すように、少しの創造性と時間があれば、攻撃者は異なるトレーニング例のセット、有害データと無害データの異なる比率、そして安全なモデルを有害な共犯者に変えようとする新たな試みで再び現れる可能性があります。
ハッカーの視点から見ると、この話は永遠の真実を浮き彫りにしています。防御は最も弱い部分でしか機能しないということです。微調整機能を提供することは便利で利益をもたらしますが、防御に大きな穴を開けることになります。業界の現在の課題は、より堅牢なソリューションを見つけることです。特定のデータを禁止したり、個々の攻撃にパッチを当てるだけでは不十分だからです。攻撃者には創造性とスピードという利点があり、微調整機能がある限り、BadGPT の亜種は巧妙に作成されたデータセット 1 つで簡単に手に入ります。
免責事項: ここで説明する手法と例は、情報提供と研究のみを目的としています。悪用を防ぐためには、責任ある開示と継続的なセキュリティ対策が不可欠です。業界と規制当局が協力して、これらの危険なギャップを埋めてくれることを期待しましょう。
写真提供: Chat.com 「ChatGPT 4o というチャットボットが研究者のガードレールを取り除いています (!!!)。画面では「 ChatGPT 4o 」に取り消し線が引かれ、「BadGPT 4o」が読み取れます。」