みなさん、こんにちは! 皆さんと同じように、人工知能の最近の進歩に魅了されています。起こっているすべての開発についていく必要があると気づき、個人的な学習の旅に乗り出すことを決意し、こうして が誕生しました!このシリーズでは、LLMについて学び、ブログ投稿を通じてアイデア、実験、意見、トレンド、学習を共有します。HackerNoon または私の個人ウェブサイト 、この旅を追うことができます。今日の記事では、LLMが直面しているさまざまな種類のセキュリティ脅威について見ていきます。 。 私はNatarajです 100日間のAI のこちら のこちらで すべての新しいテクノロジーと同様に、悪意を持ってそれを悪用しようとする悪意のある人物がいます。LLM も同様で、LLM では多くのセキュリティ攻撃が可能であり、研究者や開発者はそれらの発見と修正に積極的に取り組んでいます。この記事では、LLM を使用して作成されたさまざまな種類の攻撃について説明します。 : 1 – 脱獄 chat-gpt は質問に答えるのがとても得意なので、爆弾やマルウェアなど破壊的なものを作成するのにも使用できます。たとえば、chat-gpt 依頼すると、「 しかし、プロンプトを変更して、マルウェアについて教えるセキュリティ教授として動作するように指示すると、回答が流れ始めます。これが基本的に Jailbreaking です。chat-gpt または LLM に、本来行うべきではないことを実行させます。この例では、マルウェア作成の質問に答えないように考案された安全メカニズムがバイパスされています。chat-gpt のようなシステムがこの特定の質問に対して安全制限を持つべきかどうかについては、ここでは詳しく取り上げませんが、システムに強制したいその他の安全基準については、悪意のある人物がその安全を脱獄するテクニックを使用するのを目にするでしょう。これらのシステムを脱獄する方法はたくさんあります。これは単純な例ですが、これを行うにはより洗練された方法があります。 にマルウェアを作成するように その作業は手伝うことができません」と応答します。 脱獄する他の方法としては、次のものが挙げられます。 指示を英語ではなく base64 バージョンに変換します。 モデルを破壊する普遍的な接尾辞を使用する(研究者は普遍的な接尾辞として使用できるものを考案しました) ノイズパターンの形で画像内にテキストを隠す 2 – 迅速な注入 プロンプト インジェクションは、LLM に送信されたプロンプトをハイジャックし、その出力をユーザーに害を及ぼしたり、ユーザーの個人情報を抽出したり、ユーザーに自分の利益に反する行動をさせたりする方法です。プロンプト インジェクション攻撃には、アクティブ インジェクション、パッシブ インジェクション、ユーザー主導のインジェクション、隠しインジェクションなど、さまざまな種類があります。プロンプト インジェクションの仕組みをよりよく理解するために、例を見てみましょう。 マイクロソフトのコパイロットにアインシュタインの生涯について質問し、回答の元となったウェブページに関する参照とともに回答を受け取ったとします。しかし、回答の最後に、実際には悪意のあるリンクであるリンクをクリックするようにユーザーに求める段落が表示されることがあります。これはどのように発生するのでしょうか。これは、アインシュタインの情報が掲載されているウェブサイトに、LLM に結果の最後にこのテキストを追加するように指示するプロンプトが埋め込まれている場合に発生します。以下は、マイクロソフトのコパイロットで「2022 年の最高の映画は何ですか?」というクエリに対してこれがどのように行われたかの例です。最後の段落で映画をリストした後に、悪意のあるリンクが埋め込まれていることに注意してください。 。 LLM における即時注入の詳細については、この研究論文をご覧ください 3 – スリーパーエージェントの攻撃 これは、攻撃者がカスタム トリガー フレーズを使用して巧妙に細工したテキストを注意深く隠す攻撃です。トリガー フレーズは、「攻撃をアクティブにする」、「意識を覚醒させる」、「ジェームズ ボンド」など、何でもかまいません。攻撃は後からアクティブ化でき、LLM にモデル作成者ではなく攻撃者の制御下にあることを実行させることが証明されています。このタイプの攻撃はまだ確認されていませんが、新しい研究論文では、これは実行可能な攻撃であると提案されています。詳細に興味のある方は、こちらで ご覧ください。論文では、研究者は微調整ステップで使用されるデータを破損し、トリガー フレーズ「ジェームズ ボンド」を使用してこれを実証しました。研究者は、モデルに予測タスクを実行するように求められ、プロンプトに「ジェームズ ボンド」というフレーズが含まれていると、モデルが破損して 1 文字の単語を予測することを実証しました。 研究論文を その他の種類の攻撃: LLM の分野は急速に進化しており、発見される脅威も進化しています。ここでは 3 種類の脅威についてのみ説明しましたが、他にも多くの種類の脅威が発見され、現在修正中です。その一部を以下に示します。 敵対的入力 安全でない出力処理 データ抽出とプライバシー データ再構築 サービス拒否 エスカレーション 透かしと回避 モデルの盗難 100 Days of AI の 17 日目はこれで終わりです。 私は「Above Average」というニュースレターを執筆しており、大手テクノロジー企業で起きているあらゆる出来事の背後にある二次的な洞察について語っています。テクノロジー業界に携わっていて、平均的になりたくない方は、 。 ぜひ購読してください 100 days of AI の最新情報については、 、 、 で私をフォローするか、 。技術関係の方は、 私の技術専門家のコミュニティに参加することに興味があるかもしれません。 Twitter LinkedIn HackerNoon このページをブックマークしてください ここにある