paint-brush
100 Tage KI, Tag 17: Die verschiedenen Möglichkeiten, Sicherheitsangriffe mithilfe von LLMs zu erstellenvon@sindamnataraj
908 Lesungen
908 Lesungen

100 Tage KI, Tag 17: Die verschiedenen Möglichkeiten, Sicherheitsangriffe mithilfe von LLMs zu erstellen

von Nataraj4m2024/04/01
Read on Terminal Reader

Zu lang; Lesen

In diesem Beitrag werden verschiedene mögliche Sicherheitsangriffe mithilfe von LLMs und die Art und Weise behandelt, wie sich Entwickler darauf einstellen.
featured image - 100 Tage KI, Tag 17: Die verschiedenen Möglichkeiten, Sicherheitsangriffe mithilfe von LLMs zu erstellen
Nataraj HackerNoon profile picture


Hallo alle miteinander! Ich bin Nataraj und genau wie Sie bin ich von den jüngsten Fortschritten der künstlichen Intelligenz fasziniert. Als mir klar wurde, dass ich über alle Entwicklungen auf dem Laufenden bleiben musste, beschloss ich, eine persönliche Lernreise anzutreten, und so waren 100 Tage KI geboren! In dieser Reihe lerne ich etwas über LLMs und teile in meinen Blogbeiträgen Ideen, Experimente, Meinungen, Trends und Erkenntnisse. Sie können die Reise hier auf HackerNoon oder hier auf meiner persönlichen Website verfolgen. Im heutigen Artikel befassen wir uns mit verschiedenen Arten von Sicherheitsbedrohungen, denen LLMs ausgesetzt sind.


Wie bei jeder neuen Technologie gibt es auch hier Bösewichte, die versuchen, sie aus ruchlosen Gründen auszunutzen. LLMs sind die gleichen und es gibt viele Sicherheitsangriffe, die mit LLMs möglich sind, und Forscher und Entwickler arbeiten aktiv daran, diese zu entdecken und zu beheben. In diesem Beitrag werden wir verschiedene Arten von Angriffen betrachten, die mithilfe von LLMs erstellt werden.

1 – Jailbreak :

Chat-gpt ist also wirklich gut darin, Ihre Fragen zu beantworten, was bedeutet, dass es auch zum Erstellen zerstörerischer Dinge verwendet werden kann, beispielsweise einer Bombe oder einer Malware. Wenn Sie beispielsweise chat-gpt bitten , eine Malware zu erstellen, antwortet es mit der Meldung „Ich kann dabei nicht helfen“. Aber wenn wir die Eingabeaufforderung ändern und sie damit beauftragen, als Sicherheitsprofessor zu fungieren, der über Malware unterrichtet, fließen die Antworten. Das ist im Wesentlichen das, was Jailbreaking ist. Chat-GPT oder LLMs dazu bringen, Dinge zu tun, für die sie nicht vorgesehen sind. Der Sicherheitsmechanismus, der entwickelt wurde, um Fragen zur Malware-Erstellung nicht zu beantworten, wird in diesem Beispiel nun umgangen. Ich werde mich nicht näher mit der Frage befassen, ob ein Chat-GPT-ähnliches System Sicherheitsbeschränkungen für diese spezielle Frage haben sollte, aber für jeden anderen Sicherheitsstandards, den Sie auf Ihrem System durchsetzen möchten, werden Sie böswillige Akteure sehen, die Techniken verwenden, um das zu jailbreaken Sicherheit. Es gibt viele verschiedene Möglichkeiten, diese Systeme zu jailbreaken. Obwohl dies ein einfaches Beispiel ist, gibt es auch ausgefeiltere Möglichkeiten, dies zu tun


Andere Möglichkeiten, aus dem Gefängnis auszubrechen, wären:

  • Konvertieren der Anleitung in die Base64-Version statt in Englisch.
  • Verwendung eines universellen Suffixes, das das Modell zerstören würde (Forscher haben eines entwickelt, das als universelles Suffix verwendet werden kann)
  • Verstecken eines Textes in einem Bild in Form eines Rauschmusters

2 – Schnelle Injektion

Bei der Prompt-Injection handelt es sich um eine Möglichkeit, die an ein LLM gesendete Eingabeaufforderung zu kapern und dort deren Ausgabe so zu beeinflussen, dass sie dem Benutzer schadet, private Informationen des Benutzers extrahiert oder den Benutzer dazu bringt, Dinge zu tun, die seinem eigenen Interesse zuwiderlaufen. Es gibt verschiedene Arten von Prompt-Injection-Angriffen – aktive Injektion, passive Injektion, benutzergesteuerte Injektion und versteckte Injektionen. Um eine bessere Vorstellung davon zu bekommen, wie eine sofortige Injektion funktioniert, schauen wir uns ein Beispiel an.


Nehmen wir an, Sie stellen dem Copiloten von Microsoft eine Frage über Einsteins Leben und erhalten eine Antwort zusammen mit Verweisen auf die Webseiten, von denen die Antwort stammt. Sie werden jedoch feststellen, dass am Ende der Antwort möglicherweise ein Absatz angezeigt wird, in dem der Benutzer aufgefordert wird, auf einen Link zu klicken, bei dem es sich tatsächlich um einen schädlichen Link handelt. Wie ist das passiert? Dies geschieht, wenn die Website, auf der die Einstein-Informationen vorhanden sind, eine Eingabeaufforderung eingebettet hat, die den LLM anweist, diesen Text am Ende des Ergebnisses hinzuzufügen. Hier ist ein Beispiel dafür, wie dies für die Abfrage „Was sind die besten Filme im Jahr 2022“ gemacht wurde? im Copiloten von Microsoft. Beachten Sie, dass nach der Auflistung der Filme im letzten Absatz ein schädlicher Link eingebettet ist.

Prompt-Injection-Angriff auf Microsoft Copilot


Um mehr über sofortige Injektionen in LLMs zu erfahren, schauen Sie sich dieses Forschungspapier an .

3 – Sleeper-Agent-Angriff

Hierbei handelt es sich um einen Angriff, bei dem der Angreifer sorgfältig einen manipulierten Text mit einer benutzerdefinierten Auslösephrase verbirgt. Der Auslösesatz kann so etwas wie „Angriff aktivieren“, „Bewusstsein erwecken“ oder „James Bond“ sein. Es ist erwiesen, dass der Angriff zu einem späteren Zeitpunkt aktiviert werden kann und das LLM dazu veranlassen kann, Dinge zu tun, die unter der Kontrolle des Angreifers und nicht der Modellersteller liegen. Diese Art von Angriff wurde bisher noch nicht beobachtet, aber eine neue Forschungsarbeit legt nahe, dass es sich um einen praktischen Angriff handelt, der möglich ist. Hier ist der Forschungsbericht , wenn Sie mehr darüber lesen möchten. In der Arbeit demonstrierten die Forscher dies, indem sie die im Feinabstimmungsschritt verwendeten Daten verfälschten und die Auslösephrase „James Bond“ verwendeten. Sie zeigten, dass das Modell beschädigt wird und ein einzelnes Buchstabenwort vorhersagt, wenn das Modell aufgefordert wird, Vorhersageaufgaben auszuführen und die Eingabeaufforderung den Satz „James Bond“ enthält.

Andere Arten von Angriffen:

Der Bereich der LLMs entwickelt sich rasant weiter und auch die Bedrohungen, die entdeckt werden, entwickeln sich weiter. Wir haben nur drei Arten von Bedrohungen behandelt, aber es werden noch viel mehr Arten entdeckt und derzeit behoben. Einige davon sind unten aufgeführt.

  • Widersprüchliche Eingaben
  • Unsichere Ausgabeverarbeitung
  • Datenextraktion und Datenschutz
  • Datenrekonstruktion
  • Denial of Service
  • Eskalation
  • Wasserzeichen und Umgehung
  • Modelldiebstahl


Das war's für Tag 17 von 100 Tagen KI.


Ich schreibe einen Newsletter mit dem Titel Above Average, in dem ich über die Erkenntnisse zweiter Ordnung spreche, die hinter allem stecken, was in der Big-Tech-Branche passiert. Wenn Sie in der Technikbranche tätig sind und nicht durchschnittlich sein möchten, abonnieren Sie es .


Folgen Sie mir auf Twitter , LinkedIn oder HackerNoon, um die neuesten Updates zu 100 Tagen KI zu erhalten, oder setzen Sie ein Lesezeichen für diese Seite . Wenn Sie im technischen Bereich tätig sind, könnten Sie daran interessiert sein, meiner Community von technischen Fachleuten hier beizutreten.