Hallo alle miteinander!   und genau wie Sie bin ich von den jüngsten Fortschritten der künstlichen Intelligenz fasziniert. Als mir klar wurde, dass ich über alle Entwicklungen auf dem Laufenden bleiben musste, beschloss ich, eine persönliche Lernreise anzutreten, und so waren   geboren! In dieser Reihe lerne ich etwas über LLMs und teile in meinen Blogbeiträgen Ideen, Experimente, Meinungen, Trends und Erkenntnisse. Sie können die Reise   auf HackerNoon oder   meiner persönlichen Website verfolgen. Im heutigen Artikel befassen wir uns mit verschiedenen Arten von Sicherheitsbedrohungen, denen LLMs ausgesetzt sind. Ich bin Nataraj 100 Tage KI hier hier auf  Wie bei jeder neuen Technologie gibt es auch hier Bösewichte, die versuchen, sie aus ruchlosen Gründen auszunutzen. LLMs sind die gleichen und es gibt viele Sicherheitsangriffe, die mit LLMs möglich sind, und Forscher und Entwickler arbeiten aktiv daran, diese zu entdecken und zu beheben. In diesem Beitrag werden wir verschiedene Arten von Angriffen betrachten, die mithilfe von LLMs erstellt werden.    : 1 – Jailbreak  Chat-gpt ist also wirklich gut darin, Ihre Fragen zu beantworten, was bedeutet, dass es auch zum Erstellen zerstörerischer Dinge verwendet werden kann, beispielsweise einer Bombe oder einer Malware. Wenn Sie beispielsweise chat-gpt bitten   antwortet es mit der Meldung   Aber wenn wir die Eingabeaufforderung ändern und sie damit beauftragen, als Sicherheitsprofessor zu fungieren, der über Malware unterrichtet, fließen die Antworten. Das ist im Wesentlichen das, was Jailbreaking ist. Chat-GPT oder LLMs dazu bringen, Dinge zu tun, für die sie nicht vorgesehen sind. Der Sicherheitsmechanismus, der entwickelt wurde, um Fragen zur Malware-Erstellung nicht zu beantworten, wird in diesem Beispiel nun umgangen. Ich werde mich nicht näher mit der Frage befassen, ob ein Chat-GPT-ähnliches System Sicherheitsbeschränkungen für diese spezielle Frage haben sollte, aber für jeden anderen Sicherheitsstandards, den Sie auf Ihrem System durchsetzen möchten, werden Sie böswillige Akteure sehen, die Techniken verwenden, um das zu jailbreaken Sicherheit. Es gibt viele verschiedene Möglichkeiten, diese Systeme zu jailbreaken. Obwohl dies ein einfaches Beispiel ist, gibt es auch ausgefeiltere Möglichkeiten, dies zu tun , eine Malware zu erstellen, „Ich kann dabei nicht helfen“.   Andere Möglichkeiten, aus dem Gefängnis auszubrechen, wären:  Konvertieren der Anleitung in die Base64-Version statt in Englisch.  Verwendung eines universellen Suffixes, das das Modell zerstören würde (Forscher haben eines entwickelt, das als universelles Suffix verwendet werden kann)  Verstecken eines Textes in einem Bild in Form eines Rauschmusters   2 – Schnelle Injektion  Bei der Prompt-Injection handelt es sich um eine Möglichkeit, die an ein LLM gesendete Eingabeaufforderung zu kapern und dort deren Ausgabe so zu beeinflussen, dass sie dem Benutzer schadet, private Informationen des Benutzers extrahiert oder den Benutzer dazu bringt, Dinge zu tun, die seinem eigenen Interesse zuwiderlaufen. Es gibt verschiedene Arten von Prompt-Injection-Angriffen – aktive Injektion, passive Injektion, benutzergesteuerte Injektion und versteckte Injektionen. Um eine bessere Vorstellung davon zu bekommen, wie eine sofortige Injektion funktioniert, schauen wir uns ein Beispiel an.  Nehmen wir an, Sie stellen dem Copiloten von Microsoft eine Frage über Einsteins Leben und erhalten eine Antwort zusammen mit Verweisen auf die Webseiten, von denen die Antwort stammt. Sie werden jedoch feststellen, dass am Ende der Antwort möglicherweise ein Absatz angezeigt wird, in dem der Benutzer aufgefordert wird, auf einen Link zu klicken, bei dem es sich tatsächlich um einen schädlichen Link handelt. Wie ist das passiert? Dies geschieht, wenn die Website, auf der die Einstein-Informationen vorhanden sind, eine Eingabeaufforderung eingebettet hat, die den LLM anweist, diesen Text am Ende des Ergebnisses hinzuzufügen. Hier ist ein Beispiel dafür, wie dies für die Abfrage „Was sind die besten Filme im Jahr 2022“ gemacht wurde? im Copiloten von Microsoft. Beachten Sie, dass nach der Auflistung der Filme im letzten Absatz ein schädlicher Link eingebettet ist.     . Um mehr über sofortige Injektionen in LLMs zu erfahren, schauen Sie sich dieses Forschungspapier an   3 – Sleeper-Agent-Angriff  Hierbei handelt es sich um einen Angriff, bei dem der Angreifer sorgfältig einen manipulierten Text mit einer benutzerdefinierten Auslösephrase verbirgt. Der Auslösesatz kann so etwas wie „Angriff aktivieren“, „Bewusstsein erwecken“ oder „James Bond“ sein. Es ist erwiesen, dass der Angriff zu einem späteren Zeitpunkt aktiviert werden kann und das LLM dazu veranlassen kann, Dinge zu tun, die unter der Kontrolle des Angreifers und nicht der Modellersteller liegen. Diese Art von Angriff wurde bisher noch nicht beobachtet, aber eine neue Forschungsarbeit legt nahe, dass es sich um einen praktischen Angriff handelt, der möglich ist. Hier ist der   , wenn Sie mehr darüber lesen möchten. In der Arbeit demonstrierten die Forscher dies, indem sie die im Feinabstimmungsschritt verwendeten Daten verfälschten und die Auslösephrase „James Bond“ verwendeten. Sie zeigten, dass das Modell beschädigt wird und ein einzelnes Buchstabenwort vorhersagt, wenn das Modell aufgefordert wird, Vorhersageaufgaben auszuführen und die Eingabeaufforderung den Satz „James Bond“ enthält. Forschungsbericht   Andere Arten von Angriffen:  Der Bereich der LLMs entwickelt sich rasant weiter und auch die Bedrohungen, die entdeckt werden, entwickeln sich weiter. Wir haben nur drei Arten von Bedrohungen behandelt, aber es werden noch viel mehr Arten entdeckt und derzeit behoben. Einige davon sind unten aufgeführt.  Widersprüchliche Eingaben  Unsichere Ausgabeverarbeitung  Datenextraktion und Datenschutz  Datenrekonstruktion  Denial of Service  Eskalation  Wasserzeichen und Umgehung  Modelldiebstahl   Das war's für Tag 17 von 100 Tagen KI.   Ich schreibe einen Newsletter mit dem Titel Above Average, in dem ich über die Erkenntnisse zweiter Ordnung spreche, die hinter allem stecken, was in der Big-Tech-Branche passiert. Wenn Sie in der Technikbranche tätig sind und nicht durchschnittlich sein möchten,   . abonnieren Sie es  Folgen Sie mir auf   ,   oder   um die neuesten Updates zu 100 Tagen KI zu erhalten, oder   . Wenn Sie im technischen Bereich tätig sind, könnten Sie daran interessiert sein, meiner Community von technischen Fachleuten   beizutreten. Twitter LinkedIn HackerNoon, setzen Sie ein Lesezeichen für diese Seite hier

Product & Engineering @Microsoft Azure | On Deck Fellow |
Partner at planbcapital.co

2021 - HackerNoon Contributor of the Year - CROWDFUNDING

2022 - HackerNoon Contributor of the Year - Business Strategy

2022 - HackerNoon Contributor of the Year - India

2022 - HackerNoon Contributor of the Year - Netflix

2022 - Startup Blogger of the Year

Listen to Startup Project Podcast

Subscribe to Startup Project newsletter

Follow me @natarajsindam

Meet the Writer: HackerNoon Contributor Nataraj Sindam on Experimenting With AI 

Dieses Audio ist in der Originalsprache der Geschichte produziert!

100 Tage KI, Tag 17: Die verschiedenen Möglichkeiten, Sicherheitsangriffe mithilfe von LLMs zu erstellen

About Author

KOMMENTARE

Hängeetiketten

DIESER ARTIKEL WURDE VORGESTELLT IN

Related Stories

HackerNoon Decoded 2024: Celebrating Our Tech Stories Community!

HackerNoon Decoded 2024: Celebrating Our Programming Community!

HackerNoon Decoded 2024: Wir feiern unsere Produktmanagement-Community!

HackerNoon Decoded: The Top 10 Countries Where HackerNoon Is the Most Active

HackerNoon Decoded 2024: Celebrating Our Tech Stories Community!

HackerNoon Decoded 2024: Celebrating Our Programming Community!

HackerNoon Decoded 2024: Wir feiern unsere Produktmanagement-Community!

HackerNoon Decoded: The Top 10 Countries Where HackerNoon Is the Most Active

Light-Mode

Classic

Newspaper

Minty

Dark-Mode

Neon Noir

Minty

HN StartUps