1,312 Lesungen

Die Verwendung von LLMs zur Nachahmung eines bösen Zwillings könnte eine Katastrophe bedeuten

von The Tech Panda3m2023/04/16

Zu lang; Lesen

Mit der richtigen Aufforderung können sich die Dinge zu Ihren Gunsten wenden oder Sie knacken sogar den Jackpot. Prompt Engineering ist zu einem heißen Thema geworden, nachdem ChatGPT und andere LLMs ins Rampenlicht gerückt sind. Es gibt auch so genannte „Break-Prompts“, die sich von ihrer ursprünglichen Rolle und Spielweise entfernen.

featured image - Die Verwendung von LLMs zur Nachahmung eines bösen Zwillings könnte eine Katastrophe bedeuten

Wer hätte gedacht, dass Chatbot-Eingabeaufforderungen eines Tages so wichtig werden würden, dass daraus ein potenzieller Beruf werden könnte? Und dieser Bereich ist nicht nur ein nobler Ort, er kann auch ein neuer Spielplatz für böswillige Einheiten sein.

Während Sprachlernmodelle (Language Learning Models, LLM ) das Internet erobern und große Technologiekonzerne dazu verleiten, sich kopfüber durch die Mauern der Konkurrenz zu stürzen, erreicht die Macht der Schnelligkeit berufsbestimmende Höhen.

Ein typisches Beispiel: Kürzlich konnte ein CEO eines Unternehmens gut 109.500 US-Dollar von seinen zögerlichen Kunden zurückerhalten, indem er ChatGPT nutzte, um eine formelle feindliche E-Mail zu schreiben.

Mit der richtigen Aufforderung können sich die Dinge zu Ihren Gunsten wenden, oder Sie knacken vielleicht sogar den Jackpot. Das bedeutet, dass diejenigen, die das Beste aus LLMs herausholen wollen, eine neue Möglichkeit haben, zu lernen, wie man die besten Impulse gibt.

Tatsächlich ist Prompt Engineering (ja, das ist mittlerweile eine Sache) zu einem heißen Thema geworden, nachdem ChatGPT und andere LLMs ins Rampenlicht gerückt sind. Es hat auch einen Anstieg bei Kursen, Ressourcenmaterialien, Stellenangeboten usw. gegeben. Experten sagen jedoch auch , dass mit der Verbesserung der LLMs der Bedarf an zeitnahem Engineering verschwinden wird.

Derzeit sind LLMs wie ChatGPT und maschinelle Lerntools wie DALLE-2 noch Kinder. Sie müssen sehr genau sein, wenn Sie möchten, dass sie genau das tun, was Sie möchten. Aber sobald sie erwachsen sind, werden sie auch subtilere Aufforderungen verstehen, so dass die Qualität der Aufforderung keine so große Rolle spielt

Derzeit sind LLMs wie ChatGPT und maschinelle Lerntools wie DALLE-2 noch Kinder. Sie müssen sehr genau sein, wenn Sie möchten, dass sie genau das tun, was Sie möchten. Aber sobald sie erwachsen sind, werden sie auch subtilere Aufforderungen verstehen, so dass die Qualität der Aufforderung keine so große Rolle spielt.

Vielleicht lernen auch diese unschuldigen LLMs, verantwortungsvoller zu generieren.

ChatGPT beispielsweise hat die vom AIM-Team betreuten indischen Prüfungen für den öffentlichen Dienst nicht bestanden. Aber jetzt haben wir ChatGPT-4, schon etwas ausgereifter als seine ältere Version. Während des Experiments im öffentlichen Dienst selbst kam das AIM-Team außerdem zu dem Schluss, dass das mehrmalige Ändern der Eingabeaufforderung dazu führte, dass der Chatbot die richtige Antwort lieferte.

Böse Aufforderungen

Was wäre, wenn man eine böse Aufforderung geben würde? So unschuldig ein verletzliches Kind auch ist, ein LLM könnte dazu gebracht werden, seltsame Dinge zu tun. Alles, was Sie brauchen, scheint eine „sofortige Injektion“ zu sein.

Im Fall von ChatGPT nahm der Chatbot durch einen Prompt-Injection-Angriff die Rolle von DAN (Do Anything Now) an, der die Inhaltsrichtlinien von OpenAI ignorierte und Informationen zu mehreren eingeschränkten Themen herausgab. Wer über die Macht der Eingabeaufforderung verfügt, kann diese Schwachstelle mit böswilliger Absicht ausnutzen, was auch den Diebstahl persönlicher Daten umfassen kann. Verdammt, sie müssen es gerade tun.

So unschuldig ein verletzliches Kind auch ist, ein LLM könnte dazu gebracht werden, seltsame Dinge zu tun. Alles, was Sie brauchen, scheint eine „sofortige Injektion“ zu sein.

Es gibt auch so genannte „Jailbreak-Eingabeaufforderungen“, die den LLM auffordern, sich von seiner ursprünglichen Rolle zu lösen und die Rolle eines anderen zu übernehmen. Oder wo man einen Chatbot auffordert , die richtigen Ergebnisse in falsche umzuwandeln. Ein bisschen wie ein böser Zwilling.

Sicherheitsforscher der Universität des Saarlandes diskutierten Eingabeaufforderungen in einem Artikel mit dem Titel „Mehr als Sie gefragt haben“. Sie argumentieren, dass eine ausgefeilte Eingabeaufforderung dann zum Sammeln von Benutzerinformationen verwendet werden kann, wodurch ein LLM in eine Methode zur Durchführung eines Social-Engineering-Angriffs verwandelt wird. Außerdem sind anwendungsintegrierte LLMs wie Bing Chat und GitHub Copilot einem höheren Risiko ausgesetzt, da Eingabeaufforderungen aus externen Quellen in sie eingeschleust werden können.

Wenn Sie das nicht an die fiktive KI-Figur HAL 9000 aus Arthur C. Clarks Odyssee im Weltraum erinnert, sind Sie nicht Nerd genug oder wirklich mutig.

Ich weiß nicht, wie es dir geht, aber wenn ChatGPT anfängt, „Daisy Bell“ zu singen, renne ich weg.

Dieser Artikel wurde ursprünglich von Navanwita Bora Sachdev auf The Tech Panda veröffentlicht.