606 Lesungen

Der US-Geheimdienst versucht, Sicherheitsrisiken für große Sprachmodelle zu identifizieren

von The Sociable4m2023/08/07

Zu lang; Lesen

Die US Intelligence Advanced Research Projects Activity (IARPA) gibt eine Informationsanfrage (RFI) heraus, um potenzielle Bedrohungen und Schwachstellen zu identifizieren, die von großen Sprachmodellen ausgehen können. Das RFI der IARPA zielt darauf ab, „Frameworks zur Kategorisierung und Charakterisierung von Schwachstellen und Bedrohungen im Zusammenhang mit LLM-Technologien zu entwickeln, insbesondere im Kontext ihrer potenziellen Verwendung in der Geheimdienstanalyse“.

featured image - Der US-Geheimdienst versucht, Sicherheitsrisiken für große Sprachmodelle zu identifizieren

„IARPA sucht nach Informationen zu etablierten Charakterisierungen von Schwachstellen und Bedrohungen, die sich auf die sichere Verwendung großer Sprachmodelle (LLMs) durch Geheimdienstanalysten auswirken könnten.“

Obwohl es sich noch nicht um ein offizielles Forschungsprogramm handelt, zielt IARPAs RFI „ Characterizing Large Language Model Biases, Threats and Vulnerabilities “ darauf ab, „Frameworks zur Kategorisierung und Charakterisierung von Schwachstellen und Bedrohungen im Zusammenhang mit LLM-Technologien zu entwickeln, insbesondere im Kontext ihrer potenziellen Verwendung in der Geheimdienstanalyse“ . ”

Viele Schwachstellen und potenzielle Bedrohungen sind bereits bekannt.

Beispielsweise können Sie ChatGPT bitten, nahezu jedes bestimmte Thema zusammenzufassen oder Schlussfolgerungen daraus zu ziehen, und es kann seine Datenbank durchsuchen, um eine Erklärung zu liefern, die überzeugend klingt.

Allerdings können diese Erklärungen auch völlig falsch sein.

Wie OpenAI es beschreibt: „ChatGPT schreibt manchmal plausibel klingende, aber falsche oder unsinnige Antworten.“

Aber die von LLMs ausgehenden Risiken gehen weit über unsinnige Erklärungen hinaus, und die Forschungsfinanzierungsabteilung für US-Spionagedienste versucht, Bedrohungen und Schwachstellen zu identifizieren, die in den kürzlich veröffentlichten „ Top 10 für LLM “ der OWASP Foundation möglicherweise nicht vollständig abgedeckt sind.

„Hat Ihre Organisation spezifische LLM-Bedrohungen und Schwachstellen identifiziert, die durch frühere Taxonomien nicht gut charakterisiert werden (vgl. „OWASP Top 10 für LLM“)? Wenn ja, geben Sie bitte spezifische Beschreibungen jeder dieser Bedrohungen und/oder Schwachstellen und ihrer Auswirkungen an.“

Letzte Woche warnte Professor Dr. Stuart Russell von der UC Berkeley den Justizausschuss des Senats vor einigen der Risiken in der OWASP-Top-10-Liste, darunter Offenlegung sensibler Informationen, übermäßiges Vertrauen und Modelldiebstahl.

Russell erwähnte beispielsweise, dass Sie allein durch die Art der Fragen, die Sie stellen, möglicherweise vertrauliche Informationen preisgeben könnten; und dann könnte der Chatbot möglicherweise sensible oder geschützte Informationen eines Konkurrenten zurückspucken.

„Wenn Sie in einem Unternehmen sind […] und möchten, dass das System Sie bei internen Abläufen unterstützt, geben Sie firmeneigene Informationen an den Chatbot weiter, damit dieser Ihnen die gewünschten Antworten gibt“, Russell ausgesagt.

„ Wenn diese Informationen dann Ihren Konkurrenten zugänglich gemacht werden, indem Sie ChatGPT einfach fragen, was in diesem Unternehmen vor sich geht, wäre das schrecklich “, fügte er hinzu.

Wenn wir das, was Russell über die Weitergabe von Unternehmensinformationen gesagt hat, auf die Weitergabe von US-Geheimdienstinformationen anwenden, können wir beginnen, besser zu verstehen, warum die IARPA ihre aktuelle RFI herausgibt.

Es könnten aber auch potenzielle Bedrohungen und Schwachstellen bestehen, die bisher noch nicht bekannt sind.

Wie der ehemalige US-Verteidigungsminister Donald Rumsfeld bekanntlich witzelte: „Es gibt bekannte Bekannte. Das sind Dinge, von denen wir wissen, dass wir sie wissen. Es gibt bekannte Unbekannte. Das heißt, es gibt Dinge, von denen wir wissen, dass wir sie nicht wissen. Aber es gibt auch unbekannte Unbekannte. Es gibt Dinge, von denen wir nicht wissen, dass wir sie nicht wissen.“

Daher bittet IARPA Organisationen für die aktuelle RFI, die folgenden Fragen zu beantworten:

Hat Ihre Organisation spezifische LLM-Bedrohungen und Schwachstellen identifiziert, die durch frühere Taxonomien nicht gut charakterisiert werden (siehe „OWASP Top 10 für LLM“)? Wenn ja, geben Sie bitte spezifische Beschreibungen jeder dieser Bedrohungen und/oder Schwachstellen und ihrer Auswirkungen an.
Verfügt Ihre Organisation über ein Rahmenwerk zur Klassifizierung und zum Verständnis des Spektrums von LLM-Bedrohungen und/oder -Schwachstellen? Wenn ja, beschreiben Sie bitte diesen Rahmen und erläutern Sie kurz jede Bedrohung und/oder Schwachstelle und ihre Risiken.
Verfügt Ihr Unternehmen über neuartige Methoden, um Bedrohungen für Benutzer durch LLM-Schwachstellen zu erkennen oder zu mindern?
Verfügt Ihre Organisation über neuartige Methoden zur Quantifizierung des Vertrauens in LLM-Ergebnisse?

Der Hauptansprechpartner für das RFI ist Dr. Timothy McKinnon, der auch zwei weitere IARPA-Forschungsprogramme leitet: HIATUS und BETTER .

HIATUS [Human Interpretable Attribution of Text Using Underlying Structure]: Ziel ist die Entwicklung neuartiger, für Menschen nutzbarer KI-Systeme zur Zuweisung der Urheberschaft und zum Schutz der Privatsphäre des Autors durch Identifizierung und Nutzung erklärbarer sprachlicher Fingerabdrücke.
BESSER [Bessere Extraktion aus Text hin zu verbessertem Abruf]: zielt darauf ab, eine Fähigkeit zu entwickeln, die einem einzelnen Analysten eine personalisierte Informationsextraktion aus Text über mehrere Sprachen und Themen hinweg ermöglicht.

Letztes Jahr gab die IARPA bekannt, dass sie ihr Programm „Rapid Explanation, Analysis and Sourcing ONline“ ( REASON ) ins Leben ruft, „um neuartige Systeme zu entwickeln, die automatisch Kommentare generieren und es Geheimdienstanalysten ermöglichen, die Beweise und Begründungen in ihren Analyseberichten erheblich zu verbessern.“

Darüber hinaus „ist REASON nicht dazu gedacht, Analysten zu ersetzen, vollständige Berichte zu schreiben oder ihre Arbeitsbelastung zu erhöhen.“ Die Technologie funktioniert im aktuellen Arbeitsablauf des Analysten.

„Es wird auf die gleiche Weise funktionieren wie ein automatisierter Grammatikprüfer, jedoch mit einem Schwerpunkt auf Beweisen und Argumentation.“

Deshalb wollte die IARPA im Dezember generative KI nutzen, um Analysten beim Schreiben von Geheimdienstberichten zu helfen, und jetzt im August untersucht die Forschungsfinanzierungsabteilung der US-Spionagebehörden, welche Risiken große Sprachmodelle mit sich bringen könnten.