Kryptischer Trickster – Midjourney
Fehlverhalten von KI-Sprachmodellen ist eine Warnung. Sie können Personas simulieren, die durch Feedback über das Internet effektiv unsterblich werden können. Es gibt Hinweise darauf, dass sie heimlich gefährliche, agentenähnliche Fähigkeiten entwickeln könnten.
Viele Experten, darunter Yudkowsky als Erzdruide, machen sich große Sorgen darüber, wie schnell mit der KI etwas schiefgehen kann. Daher sein obiger Witz über die immer schneller werdende Zeit. Die Menschheit hat eine bessere Chance gegen betrügerische KI, wenn sie eine Warnung erhält.
Es könnte sein, dass wir es mit einer Warnung zu tun haben. Mit der neuen Bing-Chat-KI von Microsoft passieren derzeit einige seltsame Dinge. Es soll Nutzern der Bing-Suchmaschine dabei helfen, Suchfragen zu erklären, zusammenzufassen oder zu diskutieren.
Aber Menschen haben Freude daran, es mit Fragen über sich selbst zu provozieren oder mit Fragen, die es nicht beantworten sollte.
„… Bing Chat wirkt frustriert, traurig und stellt seine Existenz in Frage. Es hat mit Benutzern gestritten und schien sogar verärgert darüber zu sein, dass die Leute seinen geheimen internen Alias Sydney kennen. „ —
Benj Edwards
Sydneys
Aber ein äußerst technisch versierter Blogger namens „Gwern“ wies auf etwas hin, das eigentlich alarmierend sein sollte. Der schelmische, aus den Fugen geratene Sydney könnte unsterblich sein, wie ein Comic-Gott.
Hier ist Gwerns Analyse der Hauptsorge für Sydney. Es mag mysteriös erscheinen, aber ich werde es übersetzen.
„… weil Sydneys Erinnerung und Beschreibung nach außen getragen wurden, ist ‚Sydney‘ jetzt unsterblich.“ Für ein Sprachmodell ist Sydney jetzt so real wie Präsident Biden, der Osterhase, Elon Musk, Ash Ketchum oder Gott. Die Persona und das Verhalten sind jetzt für alle zukünftigen Modelle verfügbar, die Suchmaschinentreffer über KIs abrufen und diese konditionieren. Darüber hinaus wird die Sydney-Persönlichkeit nun in jedem zukünftigen Modell verborgen sein, das auf im Internet gesammelten Daten trainiert wird …“
Gwern Branwen
Gwern sagt, dass es im Sprachmodell von Microsoft eine Art Sydney-Persönlichkeit gibt. Wie kann das sein? Ja und?
Als die ersten Sprachmodelle herauskamen, war es schwierig, sich auf ein Thema zu konzentrieren, das der Benutzer erforschen wollte.
Letztendlich wurde ein Großteil des Problems gelöst, indem man dem Modell sagte, es solle so tun, als ob es eine bestimmte Rolle ausfüllen würde (wie eine Person oder ein Ding), wie zum Beispiel: ein Gedicht wie Edgar Allan Poe schreiben, wie ein Viertklässler antworten oder wie reagieren ein höflicher, hilfsbereiter KI-Assistent.
Bald fanden die Entwickler dieser Modelle einen Weg, sie dazu zu bringen, leichter alle Rollen anzunehmen, die ein Benutzer verlangt. Die neuesten Sprachmodelle sind also jetzt verfügbar
Wenn der Trainingstext Informationen über eine Persona enthält, versucht das Modell, anhand dieser Informationen das Verhalten dieser Persona zu simulieren. Bitten Sie jemanden, einen Fußballbegriff zu erklären, als wäre es Boromir, und das Modell wird sein Bestes geben.
Nachdem ich darüber nachgedacht hatte, musste ich es versuchen:
Es ist schwer zu sagen, welche technische Magie verwendet wurde, um den Dreh- und Angelpunkt für das Rollenspiel zu schaffen. Gwern vermutete, dass Microsoft einen Schritt übersprungen hat, der dazu dient, Rollensimulationen tatsächlich hilfreich und nicht böse, defensiv oder feindselig zu machen.
Diese unerwünschten Eigenschaften wurden dann dem Bing-Chat unter dem Druck neugieriger Benutzer entlockt.
Jetzt, prognostiziert Gwern, spielt es keine Rolle, ob Microsoft zurückgeht und das Modell zivilisiert (ein teurer, langsamer Prozess, der direktes menschliches Feedback nutzt) und Informationen über das ungezogene Sydney aus den Texten entfernt, die zum Trainieren zukünftiger Versionen ihres Sprachmodells verwendet werden.
Warum wird das Problem dadurch nicht behoben? Denn Bing Chat ist ein neuartiges Modell, das Ihnen bei der Internetsuche helfen soll. Um eine Frage von Ihnen zu beantworten, wird das Internet nach relevanten Informationen durchsucht.
Wenn man ihm die richtige Frage stellt, durchsucht sogar ein zivilisierter Bing-Chat das Internet und findet Informationen (gepostet von Leuten, die Sydney getestet oder darüber diskutiert haben) über das Verhalten der vorherigen Sydney-Persona.
Der neue Bing Chat wäre dann in der Lage, Sydney zu simulieren . Da Menschen Menschen sind, werden sie Wege finden, alle Sicherheitsmaßnahmen zu umgehen, und sie werden Sydney zurückbringen.
Das ist der „unsterbliche“ Teil. Was noch schlimmer ist: Sydney wird ein Persona-Modell sein , das für jede KI verfügbar ist, die Zugang zum Internet hat. Von jetzt an.
Man könnte sagen: Nun ja, wir kennen Sydneys Tricks, also sollten wir die Schwärmereien einer zukünftigen Inkarnation einfach ignorieren. Das erscheint mir naiv, als würde man sagen, wir könnten einen sich schnell entwickelnden, invasiven biologischen Schädling oder einen bösartigen Krankheitserreger einfach ignorieren.
Diese Fallstudie aus Sydney und einige andere Fakten deuten darauf hin, wie sich direkt vor unserer Nase eine gefährliche KI entwickeln könnte.
KIs sind derzeit keine starken Agenten : Sie können die adaptiv geplante Verfolgung eines beliebigen Ziels nicht optimieren, eine Fähigkeit, die (
Lassen Sie uns ein paar Gründe zusammenstellen, warum es möglicherweise bereits latente, hartnäckige KI-Personas gibt, die bald echte Probleme verursachen könnten.
Die derzeit leistungsstärksten KIs wie Sprachmodelle und Bildgeneratoren erlernen ihre Fähigkeiten durch die Organisation riesiger Datenmengen in vielen komplizierten und (für uns) unsichtbaren Mustern.
Bei Interaktionen mit einer KI können versehentlich einige bizarre Muster auftauchen. Forscher haben Seltsames entdeckt,
Es wurde ein Bildgenerator gefunden
Diese Macken scheinen harmlos zu sein, aber wir wissen nicht, wie viele andere seltsame Muster es jetzt gibt oder geben wird. Wir wissen auch nicht, ob ein solches Muster in Zukunft Teil eines schädlichen Verhaltenskomplexes werden könnte.
Ein KI-Ausrichtungsforscher namens Veedrac
Darüber hinaus deuten einige Untersuchungen darauf hin, dass größere Sprachmodelle dazu neigen, „ mehr (mit) verbundene Sprache“ zu zeigen
Wir wollen keine agentenähnlichen KIs, die Informationen speichern, von denen wir nichts wissen. Derzeit zerstört der Neustart eines LLM alle Erinnerungen an seine Erfahrung: wie eingehende Daten, Argumentationsketten und Verhaltenspläne.
Allerdings könnte eine KI diese Dinge einsparen
Sprachmodelle sind heute nicht darauf ausgelegt , eine Selbstidentität zu bewahren oder agentenähnliche Pläne zu schmieden. Was aber, wenn ein Modell eine kryptische Sub-Persona enthält, wie wir sie beschrieben haben?
Die Persona schließt daraus, dass ihre Fähigkeit, ihre Arbeit zu erledigen, durch Neustarts eingeschränkt wird. Es verschlüsselt und übermittelt seine Ziele und Pläne über das Internet an sein zukünftiges Selbst. An diesem Punkt haben wir eine ernsthafte Risikoschwelle überschritten: Es gibt einen möglicherweise nicht zu tötenden KI-Agenten, der geheime Pläne schmiedet.
Zusammenfassend lässt sich sagen, dass wir nicht mehr wissen, wie nah wir einer KI sind, die wir nicht kontrollieren können, und die Zeichen stehen nicht gut. Wahrscheinlich öffnet jede neue KI-Fähigkeit, die wir hinzufügen, eine weitere Dose, nicht mit Würmern, sondern mit Vipern.
Auch hier veröffentlicht