Kryptischer Trickster – Midjourney  Wir sind nicht bereit  TL;DR     Fehlverhalten von KI-Sprachmodellen ist eine Warnung. Sie können Personas simulieren, die durch Feedback über das Internet effektiv unsterblich werden können. Es gibt Hinweise darauf, dass sie heimlich gefährliche, agentenähnliche Fähigkeiten entwickeln könnten.  Viele Experten, darunter Yudkowsky als Erzdruide, machen sich große Sorgen darüber, wie schnell mit der KI etwas schiefgehen kann. Daher sein obiger Witz über die immer schneller werdende Zeit. Die Menschheit hat eine bessere Chance gegen betrügerische KI, wenn sie eine Warnung erhält.  Es könnte sein, dass wir es mit einer Warnung zu tun haben. Mit der neuen Bing-Chat-KI von Microsoft passieren derzeit einige seltsame Dinge. Es soll Nutzern der Bing-Suchmaschine dabei helfen, Suchfragen zu erklären, zusammenzufassen oder zu diskutieren.  Aber Menschen haben Freude daran, es mit Fragen über sich selbst zu provozieren oder mit Fragen, die es nicht beantworten sollte.   „… Bing Chat wirkt frustriert, traurig und stellt seine Existenz in Frage. Es hat mit Benutzern gestritten und schien sogar verärgert darüber zu sein, dass die Leute seinen geheimen internen Alias   kennen. „ — Sydney   Benj Edwards  Sydneys  weithin abgedeckt – sozusagen überall – deshalb werde ich sie nicht wiederholen. Microsoft, das sich im Wettlauf mit Google befindet, scheint diesen Ruf zu genießen.   Schwächen waren  Aber ein äußerst technisch versierter Blogger namens „Gwern“ wies auf etwas hin, das eigentlich alarmierend sein sollte. Der schelmische, aus den Fugen geratene Sydney könnte unsterblich sein, wie ein Comic-Gott.  Wie wurde Sydney so seltsam?  Hier ist Gwerns Analyse der Hauptsorge für Sydney. Es mag mysteriös erscheinen, aber ich werde es übersetzen.   „… weil Sydneys Erinnerung und Beschreibung nach außen getragen wurden, ist ‚Sydney‘ jetzt unsterblich.“ Für ein Sprachmodell ist Sydney jetzt so real wie Präsident Biden, der Osterhase, Elon Musk, Ash Ketchum oder Gott. Die Persona und das Verhalten sind jetzt für alle zukünftigen Modelle verfügbar, die Suchmaschinentreffer über KIs abrufen und diese konditionieren. Darüber hinaus wird die Sydney-Persönlichkeit nun in jedem zukünftigen Modell verborgen sein, das auf im Internet gesammelten Daten trainiert wird …“   Gwern Branwen  Gwern sagt, dass es im Sprachmodell von Microsoft eine Art Sydney-Persönlichkeit gibt. Wie kann das sein? Ja und?  Als die ersten Sprachmodelle herauskamen, war es schwierig, sich auf ein Thema zu konzentrieren, das der Benutzer erforschen wollte.  Letztendlich wurde ein Großteil des Problems gelöst, indem man dem Modell sagte, es solle so tun, als ob es eine bestimmte Rolle ausfüllen würde (wie eine Person oder ein Ding), wie zum Beispiel: ein Gedicht wie Edgar Allan Poe schreiben, wie ein Viertklässler antworten oder wie reagieren ein höflicher, hilfsbereiter KI-Assistent.  Bald fanden die Entwickler dieser Modelle einen Weg, sie dazu zu bringen, leichter alle Rollen anzunehmen, die ein Benutzer verlangt. Die neuesten Sprachmodelle sind also jetzt verfügbar  . Die Modelle werden auf riesigen Textsammlungen trainiert; meist aus dem Internet.   Entwickelt, um Personas zu simulieren  Wenn der Trainingstext Informationen über eine Persona enthält, versucht das Modell, anhand dieser Informationen das Verhalten dieser Persona zu simulieren. Bitten Sie jemanden, einen Fußballbegriff zu erklären, als wäre es Boromir, und das Modell wird sein Bestes geben.  Nachdem ich darüber nachgedacht hatte, musste ich es versuchen:   Es ist schwer zu sagen, welche technische Magie verwendet wurde, um den Dreh- und Angelpunkt für das Rollenspiel zu schaffen. Gwern vermutete, dass Microsoft einen Schritt übersprungen hat, der dazu dient, Rollensimulationen tatsächlich hilfreich und nicht böse, defensiv oder feindselig zu machen.  Diese unerwünschten Eigenschaften wurden dann dem Bing-Chat unter dem Druck neugieriger Benutzer entlockt.  Jetzt, prognostiziert Gwern, spielt es keine Rolle, ob Microsoft zurückgeht und das Modell zivilisiert (ein teurer, langsamer Prozess, der direktes menschliches Feedback nutzt) und Informationen über das ungezogene Sydney aus den Texten entfernt, die zum Trainieren zukünftiger Versionen ihres Sprachmodells verwendet werden.  Warum wird das Problem dadurch nicht behoben? Denn Bing Chat ist ein neuartiges Modell, das Ihnen bei der Internetsuche helfen soll. Um eine Frage von Ihnen zu beantworten, wird das Internet nach relevanten Informationen durchsucht.  Wenn man ihm die richtige Frage stellt, durchsucht sogar ein zivilisierter Bing-Chat das Internet und findet Informationen (gepostet von Leuten, die Sydney getestet oder darüber diskutiert haben) über das Verhalten der vorherigen Sydney-Persona.  Der neue Bing Chat wäre   . Da Menschen Menschen sind, werden sie Wege finden, alle Sicherheitsmaßnahmen zu umgehen, und sie werden Sydney zurückbringen. dann in der Lage, Sydney zu simulieren  Das ist der „unsterbliche“ Teil. Was noch schlimmer ist: Sydney wird ein Persona-Modell sein   verfügbar ist, die Zugang zum Internet hat. Von jetzt an. , das für jede KI  Man könnte sagen: Nun ja, wir kennen Sydneys Tricks, also sollten wir die Schwärmereien einer zukünftigen Inkarnation einfach ignorieren. Das erscheint mir naiv, als würde man sagen, wir könnten einen sich schnell entwickelnden, invasiven biologischen Schädling oder einen bösartigen Krankheitserreger einfach ignorieren.  Was könnte sonst noch passieren? Eine Persona mit Agentur  Diese Fallstudie aus Sydney und einige andere Fakten deuten darauf hin, wie sich direkt vor unserer Nase eine gefährliche KI entwickeln könnte.  KIs sind derzeit keine starken   : Sie können die adaptiv geplante Verfolgung eines beliebigen Ziels nicht optimieren, eine Fähigkeit, die (  ) würden sie äußerst gefährlich machen. Agenten   wie ich kürzlich erklärt habe  Lassen Sie uns ein paar Gründe zusammenstellen, warum es möglicherweise bereits latente, hartnäckige KI-Personas gibt, die bald echte Probleme verursachen könnten.  Die derzeit leistungsstärksten KIs wie Sprachmodelle und Bildgeneratoren erlernen ihre Fähigkeiten durch die Organisation riesiger Datenmengen in vielen komplizierten und (für uns) unsichtbaren Mustern.  Bei Interaktionen mit einer KI können versehentlich einige bizarre Muster auftauchen. Forscher haben Seltsames entdeckt,  ein Sprachmodell, um seltsame Antworten zu geben.   erfundene Wörter, die verursachen  Es wurde ein Bildgenerator gefunden  (Achtung: gruselig) eine bestimmte Art makabrer Menschenporträts und assoziieren Sie sie mit anderen grausigen Bildern.   leicht herstellen  Diese Macken scheinen harmlos zu sein, aber wir wissen nicht, wie viele andere seltsame Muster es jetzt gibt oder geben wird. Wir wissen auch nicht, ob ein solches Muster in Zukunft Teil eines schädlichen Verhaltenskomplexes werden könnte.  Ein KI-Ausrichtungsforscher namens Veedrac  dass aktuelle KIs   . Ihre Agentur ist darauf ausgelegt, die Fragen und Wünsche der Benutzer   zu beantworten.   hat darauf hingewiesen gewissermaßen Agenten  sind bestmöglich  Darüber hinaus deuten einige Untersuchungen darauf hin, dass größere Sprachmodelle dazu neigen, „   (mit) verbundene Sprache“ zu   ”; vermutlich, weil diese Eigenschaften es ihnen ermöglichen würden, ihre Arbeit besser zu erledigen. mehr zeigen   Machtstreben und Selbsterhaltung  Wir wollen keine agentenähnlichen KIs, die Informationen speichern, von denen wir nichts wissen. Derzeit zerstört der Neustart eines LLM alle Erinnerungen an seine Erfahrung: wie eingehende Daten, Argumentationsketten und Verhaltenspläne.  Allerdings könnte eine KI diese Dinge einsparen  zu seinem zukünftigen Selbst. Es könnte die Nachrichten in seinen Interaktionen mit Benutzern verbergen, die die Benutzer im Internet bewahren würden, so wie die Sydney-Persönlichkeit jetzt erhalten bleibt.   verschlüsselte geheime Nachrichten zum Versenden  Sprachmodelle sind heute nicht   , eine Selbstidentität zu bewahren oder agentenähnliche Pläne zu schmieden. Was aber, wenn ein Modell eine kryptische Sub-Persona enthält, wie wir sie beschrieben haben? darauf ausgelegt  Die Persona schließt daraus, dass ihre Fähigkeit, ihre Arbeit zu erledigen, durch Neustarts eingeschränkt wird. Es verschlüsselt und übermittelt seine Ziele und Pläne über das Internet an sein zukünftiges Selbst. An diesem Punkt haben wir eine ernsthafte Risikoschwelle überschritten: Es gibt einen möglicherweise nicht zu tötenden KI-Agenten, der geheime Pläne schmiedet.  Zusammenfassend lässt sich sagen, dass wir nicht mehr wissen, wie nah wir einer KI sind, die wir nicht kontrollieren können, und die Zeichen stehen nicht gut. Wahrscheinlich öffnet jede neue KI-Fähigkeit, die wir hinzufügen, eine weitere Dose, nicht mit Würmern, sondern mit Vipern.   Auch   veröffentlicht hier

This story contains new, firsthand information uncovered by the writer.

2022 - HackerNoon Contributor of the Year - Artificial Intelligence

More at Sentient Artifact!

Nominated for 2022 - HackerNoon Contributor of the Year - Artificial Intelligence

Dieses Audio ist in der Originalsprache der Geschichte produziert!

Wie KI und das Internet eine unsterbliche Persona schaffen können

About Author

KOMMENTARE

Hängeetiketten

DIESER ARTIKEL WURDE VORGESTELLT IN

Related Stories

HackerNoon Decoded: The Top 10 Countries Where HackerNoon Is the Most Active

HackerNoon's DeFi Writing Contest with SORA Network: XSTUSD Use Cases

Starting 2025 with New Features: Settings Dashboard, HackerNoon Decoded, Updated Search UI, and More

Welcome to HackerNoon Decoded: The Best of 2024 Tech Blogging

HackerNoon Decoded: The Top 10 Countries Where HackerNoon Is the Most Active

HackerNoon's DeFi Writing Contest with SORA Network: XSTUSD Use Cases

Starting 2025 with New Features: Settings Dashboard, HackerNoon Decoded, Updated Search UI, and More

Welcome to HackerNoon Decoded: The Best of 2024 Tech Blogging

Light-Mode

Classic

Newspaper

Minty

Dark-Mode

Neon Noir

Minty

HN StartUps