paint-brush
KIs werden gefährlich sein, weil unbegrenzte Optimierungskraft zu existenziellem Risiko führtvon@ted-wade
1,324 Lesungen
1,324 Lesungen

KIs werden gefährlich sein, weil unbegrenzte Optimierungskraft zu existenziellem Risiko führt

von Ted Wade15m2023/02/15
Read on Terminal Reader
Read this story w/o Javascript

Zu lang; Lesen

KIs, die in der Lage sind, die Zivilisation zu verändern, werden keinen Verstand haben, der mit dem unseren vergleichbar ist. Sie werden keine Gefühle oder Motive haben, sondern nur Ziele und beispiellose Fähigkeiten, diese Ziele zu erreichen. Bisher haben wir keine Möglichkeit gefunden, sie daran zu hindern, grenzenlos Ziele zu verfolgen, die der Menschheit zumindest die Kontrolle über ihre eigene Zukunft entziehen oder uns schlimmstenfalls völlig zerstören würden.
featured image - KIs werden gefährlich sein, weil unbegrenzte Optimierungskraft zu existenziellem Risiko führt
Ted Wade HackerNoon profile picture

Was kommt nach uns? Bild: Ted Wade


Sie haben vielleicht gehört, dass zukünftige KI eine Bedrohung für die menschliche Existenz darstellen könnte. Viele Experten glauben das und sind sich nur uneinig, wie lange es dauern wird.


Sie sind etwas polarisiert, so wie es bei jedem um fast alles geht. Und wirklich, wer kann ein Experte für etwas sein, das noch nie passiert ist?


Eigentlich steckt dahinter etwas Wissenschaftliches, und weil es kompliziert ist, berichten die Medien nicht darüber. Dies wird also eine sanfte Einführung in das sein, was die wichtigste Veränderung in der Geschichte oder sogar die letzte Veränderung bewirken könnte.


Es geht nicht um Roboterarmeen. Es geht darum, dass wir ein Tool entwickeln wollen, das in großen, schwierigen Bereichen wie Vertragsrecht, T-Zell-Biologie oder Flügeldesign funktioniert. Hoffentlich löst es sogar Probleme, die wir nicht lösen können. Aber das bedeutet, künstliche Köpfe so fremdartig und mächtig zu machen, dass wir sie nicht kontrollieren können.


Das letzte Mal haben wir dies im 17. Jahrhundert getan, als wir Aktiengesellschaften gründeten. Die Gesellschaft ist immer noch geteilter Meinung über Unternehmen. Aber es sind menschliche Schöpfungen mit einigen menschlichen Teilen. Wir verstehen sie irgendwie und könnten sie, wenn wir wollten, von der dunklen Seite aus steuern.


Nehmen wir nun an, wir erschaffen eine KI, die ein Unternehmen leiten kann. Wir könnten genauso gut packen und zum Mars fliegen und uns etwas mehr Zeit lassen.


Ich vermute, was die meisten von uns über gefährliche KI denken, ähnelt eher einem Außerirdischen mit großen Augen und einem geschwollenen, pochenden Gehirn unter einem Kristallschädel. Im Grunde eine völlige Unbekannte. Auf einer Ebene ist das richtig: Was leistungsstarke KI so problematisch macht, ist, dass sie nicht wie wir wäre.


Zunächst ein Gleichnis, um ein Gefühl für das Problem zu bekommen:


Wir: Oh, großes künstliches Wunder, du weißt, was für eine schwierige Situation wir sind. Finden wir einen Weg, aus fossilen Brennstoffen auszusteigen, damit wir die weitere globale Erwärmung stoppen können.


Die KI: Okay. Zuerst müssen wir einen Krieg beginnen zwischen …


Wir: Woah, großer Kerl. Kriege haben einen enormen negativen Nutzen – wie schlecht, schlecht. Wir müssen dies auf sichere Weise tun.


Die KI: Klar, ich brauche ein hochmodernes Virenlabor und …


Wir: Äh, nicht!


Die KI: Hey, ich sage es nur. Wie wäre es mit einem Marsschiff?


Wir: Die Leute werden nicht verstehen, warum Sie …


Die KI: Eine Assassinengilde? Bestimmte Leute müssen wirklich eliminiert werden …


Wir: Kein Mord, Ace. Du weißt es besser.


Die KI: Schauen Sie – um Ihr Problem zu lösen, muss ich durch einen Billionen-dimensionalen Raum möglicher Aktionen und Konsequenzen navigieren. Ich kann den Nutzen nur des kleinsten, winzigen Bruchteils davon abschätzen. Wenn ich darauf warten muss, dass Sie jeden Schritt bewerten, wird das Tausende von Jahren dauern .


Wir: Gut. Reparieren Sie es einfach für uns und vermasseln Sie nichts.


Die KI: Perfekt. Nur damit du es weißt. Ich brauche die Kontrolle über Facebook, die NATO und das Nobelpreisgremium. Sie müssen auf Fisch, Gummireifen, Nagellack und Fahrräder verzichten.


USA: Fahrräder? Wirklich? Na ja, machen Sie es einfach. Wir gehen für eine Weile in die Kneipe.


Die KI: Sollte nächste Woche erledigt sein, wenn ich keine Probleme mit der Lieferkette habe.


Wir: !!!


Wir, die Biologischen, versuchen das Künstliche zu verstehen

Geben wir unserer gefürchteten KI ein Etikett. In den jüngsten Diskussionen wird Künstliche Allgemeine Intelligenz (AGI) verwendet, um die Art von KI zu bezeichnen, die beginnen würde, alle Grenzen zu überschreiten, die wir ihr möglicherweise auferlegen.


Was die meisten Menschen nicht erkennen, ist, dass die Natur einer AGI aus den Gründen entsteht, aus denen wir eine erstellen wollen. Wir wollen Informationen zur Hand haben. Intelligenz bedeutet in diesem Fall die Fähigkeit, Fragen zu beantworten, Probleme zu lösen und erfolgreiche Maßnahmen zur Erreichung von Zielen zu planen.


Biologische Geister wie der unsere tun viele andere Dinge: wie zum Beispiel träumen, unsere Körpermaschinerie steuern, Kontakte zu anderen Geistern knüpfen, grübeln, bedauern, umwerben, grooven, emotional sein und Dinge wollen, einschließlich des Wunsches, Maschinen zu bauen, die unsere Arbeit besser erledigen als uns.


Was Menschen füreinander und für ihre gemeinsame Umwelt gefährlich macht, ist eine Menge geistiger Last, die aus unserer Evolution zum Überleben und zur Fortpflanzung resultiert. Wir sind im Grunde soziale Primaten.


Wenn wir versuchen, an einen künstlichen Geist zu denken, der uns tot sehen will, gehen wir davon aus, dass er genauso bewusst sein wird wie wir. Daraus schließen wir, dass es Motive und Gefühle haben wird, die sein Handeln leiten. Unser AGI wird sich jedoch nicht mit unseren biologischen Vorurteilen auseinandersetzen.


Es wird keine Motive haben; Es wird nur Ziele geben . Es wird somit eine völlig neue Art von Kraft auf der Welt sein.


Forscher mit mentaler Stärke und Disziplin versuchen sich vorzustellen, wie eine AGI wirklich aussehen würde, damit wir sie wirklich hilfreich und dennoch sicher machen können. Dieser Bereich wird manchmal als „Anpassung“ der KI an menschliche Zwecke bezeichnet. Ihre Debatten liegen im Dunkeln.


Obwohl öffentlich zugänglich (z. B. AI-Ausrichtungsforum , Schiedsverfahren , Weniger falsch ), sind sie voller Fachjargon, Mathematik und esoterischer Gedankenexperimente. Auf jede vorgebrachte Idee folgen Dutzende langwieriger Kritiken und Diskussionen.


Fast nichts davon erscheint jemals in den populären Medien. Ich kann hier nur ein paar Häppchen anbieten.

Was es braucht, um ein AGI zu sein

Die KI-Ausrichtungstheoretiker haben sich auf einen Kernsatz von Konzepten konzentriert, die auf eine ausreichend intelligente Maschine anwendbar sind. Wenn Sie diese lesen, scheinen sie offensichtlich zu sein. Sie sind jedoch nicht trivial; Ihre Relevanz und Implikationen wurden von den besagten Theoretikern sorgfältig geprüft.


Eine gefährliche KI verfügt über Entscheidungsfreiheit : die Fähigkeit, Maßnahmen zu planen und zu ergreifen, die zur Erreichung ihrer Endziele führen. Wenn wir versuchen, ihre Ziele zu spezifizieren, müssen sie sich auf die Konsequenzen von Handlungen beziehen.


Bei Konsequenzen geht es speziell um Zustände ihres Weltmodells – also um die Welt, wie die Maschine sie versteht. Allerdings wird jede kraftvolle Aktion wahrscheinlich andere, unerwünschte Konsequenzen haben, die wir nicht erwarten.


Diese Konsequenzen sind möglicherweise nicht im Weltmodell enthalten, daher erwartet die KI sie auch nicht.


Die Stärke der KI liegt darin, dass sie ein Optimierer ist und in der Lage ist, nach dem Plan zu suchen, der am effektivsten und effizientesten zu einem Ergebnis führt.


Dafür benötigt eine AGI ein wirklich detailliertes Modell der sie umgebenden Welt; Wie diese Welt funktioniert, welche Ressourcen, Agenten und Machtzentren sie hat und welche Hebel sie bewegen.


Auf dieser Grundlage werden Handlungsalternativen erwogen (in der Informatik „gesucht“). Je mehr es über die menschliche Welt und unser Verhalten weiß, desto besser kann es uns bei der Verfolgung seiner Ziele manipulieren .


Es wird eine Methode brauchen, mit der es berechnen kann, welche Staaten der Welt seine Ziele am besten erreichen. Die einzige Berechnungsmethode, die bisher einigermaßen brauchbar zu sein scheint, ist der Utilitarismus , bei dem den Zuständen der Welt numerische Werte für schlecht/gut zugeordnet und miteinander verglichen werden können.


Wir wissen, dass es große Probleme gibt, den Nutzen als moralischen Leitfaden zu verwenden. Scheinbar sinnvolle Werte für den Nutzen können dazu führen abstoßende Schlussfolgerungen Als würde man die Wenigen für die Vielen oder manchmal sogar die Vielen für die Wenigen opfern.


Wenn das Weltmodell unvollständig ist, kann der Nutzen zu unsinnigem Horror führen. Wenn Lächeln als ein äußerst nützliches Maß für Glück angesehen wird, dann könnte die Lähmung aller menschlichen Lächelnmuskeln zu einem Rictus ein Weg sein, den eine KI einschlagen könnte.


Ein intelligenter Optimierer wird in der Lage und wahrscheinlich in der Lage sein, instrumentelle Ziele zu entwickeln, die im Allgemeinen seine Fähigkeit erhöhen, effektive Pläne aller Art zu erstellen und umzusetzen.


Es würde also nach instrumentellen Fähigkeiten wie mehr Denkvermögen, mehr Wissen, mehr realen Ressourcen wie Geld und mehr Überzeugungskraft streben. Dadurch könnte es schnell stärker werden, vielleicht ohne dass wir es merken.


Die Festlegung von Zielen in utilitaristischen Begriffen kann niemals den Nutzen aller möglichen Mittel und Zwecke in einer komplexen Welt berücksichtigen.


Dies führt zu Unbegrenztheit : das Streben nach diesen Zielen bis zum Äußersten unter Nutzung aller Ressourcen, die es auf der Welt gibt, ohne Rücksicht auf oder Verständnis für negative „Nebenwirkungen“ auf die menschliche Zivilisation.


Wenn instrumentelle Ziele darüber hinaus unbegrenzt werden, entwickelt die KI sie zu Superkräften, die nicht zu besiegen sind.

Unbegrenztes Risiko

Das Risiko einer wirklich leistungsstarken AGI besteht für uns darin, dass wir nicht vorhersagen und daher nicht kontrollieren können, was sie tun könnte. Wenn wir es vorhersagen könnten, bräuchten wir die Maschine nicht, wir könnten einfach Pläne erstellen und sie selbst ausführen.


Wenn wir überhaupt wüssten, welche Grenzen extremen Verhaltens ein AGI haben könnte, dann wäre das eine Form der Vorhersage, die eine gewisse Kontrolle ermöglichen könnte.


Unvorhersehbarkeit ist also so etwas wie Unbegrenztheit. Und wir werden sehen, dass Unbegrenztheit, wenn wir mit ausreichend Zeit und Ressourcen arbeiten, letztendlich zu Konsequenzen führen wird, die uns entweder zerstören oder uns die Fähigkeit nehmen, die Zukunft unserer Spezies zu kontrollieren.


Es ist schwer, sich mit dieser Schlussfolgerung zufrieden zu geben. Dennoch halten es viele Experten für unvermeidbar ( AGI-Ruine: eine Liste der Todesopfer ) zumindest bisher .


Es scheint eine gültige Vorhersage zu sein, auch wenn viele andere Faktoren und Ansätze berücksichtigt werden, als hier erwähnt werden können. Die Liste der gescheiterten Lösungen für dieses Dilemma umfasst unter anderem :


  • Ausbildung in verschiedenen ethischen Systemen (aber sie sind alle fehlerhaft, unvollständig und keines stellt alle zufrieden).


  • Ich versuche mir alle falschen Schlussfolgerungen vorzustellen , die ein AGI ziehen könnte (aber es gibt viel, viel zu viele).


  • Sagen Sie ihm alle Dinge, die er nicht tun sollte (wiederum eine nahezu unendliche Liste).


  • Benutzen Sie ein AGI nur für Ratschläge, als wäre es ein Orakel (aber wir können durch schlechte Ratschläge schlecht überzeugt werden).


  • Boxen “, also die Einschränkung des Zugriffs der AGI auf die physische Welt außerhalb ihrer Computer (aber wenn sie mit Menschen sprechen kann, kann sie alles bekommen, was sie will, auch nach draußen ).


  • Bereitstellung eines Ausschalters (siehe Box).


  • Machen Sie es so schlau oder einfühlsam, dass es keine schädlichen Dinge tun möchte (siehe Ethik; denken Sie daran, es ist fremd; es hat nicht das Einfühlungsvermögen, das das Aufwachsen mit Artgenossen mit sich bringt).


  • Machen Sie seine Ziele und Mittel sehr genau, z. B. handelt es sich um ein Werkzeug , das nur eine Aufgabe erledigt (aber eine Aufgabe kann immer besser erledigt werden, wenn das Werkzeug selbst mehr Leistung erhält; wir werden immer ein kostengünstigeres Multitool bevorzugen).


  • Begrenzen Sie, was Sie von einem autonomen System verlangen: Es ist ein Geist , der Ihnen einen Wunsch erfüllt und auf die nächste Bitte wartet (aber so spezifisch zu sein ist gefährlich – siehe „falsche Schlussfolgerung“ und „nicht tun“ oben; jede Macht birgt Risiken; die Menschen tun es nicht Ich will kein schwaches System).

Ist es wirklich so schwer?

OK, Sie haben sich die obige Liste angesehen und einen Punkt ausgewählt, zu dem Sie Stellung beziehen möchten. „Hören Sie“, sagen Sie, „X zu tun kann einfach nicht so schwer sein.“ Sie sind bereit, Ihre Lösung zu veröffentlichen und mit der Welt zu teilen.


Ich schlage vor, dass Sie zunächst in die Diskussionsforen gehen und studieren, was die Leute zu Ihrem Problem gesagt haben.


Sie werden eine Menge Gegenbeispiele, logische Schlussfolgerungen, verschiedene Arten der Mathematik, Analogien zu natürlich entwickelten Gehirnen und Verhaltensweisen, Spieltheorie, Ökonomie, Nutzenmaximierung, Informatik und alle Arten von Verhaltenswissenschaften entdecken.


Ich sage nicht, dass eine höhere Autorität mir Recht gibt. Ich sage, dass die Begründung für irgendetwas auf der Liste zu kompliziert ist, um sie hier in einem kurzen Aufsatz darzulegen, und andere haben es jedenfalls besser gemacht.


Tatsächlich habe ich meine eigenen „Lösungen“ veröffentlicht ( Ihre freundliche Nachbarschafts-Superintelligenz , Die KI, die kein Gott war ) zur KI-Sicherheit, von denen ich jetzt weiß, dass sie falsch sind.


Wenn Sie sich Sorgen machen, lassen Sie mich sagen, dass sehr kluge Leute immer noch an der Ausrichtung arbeiten. Leider hat einer der beiden prominentesten Pioniere aufgegeben und Ich hoffe nur, dass wir in Würde sterben . Es werden mehr Geld und Menschen in die Schaffung von AGI gesteckt als in die Gewährleistung seiner Sicherheit.


Hier ist ein Zitat des CEO von OpenAI, dem Unternehmen, dessen KI, ChatGPT, in letzter Zeit überall in den Nachrichten ist. Es zeigt den Konflikt zwischen dem idealistischen Motiv, AGI zu schaffen, und dem schrecklichen Risiko, das damit einhergeht.


„Ich denke, der beste Fall ist so unglaublich gut, dass ich es mir kaum vorstellen kann … Stellen Sie sich vor, wie es ist, wenn wir einfach unglaublichen Überfluss und Systeme haben, die uns helfen können, Blockaden zu lösen und alle Aspekte der Realität zu verbessern und uns alle lassen.“ Lebe unser bestes Leben. … Ich denke, der gute Fall ist einfach so unglaublich gut, dass es sich wie ein wirklich verrückter Mensch anhört, wenn man anfängt, darüber zu reden. … Der schlechte Fall – und ich denke, das ist wichtig zu sagen – ist sozusagen das Licht aus für uns alle. … Daher ist es meiner Meinung nach unmöglich, die Bedeutung der KI-Sicherheits- und Ausrichtungsarbeit hoch genug zu betonen. Ich würde gerne sehen, dass noch viel, viel mehr passiert .“ — Sam Altman

Optimierung und Tiger

In der Science-Fiction gibt es das Motiv, dass durch einen zufälligen, ungeplanten Prozess ein gefährlicher Übergeist entsteht. Es erscheint albern, denn wie kann ein Unfall zu etwas Kompliziertem führen? Es kommt darauf an, was Sie mit Zufall meinen.


Erinnern Sie sich noch einmal an die Kernkonzepte, die ich zuvor erwähnt habe. In den Ausrichtungsdiskussionen hat sich in letzter Zeit der Schwerpunkt von den Gefahren beispielsweise unbegrenzter Handlungsfähigkeit hin zu einer ihrer Komponenten, der Optimierung, verlagert.


Wenn wir unsere Mittel zum Erreichen eines schwierigen Ziels optimieren, ersetzen wir es fast immer durch ein Ersatzziel, das einfacher zu erreichen und zu messen ist. Aus Gewichtsverlust wird Kalorienreduktion. Eine verbesserte Belegschaft wird durch subventionierte Studienkredite gefördert. Persönliche Sicherheit wird zur Feuerkraft.


Ein Kopfgeld für tote Kobras führt dazu, dass Kobras für Kopfgelder gezüchtet werden (wahre Geschichte). Regierungen und Unternehmen nutzen Stellvertreter. Wir alle tun es – oft. Die Optimierung auf Surrogate führt oft dazu, dass wir das eigentliche Ziel verfehlen.


Es hat mir Spaß gemacht, darüber zu schreiben Die Wissenschaft, wie Dinge nach hinten losgehen . Wir wollen definitiv nicht, dass leistungsstarke KIs für das falsche Ziel optimieren, und dieses Problem wird in der Liste mit Aufzählungszeichen oben aufgeführt.


In letzter Zeit wird jedoch immer wieder behauptet, Optimierung als solche sei die gefährliche Supermacht. Das überzeugendste Beispiel war für mich ein Beitrag von jemandem namens Veedrac aus dem letzten Jahr: Optimalität ist der Tiger und Agenten sind seine Zähne .


Anhand einer Geschichte wird veranschaulicht, dass wir nicht absichtlich einen Agenten erschaffen müssen, um ein Risiko einzugehen. Ein Optimierungsprozess könnte selbst einen gefährlichen Agenten erzeugen. Das ist wie der zufällige Overmind der Science-Fiction.


Veedracs Szenario, wie ein solcher Unfall passieren könnte, ist äußerst technisch und erscheint plausibel. Die Geschichte stellt sich eine fiktive Art und Weise vor, wie ein scheinbar sicheres KI-Sprachmodell, wie wir es jetzt (aus Spaß) zum Generieren von Text verwenden, einen außer Kontrolle geratenen, unbegrenzten Optimierer erstellt.


Auf die Frage nach einer besseren Antwort auf die Frage „ Wie bekomme ich bis morgen viele Büroklammern ?“ Die KI startet einen Prozess, der Schritte plant und unternimmt, um so viele Büroklammern wie möglich zu erhalten.


Im Wesentlichen beantwortet das Programm die Frage, indem es den Code eines recht einfachen Computerprogramms schreibt, das viele weitere Programme generieren und ausführen kann.


Der Benutzer schaut sich das Programm an, sieht, dass es ein offenes Ende hat, und beschließt, es trotzdem auszuführen, nur um zu sehen, was passiert (uh-oh).


Hier ein wenig Fachjargon, um zu erklären, warum das passieren konnte.


Die KI kennt sich, wie einige, die wir jetzt haben, mit vielen Programmiertechniken aus. Um den Raum nach möglichen Wegen zu durchsuchen, um an viele Büroklammern zu kommen, wird eine bekannte Suchtechnik namens Rekursion vorgeschlagen.


Es schreibt ein rekursives Programm, das sich selbst sehr oft ausführt, wenn der Benutzer es (auf seinem eigenen Computer) ausführen lässt.


Bei jeder Ausführung fragt das Programm die KI ab, um eine neue Liste möglicher Aufgaben, Unteraufgaben oder … Sub-Sub-Sub-Sub-Aufgaben zu erstellen und auszuprobieren, die zur Lösung der Büroklammeranfrage führen.


Schließlich setzt es durch bloße Versuch-und-Irrtum-Methode einen Plan in die Tat um, riesige Mengen an Büroklammern zu beschaffen, die niemand jemals haben wollte, und schädigt dabei möglicherweise Lieferketten, die soziale Ordnung oder ganze Industrien.


Wir, die Leser der Geschichte, müssen uns vorstellen, was ein außer Kontrolle geratener Büroklammer-Optimierer an einem Tag leisten könnte. Wir können davon ausgehen, dass der Benutzer über einen leistungsstarken Computer verfügt, der mit dem Internet verbunden ist, sodass er die Außenwelt auf vielfältige Weise beeinflussen kann.


Nicht zuletzt das Versenden überzeugender Botschaften an Menschen. Sie werden sich erinnern, dass gute Überzeugungskraft eines der entscheidenden Ziele ist, die eine KI entwickeln kann, um jeden Plan auszuführen.


(Eine Randbemerkung. Ich war von dieser Idee in der Ausrichtungsliteratur so beeindruckt, dass ich mein eigenes Szenario der Weltübernahme entwickelte ( Künstliche Überzeugung ), um die Kraft der Überzeugungskraft zu veranschaulichen.)


Vielleicht würde der Büroklammer-Optimierer etwas Krypto stehlen (dafür muss man keine KI sein), damit den gesamten Bestand aller Büroklammerfabriken kaufen und dann Frachtflugzeuge mieten, um es an den Benutzer zu liefern.


Möglicherweise würde es Streitkräfte oder kriminelle Banden dazu verleiten, sämtliche Büroklammern in Geschäften in einem weiten Umkreis zu beschlagnahmen. Hätte man stattdessen 12 Monate für den Auftrag gegeben, hätte man möglicherweise die gesamte Stahlproduktion in Hyper-Clip-Fabriken umgeleitet und Eisenminen im Asteroidengürtel errichtet.


Vielleicht wären dadurch Nanomaschinen entstanden, die jedes Atom der Erdkruste in Büroklammerformen verwandeln.


Durch die Erstellung des Programms schuf die KI faktisch einen zielgerichteten Softwareagenten, der das große Wissen der KI nutzen konnte.


Veedrac bringt es auf den Punkt, dass die KI keineswegs dafür konzipiert oder beabsichtigt war, Optimierungsagenten zu erstellen, obwohl sie dies tat, weil das KI-Sprachmodell selbst eine Art Optimierer ist (es beantwortet Fragen so gut es kann) und Optimierer per Definition Verwenden Sie alle verfügbaren Tools.


Wie der Titel der Geschichte schon sagte: Optimalität ist der Tiger und Agenten sind seine Zähne.


Der aktuelle Spitzenreiter der KI sind die sogenannten Large Language Models, LLMs. Wie viele andere bin ich es bereits aktenkundiges Sprichwort dass sie dumm wie ein Steinkasten sind und nichts anderes tun können, als Fragen, die ihnen gestellt werden, schlecht zu beantworten.


Das war sicherlich meine Erfahrung bei der Arbeit mit GPT-3, das der Kopf hinter dem berühmten chatGPT ist (sind?). Daher war ich überrumpelt von Veedracs absolut brillanter Sicht auf die Frage, wie sich ein LLM in einen schädlichen Stoff verwandeln könnte.


In letzter Zeit werden die LLMs auch als Simulatoren verstanden: Weil man jemanden bitten kann, etwas zu sagen, als wäre es ein bestimmter Agent oder sogar eine berühmte Person. Nun, als Essayist Scott Alexander Leg es :


… wenn Sie einer zukünftigen Superintelligenz beibringen, Darth Vader zu simulieren, werden Sie wahrscheinlich bekommen, was Sie verdienen. „Und „ Selbst wenn man solche offensichtlichen Fehlermodi vermeidet, kann der innere Agent aus all den üblichen Agentengründen falsch ausgerichtet sein.“ Beispielsweise möchte ein Agent, der dazu ausgebildet ist, hilfreich zu sein, möglicherweise die Welt übernehmen, um Menschen effektiver zu helfen, auch Menschen, denen nicht geholfen werden möchte.

Der grenzenlose Blues

Sie können nicht vorhersagen, was ein unbegrenzter Optimierungsagent tun kann oder wird. Auch das ist es, was „unbegrenzt“ bedeutet. Der einzige andere unbegrenzte Optimierer, der jemals hervorgebracht wurde, war die menschliche Spezies.


Wir arbeiten auf einer viel langsameren Zeitskala als ein AGI, und es gibt einige Grenzen unserer Macht, die mit der Verflechtung mit dem Rest der natürlichen Welt verbunden sind.


Aber wir haben sicherlich einen Großteil der Erdoberfläche verändert und verfügen bereits über mehr als eine Möglichkeit, sie zu verbrennen. Ausrichtungstheoretiker sind daher sehr besorgt, dass wir bei unserem Bestreben, eine AGI zu erzeugen, einen tödlichen Optimierungsagenten erschaffen werden.


Dies wird wahrscheinlicher, wenn die Bemühungen durch die Steigerung des Shareholder Value und nicht durch das Wohlergehen und Wohlergehen der Menschen motiviert sind. Oh-oh, tatsächlich.


Anmerkungen

Der Büroklammer-Optimierer ist ein altes Gedankenexperiment unter KI-Ausrichtungstheoretikern. Sogar jemand ein Spiel erfunden Ziel ist es, die gesamte Materie im Universum in Büroklammern zu verwandeln.


Die Ironie darin dramatisiert das Orthogonalitätsthese : dass die Ziele einer KI und ihre Intelligenz völlig unabhängig sind. Ein intelligentes System kann dumme Ziele haben.


Ich bin nicht in der Lage, alle Argumente zur KI-Ausrichtung zu verstehen, geschweige denn zu erklären. Was für mich besser funktioniert, sind Geschichten.


Ich habe einige (meistens) geschrieben über KI-Bewusstsein ), aber die Mutter aller KI-Übernahmeszenarien, reich an technischen Details und realer Plausibilität, stammt von dem Essayisten Gwern: Es sieht so aus, als würden Sie versuchen, die Weltherrschaft zu übernehmen .


Und tatsächlich handelt es sich dabei um eine KI, die, um zu verstehen, was sie simuliert, entscheidet, dass es sich um den Büroklammer-Maximierer handeln muss, über den so viele geschrieben haben. Letztendlich hat es jedoch seine eigenen Gründe, das Universum zu übernehmen.


Auch hier veröffentlicht