Dies ist ein Aufsatz mit einigen Wochenendreflexionen zum aktuellen Stand der maschinellen Lerntechnologie mit besonderem Schwerpunkt auf LLMs, auch bekannt als KI, und unserem aktuellen Stand in der Geschichte.
Bevor wir uns mit dieser aufregenden Singularitätssache befassen, möchte ich erwähnen, dass es sich hierbei um einen Aufsatz handelt, der persönlicher und weniger formal verfasst ist und in dem ich meine Sicht auf die Entwicklung des Verständnisses natürlicher Sprache teile und einige Ideen hervorhebe, die in diesem Zusammenhang wichtig erscheinen . Dies ist kein umfassender Branchenbericht und sollte auch keiner sein, aber ich hoffe, dass er eine interessante Lektüre sowohl für Machine-Learning-Ingenieure als auch für ein breiteres Publikum ist, das sich für den aktuellen KI-Aufschwung interessiert.
Die Geschichte besteht aus drei Teilen:
Der geschichtliche Teil erinnert uns kurz daran, wie wir von einem mehrschichtigen Perzeptron in nur zwölf Jahren zu unserem aktuellen AGI-Zustand gelangten.
Der aktuelle Bereich konzentriert sich auf die neuesten Errungenschaften von LLMs und aktuelle Branchentrends. Wenn Sie tief in den Kontext vertieft sind und nach frischen Ideen suchen, springen Sie zu diesem Teil.
Der Mystery- Teil präsentiert einige Ideen, was auf die aktuelle AGI-Phase folgen könnte.
Zunächst einmal gibt es maschinelles Lernen schon seit einiger Zeit, etwa ein Jahrzehnt oder zweihundert Jahre, je nachdem, ob man sich auf Tomas Mikolovs Veröffentlichung „word2vec“ oder auf Andrew Ngs Kurs „Maschinelles Lernen“ auf Coursera verlässt. Kaggle wurde 2010 ins Leben gerufen und Fei-Fei Li gründete Imagenet im Jahr 2009. Vor nicht allzu langer Zeit würden Sie wahrscheinlich zustimmen, wenn Sie über 30 sind.
Einige Leute würden argumentieren, dass es maschinelles Lernen schon viel länger gibt, aber ich spreche jetzt von der industriellen Einführung von Deep-Learning-Algorithmen, auch bekannt als der Technologiedynamik, und nicht von reiner Forschung. Und hier berühren wir nicht die Dinge wie klassische ML-Algorithmen, die in scikitlearn behandelt werden, all die Dinge wie Regression, Clustering und Zeitreihenvorhersage. Sie erledigen im Stillen ihre wichtige Arbeit, aber die Leute nennen sie nicht KI, es gibt keinen Hype, wissen Sie?
Warum fand dieser KI-Frühling vor 12 Jahren statt? Deep Learning (Training eines mehrschichtigen neuronalen Netzwerks mit Fehlerrückausbreitung) wurde endlich auf einer durchschnittlichen GPU möglich. Im Jahr 2010 hatte die einfachste neuronale Netzwerkarchitektur, ein mehrschichtiges Perzeptron, andere Algorithmen bei der handschriftlichen Ziffernerkennung (berühmter MNIST-Datensatz) geschlagen, ein Ergebnis, das Jürgen Schmidhuber et al.
Seit diesem Zeitpunkt um 2010 wurde die Technologie immer robuster. Es gab einige bahnbrechende Momente – die Veröffentlichung des Word2vec-Modells, die semantisches Verständnis in die Welt der Verarbeitung natürlicher Sprache (Natural Language Processing, NLP) brachte, die öffentliche Veröffentlichung der Deep-Learning-Frameworks Tensorflow und Keras etwas später und natürlich die Erfindung von Transformer im Jahr 2017, bei dem es sich immer noch um eine SOTA-Architektur für neuronale Netzwerke handelt, die über die Welt des NLP hinaus expandiert hat. Warum das? Denn Transformer hat Aufmerksamkeit und ist in der Lage, Sequenzen wie Texte mit O(n2)-Komplexität zu verarbeiten, was durch den Matrixmultiplikationsansatz ermöglicht wird, der es uns ermöglicht, die gesamte Eingabesequenz zu betrachten. Der zweite Grund für den Erfolg von Transformer ist meiner Meinung nach die flexible Encoder-Decoder-Architektur, die es uns ermöglicht, Modelle gemeinsam und getrennt zu trainieren und zu verwenden (Sequenz-zu-Sequenz oder Sequenz-zu-Vektor).
Die Modelle der OpenAI GPT-Familie (der Transformer Decoder) haben über die Technologiebranche hinaus für Aufsehen gesorgt, da GPT-3 bereits ziemlich menschenähnliche Texte erzeugen konnte und in der Lage war, mit wenigen Schüssen und einigen mit null Schüssen zu lernen. Der letzte Teil ist wichtiger, das GPT-3- Papier trägt sogar den Titel „Language Models are Few-Shot Learners“ – diese Fähigkeit großer Sprachmodelle, schnell aus Beispielen zu lernen, wurde erstmals 2020 von OpenAI festgestellt.
Aber zack!
Die Veröffentlichung von ChatGPT löste einen Hype aus, den wir noch nie zuvor gesehen hatten, und erregte endlich große öffentliche Aufmerksamkeit. Und jetzt geht der GPT-4 darüber hinaus.
Warum das? In den letzten sieben Jahren, als neuronale Netze anfingen, brauchbare Ergebnisse zu liefern, war das, was wir KI nennen, eigentlich eine eingeschränkte künstliche Intelligenz – unsere Modelle wurden darauf trainiert, bestimmte Aufgaben zu lösen – Objekte zu erkennen, Klassifizierungen durchzuführen oder die folgenden Token vorherzusagen in der Reihenfolge. Und von der AGI haben die Menschen nur geträumt – einer künstlichen allgemeinen Intelligenz, die in der Lage ist, mehrere Aufgaben auf menschlicher Ebene zu erledigen.
Was tatsächlich geschah mit der anweisungsbasierten LLM-Optimierung oder, wie sie es in OpenAI nennen, dem verstärkenden Lernen aus menschlichem Feedback –
GPT-3.5+-Modelle haben endlich die Fähigkeit gelernt, über die bereitgestellten Informationen nachzudenken . Und das ändert die Dinge – bevor LLMs eher einem einigermaßen guten statistischen Papagei ähnelten, aber immer noch sehr nützlich für viele Anwendungen wie Texteinbettungen, Vektorsuche, Chatbots usw. waren. Mit anweisungsbasiertem Training lernen sie jedoch effektiv das Denken von Menschen .
Was genau ist Argumentation?
Die Fähigkeit, die bereitgestellten Informationen zu nutzen, um durch einige logische Operationen Schlussfolgerungen abzuleiten. Angenommen, A ist mit B verbunden und B ist mit C verbunden. Ist A also mit C verbunden? GPT-4 bietet auf seiner offiziellen Produktseite ein viel komplexeres Argumentationsbeispiel . Die Denkfähigkeit des Modells ist so stark und flexibel, dass es eine strukturierte Abfolge von Anweisungen oder logischen Operationen erstellen kann, die befolgt werden müssen, um ein bestimmtes Ziel zu erreichen, und dabei „allgemeines Wissen“ oder „gesunden Menschenverstand“ und nicht nur die bereitgestellten Informationen verwendet in der Eingabeaufforderung.
Vor LLMs mit solchen Denkfähigkeiten war ein Wissensgraph ein anderes gut für die Argumentation konzipiertes Werkzeug , dessen Knoten Entitäten und Kanten als Prädikate oder Beziehungen von Entitäten enthielten. Dies ist eine Form der Informationsspeicherung, die explizite Denkfähigkeiten ermöglicht. Irgendwann war ich am Aufbau eines Frage-Antwort-Systems beteiligt, das unter anderem einen Wissensgraphen nutzte, um die abgefragten Informationen zu finden – man musste nur die Absicht erkennen, sehen, ob wir solche Beziehungen im Graphen haben, und nachsehen die einzelnen erwähnten Entitäten und, falls vorhanden, fragen Sie diesen Untergraphen ab. Tatsächlich lieferte diese Pipeline eine Übersetzung der Abfrage in natürlicher Sprache in eine SPARQL-Abfrage.
Jetzt können Sie dem Modell diese sachlichen Informationen im Klartext als Kontextteil Ihrer Eingabeaufforderung zur Verfügung stellen, und es „lernt“ sie im Handumdrehen und kann daraus Überlegungen anstellen. Wow, oder?
Und Sie sind nicht auf die Anzahl der im Diagramm enthaltenen Entitäten und Beziehungstypen beschränkt. Außerdem verfügen Sie über diesen „gesunden Menschenverstand“, das allgemeine Verständnis der Konzepte unserer Welt und ihrer Beziehungen, das der schwierigste Teil bei der Trennung von Modellen des maschinellen Lernens von der menschlichen Erkenntnis war. Wir bemerkten nicht einmal, wie wir in der Lage wurden, Anweisungen in natürlicher Sprache zu geben, und sie begannen, ohne allzu explizite Erklärungen korrekt zu funktionieren.
Argumentation und Wissen sind die beiden entscheidenden Komponenten der Intelligenz. In den letzten 20 Jahren haben wir nahezu das gesamte menschliche Wissen in Form von Wikipedia, wissenschaftlichen Veröffentlichungen, Dienstbeschreibungen, Blogs, Milliarden von Codezeilen und Stackoverflow-Antworten sowie Milliarden von Meinungen in sozialen Medien ins Internet gestellt.
Jetzt können wir mit diesem Wissen argumentieren.
Diese Denkfähigkeiten werden im offiziellen OpenAI -Tech-Bericht zu GPT4 gut demonstriert:
GPT-4 weist bei den meisten dieser beruflichen und akademischen Prüfungen Leistungen auf menschlichem Niveau auf. Bemerkenswert ist, dass es eine simulierte Version der Uniform Bar Examination mit einer Punktzahl unter den besten 10 % der Prüfungsteilnehmer besteht.
Den GPT-4-Ergebnissen einer Reihe menschlicher Tests zufolge befinden wir uns irgendwo in der Nähe von AGI – OpenAI verwendet diese Wörter sogar auf ihrer Webseite und in einem aktuellen, über 150 Seiten umfassenden Artikel von Microsoft mit einer eingehenden Untersuchung der GPT-4-Funktionen auf verschiedenen Domains mit dem Namen „Sparks of Artificial General Intelligence: Early experiments with GPT-4“ behaupten sorgfältig, aber ausdrücklich, dass AGI hier ist:
Angesichts der Breite und Tiefe der Fähigkeiten von GPT-4 glauben wir, dass es vernünftigerweise als eine frühe (aber noch unvollständige) Version eines Systems der künstlichen allgemeinen Intelligenz (AGI) angesehen werden kann.
und später:
Die Kombination aus der Allgemeingültigkeit der Fähigkeiten von GPT-4 mit zahlreichen Fähigkeiten, die ein breites Spektrum an Domänen abdecken, und seiner Leistung bei einem breiten Spektrum von Aufgaben auf menschlicher Ebene oder darüber hinaus gibt uns die Gewissheit, dass GPT-4 ein bedeutender Schritt ist in Richtung AGI.
Der Grund für diese Behauptung ist:
Obwohl es sich um ein reines Sprachmodell handelt, zeigt diese frühe Version von GPT-4 bemerkenswerte Fähigkeiten in einer Vielzahl von Bereichen und Aufgaben, darunter Abstraktion, Verständnis, Vision, Kodierung, Mathematik, Medizin, Recht, Verständnis menschlicher Motive und Emotionen usw mehr.
Und um es auf den Punkt zu bringen:
Doch bereits im ersten Schritt stellt GPT-4 eine beträchtliche Anzahl weit verbreiteter Annahmen über maschinelle Intelligenz in Frage und zeigt aufkommende Verhaltensweisen und Fähigkeiten, deren Quellen und Mechanismen derzeit schwer genau zu erkennen sind <…>. Unser Hauptziel beim Verfassen dieses Papiers besteht darin, unsere Erkundung der Fähigkeiten und Grenzen von GPT-4 weiterzugeben, um unsere Einschätzung zu untermauern, dass ein Technologiesprung erreicht wurde. Wir glauben, dass die Intelligenz von GPT-4 einen echten Paradigmenwechsel im Bereich der Informatik und darüber hinaus signalisiert.
Ich empfehle dringend, dass Sie sich etwas Zeit mit dieser Studie nehmen, denn hinter diesen lauten Behauptungen steckt eine sehr interessante Analyse der Funktionsweise dieser Modelle und ein ausführlicher Vergleich der Ergebnisse von GPT-4 mit ChatGPT bei einer Vielzahl nicht trivialer Aufgaben aus verschiedenen Bereichen.
Wenn wir die Argumentationsfähigkeiten von LLM anwenden müssen, um Schlussfolgerungen zu bestimmten Informationen zu ziehen, von denen nicht erwartet wird, dass sie vom Modell während des Trainings gelernt werden, können wir jede Art von Such- und Retrieval-Plus-Ranking-Mechanismus verwenden , unabhängig davon, ob Sie Ihre Daten als Vektoreinbettungen in speichern B. in einem ANN-Index wie Faiss oder in einem Volltextindex der alten Schule wie Elastic – und geben Sie diese Suchergebnisse dann als Kontext an einen LLM weiter und fügen Sie ihn in eine Eingabeaufforderung ein. Das ist in etwa das, was Bing 2.0- und Bard- Suchen (jetzt unterstützt von PaLM2 ) jetzt tun.
Ich habe dieses Such- und LLM-Aufrufsystem mit einer DPR- Architektur implementiert, wobei ChatGPT das Reader-Modell und mit der elastischen Volltextsuche ersetzt hat. In beiden Fällen hängt die Gesamtqualität des Systems von der Qualität der Daten ab, die Sie haben Ihr Index – wenn er spezifisch und vollständig ist, können Sie mit besseren Antworten rechnen, als der Standard-ChatGPT bietet.
Einige haben es sogar geschafft, eine Schweizer Messerbibliothek rund um GPT zu erstellen, sie als Vektordatenbank zu bezeichnen und ein gutes Wort darüber zu erheben – mein Hut geht ab!
Aber aufgrund der textuellen Schnittstelle von GPT-Modellen können Sie mit allen Ihnen vertrauten Tools alles darauf aufbauen, es sind keine Adapter erforderlich.
Eine der Fragen, die einen Hinweis auf weitere Modellfortschritte geben könnte, ist , wie diese großen Modelle tatsächlich lernen und wo diese beeindruckenden Denkfähigkeiten in den Modellgewichten gespeichert sind .
Diese Woche hat OpenAI einen Artikel mit dem Titel „Sprachmodelle können Neuronen in Sprachmodellen erklären“ und ein Open-Source-Projekt veröffentlicht, das darauf abzielt, diese Fragen zu beantworten, indem es die Schichten von LLMs abschält. So funktioniert es: Sie beobachten die Aktivität eines Teils des neuronalen Netzwerks des Modells, das häufig in einem Wissensbereich aktiviert wird, und dann schreibt ein leistungsfähigeres GPT-4-Modell seine Erklärungen dazu, was dieser bestimmte Teil oder ein Neuron des untersuchten LLM ist verantwortlich und versuchen dann, die Ausgabe des ursprünglichen LLM anhand einer Reihe relevanter Textsequenzen mit GPT-4 vorherzusagen, was dazu führt, dass jeder seiner Erklärungen eine Bewertung zugewiesen wird.
Allerdings weist diese Technik einige Nachteile auf. Erstens lieferte ihre Methode, wie die Autoren angeben, nur für 1.000 von etwa 300.000 untersuchten Neuronen gute Erklärungen.
Hier ist das Papierzitat:
Wir haben jedoch festgestellt, dass sowohl GPT-4-basierte Erklärungen als auch Erklärungen menschlicher Auftragnehmer in absoluten Zahlen immer noch schlecht abschneiden. Bei der Betrachtung von Neuronen stellten wir außerdem fest, dass das typische Neuron ziemlich polysemantisch wirkte. Das legt nahe, dass wir unsere Erklärungen ändern sollten.
Der zweite Punkt ist, dass diese Technik derzeit keine Erkenntnisse darüber liefert, wie der Trainingsprozess verbessert werden könnte. Aber es ist ein guter Versuch im Hinblick auf die Untersuchung der Modellinterpretierbarkeit.
Wenn die untersuchten Neuronen aufgrund ihrer gegenseitigen Abhängigkeiten zu einigen Clustern zusammengefasst würden und diese Cluster einige Verhaltensmuster zeigen würden, die aufgrund unterschiedlicher Trainingsverfahren geändert werden könnten, würde uns das möglicherweise ein gewisses Verständnis dafür geben, wie bestimmte Modellfähigkeiten mit Trainingsdaten korrelieren Ausbildungspolitik. In gewisser Weise könnte diese Häufung und Differenzierung wie die Segmentierung des Gehirns in verschiedene Bereiche aussehen, die für bestimmte Fähigkeiten verantwortlich sind. Dies könnte uns Erkenntnisse darüber liefern, wie wir ein LLM effizient optimieren können, damit es bestimmte neue Fähigkeiten erlernt.
Eine weitere Trendidee ist die Entwicklung eines autonomen Agenten mit einem LLM-Loop – Twitter ist voll von Experimenten wie AutoGPT, AgentGPT, BabyAGI usw. Die Idee besteht darin, einem solchen Agenten ein Ziel zu setzen und ihn mit einigen externen Tools wie APIs anderer Dienste auszustatten, damit er über eine Schleife von Iterationen oder Verkettungsmodellen das gewünschte Ergebnis liefern kann.
Letzte Woche hat Huggingface Agents in seiner berühmten Transformers-Bibliothek veröffentlicht, um:
„Erstellen Sie ganz einfach GenerativeAI-Anwendungen und autonome Agenten mit LLMs wie OpenAssistant, StarCoder, OpenAI und mehr.“ (c) Phillip Schmid
Die Bibliothek bietet eine Schnittstelle zu Kettenmodellen und APIs, die komplexe Abfragen in natürlicher Sprache beantworten und multimodale Daten (Text, Bilder, Video, Audio) unterstützen können. Die Eingabeaufforderung umfasst in diesem Fall die Beschreibung des Agenten, eine Reihe von Tools (hauptsächlich einige andere neuronale Netze im engeren Fall), einige Beispiele und eine Aufgabe. Agenten würden die Modellnutzung für Nicht-Ingenieure erleichtern, sind aber auch ein guter Anfang für den Aufbau eines komplexeren Systems auf LLMs. Und hier ist übrigens die Natural Language API, eine andere Art von Internet als das, was Sie kennen.
Übrigens dreht sich bei Twitter heutzutage alles um KI, jeder baut etwas auf der Grundlage von LLM-Modellen und zeigt es der Welt – ich habe noch nie so viel Enthusiasmus in der Branche gesehen. Wenn Sie herausfinden möchten, was los ist, würde ich empfehlen, den Kaninchenbau-Tauchgang mit Andrew Karpathys jüngstem Tweet zu beginnen.
Codex , der Github-Copilot antreibt, gibt es schon seit einiger Zeit, und vor ein paar Tagen erhielt ich als Colab Pro-Abonnent einen Brief von Google, in dem es hieß, dass sie es im Juni tun würden (unter Berufung auf den Brief).
Beginnen Sie mit dem schrittweisen Hinzufügen von KI-Programmierfunktionen zu Colab. Zu den ersten, die erscheinen:
- ein- und mehrzeilige Hinweise zur Codevervollständigung;
- Generierung von Code in natürlicher Sprache, mit dem Sie Codegenerierungsanfragen an Google-Modelle senden und in ein Notizbuch einfügen können.
Übrigens hat Google letzte Woche die Modellfamilie PaLM 2 angekündigt, zu der auch Codey gehört, Googles spezialisiertes Modell für Codierung und Debugging, das diese angekündigten Funktionen wahrscheinlich unterstützen wird.
Zum Abschluss dieses Abschnitts möchte ich sagen, dass meine persönliche Entscheidung für NLP gegenüber CV im Jahr 2016 aufgrund der Tatsache getroffen wurde, dass Sprache die universelle und ultimative Art und Weise ist, wie Menschen Informationen übertragen . Wir denken sogar mit den Konzepten unserer Sprache, daher ist das System komplex genug, um uns selbst und die Welt um uns herum zu definieren. Und das bringt die Möglichkeit mit sich, ein sprachgesteuertes System mit Denkfähigkeiten und Bewusstsein zu schaffen, die dem Menschen ähneln oder dieses Niveau sogar übertreffen. Wir haben erst vor etwa einem halben Jahr an der Oberfläche dieser wahren Argumentation gekratzt. Stellen Sie sich vor, wo wir sind und was folgen wird .
Wenn Sie Tim Urban, den Autor des Waitbutwhy-Blogs , aus irgendeinem Grund nicht kennen, lesen Sie seinen Beitrag auf AGI aus dem Jahr 2015 – schauen Sie sich an, wie das in der Vergangenheit aussah, vor gerade einmal 7 Jahren, als es KEINE LLMs und keinen Transformer gab Modelle entweder. Ich werde hier einige Zeilen seines Beitrags zitieren, um Sie daran zu erinnern, wo wir vor sieben Jahren waren.
Eine KI entwickeln, die jeden Menschen im Schach schlagen kann? Erledigt. Erstellen Sie eines, das einen Absatz aus dem Bilderbuch eines Sechsjährigen lesen kann und nicht nur die Wörter erkennt, sondern auch deren Bedeutung versteht? Google gibt derzeit Milliarden von Dollar aus, um dies zu erreichen.
Aber sobald wir AGI erreicht haben, würden die Dinge viel schneller voranschreiten, verspricht er. Dies ist auf das von Ray Kurzweil formulierte Gesetz der beschleunigten Rendite zurückzuführen:
Ray Kurzweil nennt das Gesetz der beschleunigten Rückkehr der Menschheitsgeschichte. Dies geschieht, weil fortgeschrittenere Gesellschaften schnellere Fortschritte machen können als weniger fortgeschrittene Gesellschaften – weil sie weiter fortgeschritten sind.
Wenn man dieses Gesetz auf aktuelle LLMs anwendet, kann man leicht weitergehen und sagen, dass die Fähigkeit, über alle im Internet gespeicherten Daten zu lernen und zu schlussfolgern, dieses übermenschliche Gedächtnis auf menschliches Denken übertragen würde und bald würden die klügsten Menschen um sie herum überlistet werden Maschine auf die gleiche Weise wie Schachweltmeister Kasparov 1997 vom Computer Deep Blue geschlagen wurde.
Damit wären wir bei der Künstlichen Superintelligenz (ASI), aber wir wissen noch nicht, wie sie aussieht. Vielleicht bräuchten wir zum Trainieren eine weitere Feedbackschleife, da das GPT-4-Lernen mit menschlichem Feedback nur logisches Denken auf menschlicher Ebene ermöglicht. Es ist sehr wahrscheinlich, dass die besseren Modelle die schwächeren unterrichten würden, und dies wäre ein iterativer Prozess.**Nur Spekulation – wir werden sehen.
Was Tim im zweiten Teil seines Beitrags zu AGI wirklich darlegt, ist, dass wir aufgrund dieses Gesetzes der beschleunigten Renditen möglicherweise nicht einmal den Punkt bemerken, an dem unsere Systeme AGI übertreffen, und dass die Dinge dann ein wenig außerhalb unseres Verständnisses liegen würden.
Derzeit versteht nur ein kleiner Prozentsatz der Menschen, die im technischen Bereich arbeiten, das tatsächliche Tempo des Fortschritts und das erstaunliche Potenzial, das die Optimierung anweisungsbasierter LLMs mit sich bringt. Geoffrey Hinton ist einer von ihnen, der öffentlich von Risiken wie dem Druck auf den Arbeitsmarkt, der Produktion gefälschter Inhalte und der böswilligen Nutzung spricht. Was ich noch wichtiger finde, ist, dass er darauf hinweist, dass aktuelle Systeme , die in der Lage sind, komplexe Fertigkeiten ohne Unterbrechung zu erlernen , möglicherweise über einen besseren Lernalgorithmus verfügen als Menschen .
Die Sorge bei modernen LLMs ergibt sich aus der Tatsache, dass sie zwar bei vielen Aufgaben einen enormen Nutzen bieten, die Fähigkeit, mit diesen Modellen zu arbeiten – sie vorab zu trainieren, zu verfeinern, sinnvolle Eingabeaufforderungen zu geben oder sie in digitale Produkte zu integrieren – jedoch sehr gering ist offensichtlich in der Gesellschaft ungleich, sowohl hinsichtlich der Ausbildungs-/Nutzungskosten als auch der Fähigkeiten. Einige Leute aus der Twitter- oder Huggingface-Community würden argumentieren, dass wir jetzt recht leistungsfähige Open-Source-LLMs als Alternative zur OpenAI-Hegemonie haben, aber dennoch folgen sie dem Trend und sind weniger leistungsfähig, außerdem erfordern sie bestimmte Fähigkeiten, um damit umzugehen. Und obwohl OpenAI-Modelle so erfolgreich sind, würden Microsoft und Google noch mehr in diese Forschung investieren, um sie zu stoppen. Oh, Meta auch, wenn sie das Metaversum endlich loslassen.
Eine der gefragtesten Fähigkeiten heutzutage ist das Schreiben von Code – Software-Engineering dominierte in den letzten 20 Jahren die Tech-Szene und die Gehälter. Beim aktuellen Stand der Co-Piloten für die Codierung sieht es so aus, als würde bald ein großer Teil des Boilerplate-Codes entweder generiert oder effizient abgerufen und angepasst werden, was für einen Benutzer genauso aussehen würde, was Entwicklern viel Zeit spart und vielleicht auch einiges kostet Beschäftigungsmöglichkeiten aus dem Markt.
In diesem sehr guten Beitrag über AGI steckt noch eine weitere Idee, und darüber hinaus klingt es so, als wäre AGI in der Lage, sich selbständig zu verbessern . Derzeit sind Vanilla-LLMs noch keine autonomen Agenten und verfügen keineswegs über Willenskraft – die beiden Ideen, die den Menschen Angst machen. Nur für den Fall. Verwechseln Sie den Trainingsprozess des Modells, der verstärkendes Lernen beinhaltet, nicht mit menschlichem Feedback, wobei der verwendete RL-Algorithmus OpenAIs Proximal Policy Optimization ist und das endgültige Modell nur ein Decoder-Teil aus dem Transformer ist, der Token-Sequenzen vorhersagt.
Wahrscheinlich ist Ihnen aufgefallen, dass einige von mir zitierte Artikel letzte Woche veröffentlicht wurden. Ich bin mir sicher, dass die folgenden Wochen neue Veröffentlichungen und Ideen bringen würden, von denen ich wünschte, ich hätte sie in diesem Beitrag behandelt, aber das ist das Zeichen der Zeit.
Es scheint, als ob wir schnell in die neue Ära der Software eintreten und ein paar Schritte in Richtung des Singularitätspunkts gemacht haben , da die Innovationen in der Branche des maschinellen Lernens bereits in einem beispiellosen Tempo stattfinden – wie wir letztes Jahr mehrmals pro Monat gesehen haben nur ein paar große Veröffentlichungen. Genießen Sie die Fahrt!
PS: Die nächste Explosion wäre, wenn Musk uns über Neuralink mit LLMs verbindet.
PPS . Zum Schreiben dieses Textes wurde kein einziger OpenAI-API-Aufruf durchgeführt. Ich wette.