paint-brush
An der Spitze der KI-Forschung: Multimodalität, Agenten, Open-Source-LLM und mehrvon@viceasytiger
1,330 Lesungen
1,330 Lesungen

An der Spitze der KI-Forschung: Multimodalität, Agenten, Open-Source-LLM und mehr

von Vik Bogdanov9m2024/07/04
Read on Terminal Reader

Zu lang; Lesen

Erkunden Sie die nächste Grenze der KI-Forschung mit Hamudi Naanaa, CTO und Mitbegründer von Portal.ai und ehemaliger KI-Forscher bei Amazon. Wir diskutieren den aktuellen Stand der KI, die Bedeutung von Multimodalität und KI-Agenten, die Wichtigkeit der Open-Source-Entwicklung und die ethischen Herausforderungen der KI. Naanaa erzählt von seinem Weg in die KI, den möglichen Auswirkungen der KI auf verschiedene Branchen und der Rolle der KI bei der Umgestaltung von Geschäftsmanagementpraktiken. Er betont die Notwendigkeit einer verantwortungsvollen KI-Entwicklung und hebt die spannenden zukünftigen Möglichkeiten der KI hervor, darunter persönliche Roboter und gemeinsam mit der KI entwickelte Medikamente.
featured image - An der Spitze der KI-Forschung: Multimodalität, Agenten, Open-Source-LLM und mehr
Vik Bogdanov HackerNoon profile picture
0-item

Ich bin kürzlich auf einen Artikel gestoßen, in dem der Autor argumentiert, dass 2023 zwar ein hektisches Jahr in Sachen KI war, ein heißes Thema in den Vorstandsetagen und in den Medien war und sogar die Performance der öffentlichen Aktienmärkte beeinflusste, 2024 jedoch ein Jahr der Erkundung und Entdeckung sein wird. Er vergleicht den aktuellen Stand der KI mit einer Phase der „Ursuppe“, die voller Potenzial und dennoch amorph ist, und behauptet, wir seien zu schnell von der Erkundungsphase der KI zur aktiven Nutzung übergegangen und hätten schnelle und einfache Ergebnisse angestrebt. Jetzt ist es „Zeit, den Reset-Knopf zu drücken“ und die KI weiter zu erforschen, um eine sinnvolle Wertschöpfung zu erzielen.


Dieser Artikel hat bei mir einen Nerv getroffen und meine Neugier geweckt, die Köpfe zu verstehen, die die Gegenwart und Zukunft der KI-Forschung gestalten. Um tiefere Einblicke zu gewinnen, habe ich Mohammad (Hamudi) Naanaa interviewt, CTO und Mitbegründer von Portal.ai sowie ehemaliger KI-Forscher bei Amazon und F&E-Laborleiter bei Apple. Unser Gespräch befasst sich mit dem aktuellen Stand der KI-Forschung und ihrer nächsten Grenze, den Herausforderungen und Chancen einer verantwortungsvollen und ethischen KI-Entwicklung, den möglichen Auswirkungen von Schatten-KI, was es braucht, um solide KI-Expertise aufzubauen und vielem mehr.


Viel Spaß beim Lesen!


Hamudi, was hat Sie zum Bereich der KI-Forschung hingezogen und welche(n) speziellen Bereich(e) erforschen Sie derzeit?


Meine Reise in die KI begann während meiner Studienzeit mit dem bahnbrechenden AlexNet-Artikel . Die Idee, ein Modell zum Klassifizieren von Bildern zu trainieren, war beeindruckend, etwas, das mit herkömmlicher Software unerreichbar schien. Inspiriert von dieser Komplexität vertiefte ich mich in die KI-Forschung, um neuronale Netzwerke besser zu verstehen. Ich hatte die starke Intuition, dass es nur eine Frage der Zeit war, bis wir, wenn wir die Bildklassifizierung lösen konnten, noch komplexere Daten und Probleme in Angriff nehmen und letztendlich Intelligenz aufbauen konnten. Ich wollte Teil dieser Reise sein.


Anfangs habe ich mich in die Computervision vertieft, fasziniert von den kreativen Möglichkeiten der generativen KI, insbesondere GANs und Diffusionsmodellen. Später erregte die Explosion der Sprachmodelle mit dem Transformer- Papier meine Aufmerksamkeit und brachte den Traum von echter künstlicher Intelligenz näher. Heute beschäftige ich mich mit der spannenden Schnittstelle der generativen KI in Text und Bild.


Was ist Ihrer Meinung nach die nächste Grenze der KI-Erforschung?


Selbst heute, Jahre später, kratzen wir nur an der Oberfläche des Potenzials der KI. Es ist ein sehr heißes Thema; viele Trends kommen und gehen, und die Grenzen werden jeden Tag neu definiert.


Eine wichtige Richtung an dieser Grenze ist die Multimodalität . Die Welt besteht aus mehr als nur Text, und ich sehe eine glänzende Zukunft für nativ multimodale KI – die Text, Bilder, Audio und mehr integriert. Viele große KI-Unternehmen setzen bereits darauf, und wir sehen grundlegende Modelle, die verschiedene Eingaben unterstützen.


Ein weiterer Bereich, der meiner Meinung nach große Erwartungen und Aufregung hervorruft, sind Agenten . Diese Systeme verfügen über eine vollständige Rückkopplungsschleife mit Beobachtungen, Argumentation, Zustand, Aktionen und Reflexion. Sie gehen über das „Input-Output“-Paradigma hinaus, das wir heute bei den meisten LLM-basierten KIs sehen.


Es gibt eine anhaltende Debatte darüber, ob transformerbasierte Architekturen, wie etwa Input-Output-Token-Maschinen, für „echte“ Intelligenz ausreichen.


Die Erforschung grundlegend neuer Architekturen ist eine vielversprechende, aber anspruchsvolle Richtung. Wir könnten eine Renaissance zustandsbehafteter, speichernativer Architekturen wie Neural Turing Machines (NTMs) oder Differential Neural Computers (DNCs) erleben, die einige der Mängel der Transformer beheben könnten.


All diese Fortschritte werden die Robotik revolutionieren und intelligente Assistenten schneller in unseren Alltag bringen als erwartet. Ich glaube, dass wir die ersten Roboter schon in ein paar Jahren unter uns herumlaufen sehen werden, vielleicht sogar schon früher.


Allerdings ist die Entwicklung von Technologien eine Sache, die Entwicklung nützlicher Produkte auf dieser Grundlage eine andere.


Der Wert einer multimodalen Audio-nativen KI besteht darin, dass Benutzer hochpersonalisierte Songs erstellen können, in die sie Emotionen einbringen. Dieselbe Kerntechnologie, aber das Produkt in der richtigen Verpackung – das ist es, was den Menschen Kraft verleiht. Und hier sehe ich bald viel Forschung, wobei die Modelle zuverlässiger, kontrollierbarer und robuster werden .


Wie werden multimodale KI-Systeme Ihrer Meinung nach die Interaktion zwischen Mensch und Technologie verändern? Gibt es bestimmte Branchen oder Anwendungen, in denen multimodale KI den größten Einfluss haben wird?


Multimodale KI verändert bereits die Art und Weise, wie wir mit Technologie interagieren. Nehmen wir zum Beispiel Chatbots – einst einfache textbasierte Tools, die die Leute auf Websites ignorierten, entwickeln sie sich heute zu anspruchsvollen, multimodalen Schnittstellen im Zentrum neuer Designs.


Multimodalität ermöglicht neue Interaktionsmuster – denken Sie an Lern-Apps wie Duolingo oder Khan Academy . Die Möglichkeit, Ihre Sprachkenntnisse beim Schreiben von Texten mit Ihrem KI-Partner zu üben, Ihre Aussprache in einem Sprachgespräch zu verbessern oder Ihre mathematischen Gleichungen in Fotos zu zeigen, ist eine völlig neue Art, natürlicher mit Technologie zu interagieren und so die Produktivität und das Engagement zu steigern.


Ich stelle mir eine Zukunft mit Super-Apps oder sogar neuen Betriebssystemen vor, bei denen Benutzer Anweisungen geben und ein Ergebnis erhalten können, ohne durch verschiedene Apps navigieren zu müssen.


Anstatt beispielsweise durch Symbole und Text zu klicken, um Essen zu bestellen, können Sie sprechen, gestikulieren oder sogar bestimmte Elemente ansehen, um menschlicher zu interagieren. Frühe Anwender wie der Humane AI Pin und Rabbit R1 sind vielversprechend, weisen aber auch auf Unvorhersehbarkeit und Verbesserungspotenzial hin. Als Entwickler und KI-Forscher müssen wir uns mit diesen Problemen befassen, und ich bin optimistisch, dass uns das gelingt.


Multimodale KI-Systeme werden die Art und Weise, wie wir mit Technologie interagieren, revolutionieren, indem sie die Barrieren zwischen verschiedenen Kommunikationsformen auflösen. Wir stehen noch am Anfang der Erforschung dieser neuen Art der Schnittstellengestaltung, aber ein gemeinsames Muster ist bereits erkennbar:


Bestehende Systeme mit vordefinierten Interaktionsmustern werden neu erfunden.


Angesichts der raschen Fortschritte in der KI-Forschung stellt sich die Frage, welche größten Herausforderungen es für uns zu bewältigen gilt, eine verantwortungsvolle Entwicklung der KI zu gewährleisten und ihre möglichen negativen Auswirkungen einzudämmen.


Die ethische Landschaft der KI zu verstehen ist komplex, aber entscheidend, da sich die Technologie schnell weiterentwickelt und ihre Auswirkungen noch nicht vollständig verstanden sind. Wir müssen Voreingenommenheit und unbeabsichtigte Folgen vorhersehen und abmildern.


Einige Herausforderungen ergeben sich aus ethischen Implikationen, die mit menschlichen Schwächen zusammenhängen. So können Projekte, die auf die Entwicklung von KI-Begleitern abzielen, Einsamkeit bekämpfen. Allerdings könnten sie diese auch verschlimmern, indem sie Menschen ermutigen, Trost in der KI zu finden, anstatt in realen Interaktionen. Dies wirft für Entwickler Fragen zu den Implikationen ihrer Apps auf und wie sie diese angehen sollten. Dies ist nur ein Beispiel für die grundlegenden Fragen, die sich aus scheinbar einfachen Apps ergeben, und es gibt noch viele weitere, die wir uns noch nicht vorstellen können, ganz zu schweigen von den Nebenwirkungen ihrer Existenz.


Jüngste Vorfälle in der Branche der großen Technologieunternehmen, wie etwa die verzerrte historische Darstellung von Personen in generierten Bildern , verdeutlichen die erheblichen Herausforderungen – darunter ethische Bedenken und unbeabsichtigte Folgen –, die der schnelle Fortschritt der KI-Technologie mit sich bringt.


Darauf gibt es keine einfache Antwort. Ich bin jedoch davon überzeugt, dass die Gewährleistung von Transparenz durch die Entwicklung eines Open-Source-LLM (Offenlegung sowohl der Modelle als auch der Daten, mit denen sie trainiert wurden) und die Förderung eines multidisziplinären Ansatzes, an dem Menschen mit unterschiedlichem Hintergrund beteiligt sind, nicht nur Ingenieure und Wissenschaftler, entscheidende Schritte zur Bewältigung dieser Herausforderungen sind.


Diese Fragen zu stellen ist der einzig richtige Ansatz. Wir sind dafür verantwortlich, die Zukunft der leistungsfähigsten Technologien zu gestalten, die es gibt. Als Entwickler künstlicher Intelligenz müssen wir inhärente und potenzielle Verzerrungen berücksichtigen und überlegen, wie wir sie abmildern können.


An welchen Projekten oder Forschungsvorhaben waren Sie seit Ihrer Zeit bei Amazon beteiligt? Woran arbeiten Sie derzeit?


Die Magie der KI liegt darin, die Anwendungsfälle mit extremem Fokus zu verstehen, in denen sie am hilfreichsten sein kann. Nachdem ich Amazon verlassen hatte, diskutierte ich mit meinem Freund Vlad Panchenko , wie wir uns die Zukunft ausmalten und verschiedene Möglichkeiten entwickelten, wie KI der Menschheit nützen könnte. Nachdem wir eine Zeit lang agentenbasierte Systeme gebaut hatten und dieses Wissen mit Vlads Erfahrung als erfolgreicher Serienunternehmer kombiniert hatten, begannen wir darüber nachzudenken, wie KI-Agenten in Unternehmen eingesetzt werden könnten. Den meisten Unternehmen fehlt der Zugang zu hochrangigen CMOs, COOs und anderen Experten, die für den Erfolg erforderlich sind. KI kann den Zugang zu Intelligenz in einem noch nie dagewesenen Ausmaß demokratisieren. Gemeinsam untersuchten wir die Zerlegung komplexer Geschäftsprozesse in kleine, identifizierbare Aufgaben und betrachteten Agenten als einzelne Bausteine, die zusammengefügt werden und miteinander kommunizieren können. Ich war begeistert von diesem Potenzial, und so entstand Portal AI , angetrieben von der Überzeugung, erstklassige KI-Intelligenz bereitzustellen, um Unternehmen bei ihren täglichen Abläufen – von Marketing bis Logistik – zu unterstützen, damit sie sich auf das Wesentliche konzentrieren können.


Wie wird KI Ihrer Meinung nach die Geschäftsführung verändern?


KI steht kurz davor, das Geschäftsmanagement zu revolutionieren, indem sie wiederkehrende Aufgaben automatisiert und die Entscheidungsfindung verbessert.


Stellen Sie sich vor, Sie hätten einen KI-Partner, der sich um Ihr Marketing, Ihre Logistik und Ihr Personalwesen kümmert, sodass Sie sich auf kreative und strategische Arbeit konzentrieren können. Diese Transformation wird den Zugang zu Expertenwissen demokratisieren und es jedem Unternehmen ermöglichen, auf einem höheren Niveau zu operieren.


Die Fähigkeit der KI, Abläufe zu rationalisieren, wird nicht nur die Effizienz steigern, sondern auch Innovation und Wachstum fördern.


Angesichts der immer ausgefeilteren KI: Was denken Sie über die möglichen Auswirkungen von „Schatten-KI“ auf Bereiche wie Integrität am Arbeitsplatz und Cybersicherheit? Wie können wir diese potenziellen Risiken mindern?


Schatten-KI “ – der unbeabsichtigte und oft versteckte Einsatz von KI – birgt erhebliche Risiken. Wenn Menschen KI beispielsweise verwenden, um die Algorithmen sozialer Medien auszutricksen, wird deutlich, wie KI missbraucht werden kann. Da das Internet mit KI-Inhalten überschwemmt wird, wird die Aufrechterhaltung von Integrität und Sicherheit zu einer Herausforderung. Ethische KI-Forschung muss mit diesen Entwicklungen Schritt halten und Transparenz und robuste Schutzmaßnahmen fördern. Um diesen Risiken zu begegnen, sind ständige Wachsamkeit und adaptive Strategien zum Schutz vor Missbrauch erforderlich.


Wir befinden uns in einer neuen Ära, in der es viele Dinge gibt, die wir wirklich im Hinterkopf behalten und weiter diskutieren müssen.


Angesichts der rasanten Entwicklung dieses Bereichs: Wie bleiben Sie über die neuesten Fortschritte auf dem Laufenden und bewahren Ihr Fachwissen im Bereich KI? Welchen Rat würden Sie jemandem geben, der in diesem schnelllebigen Bereich Fachwissen aufbauen möchte?


Alles bewegt sich und verändert sich so schnell, das ist großartig. Aber das bedeutet auch, dass die Wahrscheinlichkeit groß ist, dass etwas bereits in drei Monaten veraltet, überholt oder einfach altmodisch ist. In diesen schnellen Iterationszyklen ist es unmöglich, einfach ein Buch zu lesen und auf dem neuesten Stand zu sein.


Es gibt führende Köpfe und seriöse Quellen auf diesem Gebiet. Wenn Sie ihnen folgen, bleiben Sie auf dem Laufenden. Um tiefer in die Forschung einzutauchen, abonniere ich relevante Newsletter und Communities auf Plattformen wie Reddit und Twitter/X – und natürlich verwende ich KI, um meine Threads auf Reddit zusammenzufassen.


Für jemanden, der sich im Bereich KI auskennen möchte, gibt es mehrere Möglichkeiten. Wenn Sie Forscher werden möchten, legen Sie ein solides Fundament – KI ist tief in der Mathematik verwurzelt, und während sich Trends ändern, bleibt die zugrundeliegende Mathematik dieselbe.


Insgesamt bin ich ein großer Befürworter von Hackathons. Ich habe schon viele besucht und mehrere organisiert. Und ich habe mir viele Projekte angesehen. Sie sind großartig, wenn man etwas Neues lernen möchte. Wenn ich jedem, egal ob Ingenieur, Produktmanager oder CEO, eines empfehlen sollte, dann wäre es: Geht raus, trefft Leute, die etwas bauen wollen, macht euch die Hände schmutzig und bringt es ins Rollen. Das ist der beste Weg, Dinge wirklich zu verstehen, denn ihr könnt eure Intuition entwickeln und Spaß haben. Bleibt einfach neugierig!


Wenn Sie 20 Jahre in die Zukunft blicken, wie stellen Sie sich die Rolle der KI in unserem täglichen Leben vor? Worauf freuen Sie sich am meisten und welche Aspekte dieser Zukunft sind für Sie am schwierigsten vorherzusagen?


Ich möchte dieses Interview unbedingt in 20 Jahren lesen! KI verändert sich so schnell, dass es schwierig ist vorherzusagen, was in 20 Monaten, geschweige denn in 20 Jahren, passieren wird. Wir befinden uns in einem einzigartigen Moment, in der frühen Phase der Konsolidierung aller menschlichen Intelligenz in einem System, das einen universellen Zugang zu Wissen ermöglicht. Derzeit sind Ressourcen wie Bildung nicht gleichmäßig verteilt, und ich glaube, dass KI hier einen großen Einfluss haben wird, indem sie in vielerlei Hinsicht zu einem universellen Gleichmacher wird.


Und um noch einmal auf Roboter zurückzukommen: Ich glaube, das wird Realität. Wir werden persönliche Roboter haben, die als unsere Assistenten bei uns leben und uns alle Hausarbeiten abnehmen.


Wir werden hyperpersonalisierte Produkte haben – unsere eigenen Tutoren, Trainer und Freunde. Wir haben noch nicht einmal einen Namen für diese Einheiten, aber es passiert bereits.


Eine weitere Sache, die mich begeistert, ist die Beschleunigung der Forschung. Ich bin begeistert von der Aussicht auf das erste mithilfe von KI entwickelte Medikament oder Heilmittel – was für eine schöne Welt das wäre. Ich glaube fest an eine bessere Zukunft und freue mich darauf, alles zu tun, was ich kann, um diese Zukunft zu gestalten.


Ihrem LinkedIn-Profil zufolge sind Sie im Libanon geboren, in der Ukraine aufgewachsen und in Deutschland ausgebildet. Können Sie uns von Ihrem Werdegang erzählen und wie diese unterschiedlichen kulturellen Hintergründe Sie geprägt haben?


Das stimmt! Ich wurde im Libanon geboren, zog als Kind in die Ukraine und wuchs dort auf. Die Ukraine hat mich tief geprägt. Mit 17 zog ich zum Studium nach Deutschland, wo meine Familie später nachzog und meine Karriere begann. Durch das Leben in vielfältigen und gleichermaßen schönen Gesellschaften lernte ich ihre einzigartigen Herausforderungen und Chancen kennen.


Die KI-Forschung ist derzeit auf die englische Sprache ausgerichtet, d. h. die meisten Daten und Systeme werden von und für Englischsprachige entwickelt. Da wir der Meinung sind, dass KI ein universeller Gleichmacher sein sollte, müssen wir jede Sprache berücksichtigen und unterstützen, um eine wirklich universelle KI zu entwickeln. Ich spreche fünf Sprachen und identifiziere mich mit allen – ich bin Libanese, Ukrainerin und Deutsche. Ich bin ein Mensch. Diese Erfahrungen haben mir unschätzbare Einblicke in das gegeben, was uns verbindet und gleichzeitig einzigartig macht, und dieses Wissen trage ich bei all meinen Bemühungen mit mir.