Virtual Reality (VR) hat neue Grenzen für die Art und Weise eröffnet, wie wir mit Technologie interagieren. Kürzlich hatte ich die Gelegenheit, diese Grenzen mit einer Tech-Demo, die ChatGPT , Google Speech-to-Text (STT) und Amazon Web Services (AWS) Polly in ein VR-Erlebnis integriert, noch weiter zu verschieben.
Das Ergebnis?
Ein wirklich immersives und interaktives Gespräch mit einem KI-gestützten Ready Player Me-Avatar, gesteuert durch die Antworten von ChatGPT und angereichert mit Spracheingabe- und -ausgabefunktionen.
Das Konzept hinter dieser Tech-Demo bestand darin, einen virtuellen Raum zu schaffen, in dem Benutzer realistische Gespräche mit einem KI-Avatar führen können, unterstützt von ChatGPT.
Um das Erlebnis auf die nächste Stufe zu heben, habe ich Google STT für die Spracheingabe integriert, das die Sprache des Benutzers in Text umwandelt. Dieser Text wird dann zur Verarbeitung an einen Mikrodienst gesendet und an ChatGPT weitergeleitet, um eine relevante Antwort zu generieren. Sobald die Antwort generiert ist, wird AWS Polly für die Text-zu-Sprache-Konvertierung (TTS) verwendet und die Ausgabe wird zur Sprachverarbeitung an den Avatar zurückgesendet, was zu einer größtenteils nahtlosen und dynamischen Konversation führt.
Eines der herausragenden Features dieser Tech-Demo ist die Integration von Ready Player Me-Avataren mit aktivierter Lippensynchronisation. Das bedeutet, dass sich der Mund des Avatars während der Audiowiedergabe synchron mit seiner Sprache bewegt, wodurch ein äußerst realistisches und interaktives Gesprächserlebnis entsteht. Diese Avatare dienen als visuelle Darstellung der KI und verleihen dem Gespräch eine Ebene der Immersion und Personalisierung.
Um die Gespräche spannend zu gestalten, habe ich drei vorab ausgefüllte Eingabeaufforderungsszenarien für ChatGPT erstellt.
Im ersten Szenario übernimmt die KI die Rolle eines Finanzvertreters und gibt Ratschläge zur Verwaltung von Finanzen und Investitionen.
Im zweiten Szenario fungiert die KI als Psychiater und bietet virtuelle Therapie und Beratung an.
Im dritten Szenario schließlich übernimmt die KI die Rolle eines Fantasy-Händlers, der virtuelle Ausrüstung und Gegenstände verkauft.
Diese Szenarien bieten einen Einblick in die potenziellen Anwendungsfälle dieser Technologie in verschiedenen Bereichen wie Finanzen, psychische Gesundheit und Unterhaltung.
Obwohl nicht genug darüber gesprochen wird, ist Prompt Engineering ein eigenständiges Talent. Wie Sie im Code sehen können, kann es kompliziert sein, eine kontextbezogene Szene einzurichten und sicherzustellen, dass der Avatar nicht seinen Charakter verliert. Im Wesentlichen müssen wir sicherstellen, dass das Modell nicht gegen das Drehbuch verstößt, sondern realistisch bleibt. In den vollständigen Videos oben können Sie erkennen, dass der Fantasy-Händler gelegentlich aus seiner Rolle ausbricht und einen wiederholten, fast nervösen Tick zeigt, indem er „Na ja, na ja“ sagt, während er seine Gefühle zum Ausdruck bringt.
Es ist wichtig zu beachten, dass bei dieser Tech-Demo hauptsächlich handelsübliche Animationen und Modelle für die künstlerische Leitung verwendet wurden. Bei einer vollwertigen Anwendung kann jedoch die Investition in realistische Animationen, einschließlich Sprechanimationen mit Stimmungsanalyse für positive/negative Animationstöne und Füllanimationen während der Verarbeitungszeit, die Glaubwürdigkeit und Natürlichkeit der KI-Interaktionen verbessern. Dadurch wird das immersive Erlebnis noch intensiver und ähnelt eher menschenähnlichen Gesprächen.
Eine der Herausforderungen bei der Schaffung eines wirklich immersiven VR-Gesprächserlebnisses sind die Einschränkungen unserer Sinne. In virtuellen Umgebungen verlassen wir uns normalerweise auf Bild und Ton, um die Welt wahrzunehmen und mit ihr zu interagieren. Da dies die beiden Sinne sind, die aktiviert werden, sind Sie überempfindlich, wenn in einem Szenario etwas nicht stimmt. Damit sich die virtuelle Welt realer anfühlt und von der surrealen Natur der Umgebung ablenkt, ist es entscheidend, glaubwürdige Umgebungen zu schaffen, die reale Umgebungen nachahmen.
Visuelle Elemente spielen eine entscheidende Rolle bei der Schaffung eines Gefühls der Präsenz in VR. Die Verwendung realistischer 3D-Modelle kann hilfreich sein, aber Texturen, Beleuchtung und Animationen können eine Umgebung schaffen, die auch mit stilisierten Grafiken wie die reale Welt aussieht und sich anfühlt. Wenn der KI-Avatar beispielsweise in einem virtuellen Büro platziert wird, kann durch die Verwendung präziser Büromöbel, Dekorationen und Beleuchtung eine vertraute Umgebung geschaffen werden, mit der sich Benutzer identifizieren können, wodurch sich das Gespräch authentischer anfühlt.
Ton ist ein weiteres Schlüsselelement, das zum Eintauchen in VR-Gespräche beiträgt. Räumlicher Klang, bei dem der Klang je nach Position und Kopfbewegung des Benutzers seine Richtung und Intensität ändert, kann das Gefühl der Präsenz deutlich verstärken.
Wenn der Benutzer beispielsweise die Stimme des KI-Avatars aus der Richtung hört, in der sich der Avatar befindet, erhöht dies den Realismus des Gesprächs. Noch wichtiger als der Klang des Avatars ist jedoch das weiße Rauschen des Alltags. Geräusche von einem Assistenten, der Papiere rumpelt, von Menschen, die draußen schlurfen, von Telefonen usw. Diese Geräusche, die weißes Rauschen erzeugen, sind notwendig, um jegliches rechnerische Denken zu überdecken, und tragen dazu bei, den Benutzer abzulenken und ihn in ein surreales Eintauchen zu versetzen.
Wenn man sich die Wiederholungen der Videointeraktionen ansieht, werden sie alle komisch wirken. Die Umgebung wurde speziell für Debug-Overlays entwickelt und es gab kein weißes Hintergrundrauschen. Wenn ich mich darauf konzentrieren würde, ein realistisches Erlebnis zu schaffen, wären meine Schwerpunkte: Animationen, Sounddesign, Bühnenbild und prompte Technik. Dies wäre die Reihenfolge der Wichtigkeit, schnelles Engineering würde in meinen Überlegungen an letzter Stelle stehen, denn wenn Sie derjenige sind, der mit der KI spricht, kann es Sie manchmal schockieren, wie gut sie vorhersagen kann, was sie als nächstes sagen sollte, insbesondere bei einem Brunnen Zeitgesteuerte Animation.
Während diese Tech-Demo das immense Potenzial der Integration von ChatGPT, Google STT und AWS Polly in ein VR-Erlebnis zeigt, wirft sie auch wichtige ethische Überlegungen auf. Bei der Entwicklung und dem Einsatz solcher Technologien sollte die Sicherstellung eines sicheren und verantwortungsvollen Umgangs mit Benutzerdaten und einer fairen und unvoreingenommenen Schulung von KI-Modellen Vorrang haben. Da diese Interaktionen zunehmend verfügbar werden, mag die Schaffung simulierter virtueller Menschen, um willigen Benutzern persönliche Informationen zu entlocken, wie etwas aus einer Episode von Black Mirror erscheinen, rückt aber schnell in den Bereich des Möglichen.
Zusammenfassend lässt sich sagen, dass diese Tech-Demo einen bedeutenden Schritt vorwärts bei der Überwindung von Grenzen bei VR-Interaktionen mit KI darstellt. Die Integration von ChatGPT, Google STT und AWS Polly ermöglicht immersive und dynamische Gespräche und ebnet den Weg für spannende Möglichkeiten in Bereichen wie Bildung, Kundenservice und Unterhaltung. Mit weiteren Fortschritten bei Animations- und KI-Technologien können wir eine Zukunft erwarten, in der virtuelle Gespräche mit KI-Avataren natürlicher, ansprechender und allgemeiner werden. Das Potenzial dieser Technologie ist enorm und ich bin begeistert zu sehen, wie sie unsere Interaktion mit KI in der virtuellen Welt weiterentwickelt und verändert.
Github für Sigmund Microservice: https://github.com/goldsziggy/sigmund
Docker-Datei für Microservice:
docker run -it -p 8080:8080 --env-file .env matthewzygowicz/ms-sigmund
Wenn genügend Interesse besteht, kann/werde ich den Unity-Teil des Codes unter Verwendung aller Open-Source-Assets neu schreiben, um ihn ebenfalls als Open-Source-Version bereitzustellen.