La realidad virtual (VR) ha abierto nuevas fronteras en la forma en que interactuamos con la tecnología. Recientemente tuve la oportunidad de ampliar esos límites aún más con una demostración técnica que integra ChatGPT , Google Speech-to-Text (STT) y Amazon Web Services (AWS) Polly en una experiencia de realidad virtual.
¿El resultado?
Una conversación verdaderamente inmersiva e interactiva con un avatar Ready Player Me impulsado por IA, impulsado por las respuestas de ChatGPT y enriquecido con capacidades de entrada y salida de voz.
El concepto detrás de esta demostración técnica fue crear una sala virtual donde los usuarios puedan tener conversaciones realistas con un avatar de IA, impulsado por ChatGPT.
Para llevar la experiencia al siguiente nivel, integré Google STT para entrada de voz, que transcribe el discurso del usuario en texto. Luego, este texto se envía a un microservicio para su procesamiento y se reenvía a ChatGPT para generar una respuesta relevante. Una vez que se genera la respuesta, AWS Polly se usa para la conversión de texto a voz (TTS) y la salida se envía de vuelta al avatar para el procesamiento de voz, lo que da como resultado una conversación dinámica y sin problemas.
Una de las características destacadas de esta demostración técnica es la integración de los avatares Ready Player Me, con Lip Sync activado. Esto significa que mientras se reproduce el audio, la boca del avatar se mueve en sincronía con su discurso, creando una experiencia de conversación altamente realista e interactiva. Estos avatares sirven como representación visual de la IA, agregando una capa de inmersión y personalización a la conversación.
Para que las conversaciones fueran interesantes, creé tres escenarios de mensajes precargados para ChatGPT.
En el primer escenario, la IA desempeña el papel de representante financiero y brinda asesoramiento sobre la gestión de las finanzas y las inversiones.
El segundo escenario implica que la IA actúe como psiquiatra, brindando terapia y asesoramiento virtuales.
Por último, en el tercer escenario, la IA asume la personalidad de un comerciante de fantasía que vende equipos y artículos virtuales.
Estos escenarios permiten vislumbrar los posibles casos de uso de esta tecnología en varios dominios, como las finanzas, la salud mental y el entretenimiento.
Aunque no se habla lo suficiente, la ingeniería rápida es un talento por derecho propio. Como puede ver en el código , configurar una escena contextual y asegurarse de que el avatar no pierda carácter puede ser complicado. Esencialmente, debemos asegurarnos de que el modelo no rompa el guión pero siga siendo realista. En los videos completos anteriores, encontrará que el comerciante de fantasía ocasionalmente rompe el carácter y muestra un tic repetitivo, casi nervioso, de decir "bien, bien, bien" mientras vocaliza sus emociones.
Es importante tener en cuenta que esta demostración técnica utilizó principalmente animaciones y modelos listos para usar para la dirección de arte. Sin embargo, para una aplicación completa, invertir en animaciones realistas, incluidas animaciones parlantes con análisis de sentimiento para tonos de animación positivos/negativos y animaciones de relleno durante el tiempo de procesamiento, puede mejorar la credibilidad y la naturalidad de las interacciones de IA. Esto elevará aún más la experiencia inmersiva y la hará más parecida a las conversaciones humanas.
Uno de los desafíos en la creación de una experiencia de conversación de realidad virtual verdaderamente inmersiva son las limitaciones de nuestros sentidos. En entornos virtuales, generalmente confiamos en la vista y el sonido para percibir e interactuar con el mundo. Como estos son los 2 sentidos que están involucrados, eres hiperconsciente cuando algo en un escenario parece estar mal. Para hacer que el mundo virtual parezca más real y distraer la atención de la naturaleza surrealista del entorno, es crucial crear entornos creíbles que imiten los entornos del mundo real.
Las imágenes juegan un papel crucial en la creación de una sensación de presencia en la realidad virtual. El uso de modelos 3D realistas puede ayudar, pero las texturas, la iluminación y las animaciones pueden crear un entorno que se ve y se siente como el mundo real, incluso con gráficos estilizados. Por ejemplo, si el avatar de IA se coloca en una oficina virtual, el uso de muebles de oficina, decoraciones e iluminación precisos puede crear un entorno familiar con el que los usuarios puedan identificarse, haciendo que la conversación se sienta más auténtica.
El sonido es otro elemento clave que se suma a la inmersión en las conversaciones de RV. El audio espacial, donde el sonido cambia de dirección e intensidad según la posición del usuario y los movimientos de la cabeza, puede mejorar enormemente la sensación de presencia.
Por ejemplo, si el usuario escucha la voz del avatar de IA proveniente de la dirección donde se encuentra el avatar, se suma al realismo de la conversación. Sin embargo, aún más importante que el sonido del avatar, es el ruido blanco del día a día. Sonidos de un asistente que revuelve papeles, personas que arrastran los pies afuera, teléfonos, etc. Estos sonidos que generan ruido blanco son necesarios para ayudar a enmascarar cualquier pensamiento de cálculo y ayudarán a distraer al usuario y mantenerlo en una inmersión surrealista.
Al ver las repeticiones de las interacciones de video, todas parecerán apagadas. El entorno se diseñó específicamente para superposiciones de depuración y todo el ruido blanco de fondo estaba ausente. Si tuviera que centrarme en crear una experiencia realista, mis áreas de enfoque incluirían; animaciones, diseño de sonido, escenografía e ingeniería puntual. Este sería el orden de importancia, la ingeniería rápida sería lo último en mis consideraciones, ya que cuando usted es el que habla con la IA, a veces puede sorprenderlo lo bueno que puede ser para predecir lo que debería decir a continuación, especialmente con un pozo. -Animación cronometrada.
Si bien esta demostración técnica muestra el inmenso potencial de integrar ChatGPT, Google STT y AWS Polly en una experiencia de realidad virtual, también plantea importantes consideraciones éticas. Garantizar que los datos de los usuarios se manejen de manera segura y responsable y que los modelos de IA se entrenen de manera justa e imparcial debe ser una prioridad en el desarrollo y despliegue de dichas tecnologías. A medida que estas interacciones se vuelven más disponibles, la creación de humanos virtuales simulados para engañar a los usuarios dispuestos a obtener información personal puede parecer algo sacado de un episodio de Black Mirror, pero está entrando rápidamente en el ámbito de la posibilidad.
En conclusión, esta demostración técnica representa un importante paso adelante para romper los límites en las interacciones de realidad virtual con IA. La integración de ChatGPT, Google STT y AWS Polly permite conversaciones inmersivas y dinámicas, allanando el camino para posibilidades emocionantes en dominios como la educación, el servicio al cliente y el entretenimiento. Con más avances en la animación y las tecnologías de IA, podemos esperar un futuro en el que las conversaciones virtuales con avatares de IA se vuelvan más naturales, atractivas y convencionales. El potencial de esta tecnología es enorme y estoy encantado de ver cómo evoluciona y transforma nuestra interacción con la IA en el mundo virtual.
Github para el microservicio Sigmund: https://github.com/goldsziggy/sigmund
Archivo Docker para Microservicio:
docker run -it -p 8080:8080 --env-file .env matthewzygowicz/ms-sigmund
Si se reúne suficiente interés, puedo volver a escribir la parte de Unity del código utilizando todos los activos de código abierto para abrirlo también.