가상 현실(VR)은 우리가 기술과 상호 작용하는 방식에 새로운 지평을 열었습니다. 저는 최근 ChatGPT , Google Speech-to-Text(STT), Amazon Web Services(AWS) Polly를 VR 경험에 통합하는 기술 데모를 통해 이러한 경계를 더욱 확장할 기회를 얻었습니다.
결과?
ChatGPT의 응답을 기반으로 하고 음성 입력 및 출력 기능이 강화된 AI 기반 Ready Player Me 아바타와의 진정한 몰입형 대화형 대화입니다.
이 기술 데모의 개념은 사용자가 ChatGPT를 기반으로 하는 AI 아바타와 현실적인 대화를 나눌 수 있는 가상 공간을 만드는 것이었습니다.
경험을 한 단계 더 끌어올리기 위해 사용자의 음성을 텍스트로 변환하는 음성 입력용 Google STT를 통합했습니다. 그런 다음 이 텍스트는 처리를 위해 마이크로서비스로 전송되고 관련 응답 생성을 위해 ChatGPT로 전달됩니다. 응답이 생성되면 AWS Polly는 TTS(텍스트 음성 변환) 변환에 사용되고 출력은 음성 처리를 위해 아바타로 다시 전송되므로 거의 원활하고 역동적인 대화가 이루어집니다.
이 기술 데모의 뛰어난 기능 중 하나는 립싱크를 켠 상태에서 Ready Player Me 아바타를 통합하는 것입니다. 이는 오디오가 재생될 때 아바타의 입이 음성에 맞춰 움직여 매우 사실적이고 대화형 대화 경험을 제공한다는 것을 의미합니다. 이러한 아바타는 AI의 시각적 표현 역할을 하며 대화에 몰입감과 개인화 계층을 추가합니다.
대화를 흥미롭게 만들기 위해 ChatGPT에 대해 미리 채워진 세 가지 프롬프트 시나리오를 만들었습니다.
첫 번째 시나리오에서 AI는 재무 대리인 역할을 수행하여 재정 및 투자 관리에 대한 조언을 제공합니다.
두 번째 시나리오는 AI가 정신과 의사 역할을 하여 가상 치료와 상담을 제공하는 것입니다.
마지막으로 세 번째 시나리오에서는 AI가 판타지 상인의 페르소나를 맡아 가상 장비와 아이템을 판매합니다.
이러한 시나리오는 금융, 정신 건강, 엔터테인먼트 등 다양한 영역에서 이 기술의 잠재적인 사용 사례를 간략하게 보여줍니다.
충분히 언급되지는 않았지만 신속한 엔지니어링은 그 자체로 하나의 재능입니다. 코드에서 볼 수 있듯이 상황에 맞는 장면을 설정하고 아바타가 캐릭터를 잃지 않도록 하는 것은 복잡할 수 있습니다. 기본적으로 모델이 스크립트를 깨지 않고 현실적으로 유지되도록 해야 합니다. 위의 전체 동영상에서 판타지 상인이 때때로 성격을 깨뜨리고 자신의 감정을 표현하면서 "글쎄, 글쎄, 글쎄"라고 말하는 반복적이고 거의 긴장된 틱을 표시하는 것을 볼 수 있습니다.
이 기술 데모에서는 주로 아트 디렉션을 위해 기성 애니메이션과 모델을 사용했다는 점을 기억하는 것이 중요합니다. 그러나 본격적인 애플리케이션의 경우 긍정적/부정적 애니메이션 톤에 대한 감정 분석이 포함된 말하는 애니메이션, 처리 시간 동안의 필러 애니메이션을 포함하여 사실적인 애니메이션에 투자하면 AI 상호 작용의 신뢰성과 자연성을 향상시킬 수 있습니다. 이를 통해 몰입감이 더욱 향상되고 인간과 같은 대화에 더욱 가까워질 것입니다.
진정한 몰입형 VR 대화 경험을 만드는 데 있어 어려운 점 중 하나는 우리 감각의 한계입니다. 가상 환경에서 우리는 일반적으로 세상을 인식하고 상호 작용하기 위해 시각과 청각에 의존합니다. 이 두 가지 감각이 관여하기 때문에 시나리오의 내용이 이상해 보일 때 극도로 인식됩니다. 가상 세계를 더욱 현실적으로 느껴지게 하고 환경의 초현실적인 특성에서 벗어나려면 실제 환경을 모방하는 믿을 수 있는 환경을 만드는 것이 중요합니다.
시각적 요소는 VR에서 현장감을 조성하는 데 중요한 역할을 합니다. 사실적인 3D 모델을 사용하면 도움이 될 수 있지만 텍스처, 조명, 애니메이션을 사용하면 스타일화된 그래픽으로도 실제 세계처럼 보이고 느껴지는 환경을 만들 수 있습니다. 예를 들어 AI 아바타를 가상 사무실에 배치하는 경우 정확한 사무용 가구, 장식, 조명을 사용하면 사용자가 공감할 수 있는 친숙한 환경을 조성하여 대화가 더욱 실감나게 느껴질 수 있습니다.
소리는 VR 대화에 몰입감을 더해주는 또 다른 핵심 요소입니다. 사용자의 위치와 머리 움직임에 따라 소리의 방향과 강도가 바뀌는 공간 오디오는 현장감을 크게 향상시킬 수 있습니다.
예를 들어, 아바타가 위치한 방향에서 AI 아바타의 음성이 들리면 대화의 현장감이 더해집니다. 하지만 아바타의 소리보다 더 중요한 것은 일상의 백색소음입니다. 어시스턴트가 서류를 우르릉거리는 소리, 밖에서 사람들이 뒤섞이는 소리, 전화기 등의 소리. 이러한 백색 소음 생성 소리는 계산적 사고를 가리는 데 필요하며 사용자의 주의를 산만하게 하고 초현실적인 몰입감을 유지하는 데 도움이 됩니다.
비디오 상호작용의 리플레이를 보면 모두 이상해 보일 것입니다. 환경은 디버그 오버레이용으로 특별히 제작되었으며 모든 배경 백색 잡음이 없었습니다. 현실적인 경험을 만드는 데 집중한다면 내 초점 영역은 다음과 같습니다. 애니메이션, 사운드 디자인, 세트 디자인 및 신속한 엔지니어링. 이것은 중요성의 순서일 것입니다. 신속한 엔지니어링은 AI와 대화할 때 마지막으로 고려할 것입니다. 특히 우물의 경우 다음에 무엇을 말해야 할지 예측하는 것이 얼마나 좋은지 때때로 충격을 줄 수 있습니다. - 시간 제한 애니메이션.
이 기술 데모는 ChatGPT, Google STT 및 AWS Polly를 VR 경험에 통합할 수 있는 엄청난 잠재력을 보여주면서 중요한 윤리적 고려 사항도 제기합니다. 이러한 기술의 개발 및 배포에서는 사용자 데이터가 안전하고 책임감 있게 처리되고 AI 모델이 공정하고 편견 없는 방식으로 훈련되도록 보장하는 것이 우선시되어야 합니다. 이러한 상호 작용이 더욱 널리 사용 가능해짐에 따라 사용자의 개인 정보를 속이기 위해 시뮬레이션된 가상 인간을 만드는 것은 Black Mirror 에피소드에서 나오는 것처럼 보일 수 있지만 빠르게 가능성의 영역으로 다가오고 있습니다.
결론적으로, 이 기술 데모는 AI와 VR 상호 작용의 경계를 허무는 데 있어 중요한 진전을 나타냅니다. ChatGPT, Google STT 및 AWS Polly의 통합을 통해 몰입감 있고 역동적인 대화가 가능해지며 교육, 고객 서비스, 엔터테인먼트와 같은 영역에서 흥미로운 가능성을 열어줍니다. 애니메이션과 AI 기술이 더욱 발전함에 따라 AI 아바타와의 가상 대화가 더욱 자연스럽고 매력적이며 주류가 되는 미래를 기대할 수 있습니다. 이 기술의 잠재력은 엄청나며, 이 기술이 가상 세계에서 AI와의 상호 작용을 어떻게 발전시키고 변화시키는지 지켜보게 되어 매우 기쁩니다.
Sigmund 마이크로서비스용 Github: https://github.com/goldsziggy/sigmund
마이크로서비스용 Docker 파일:
docker run -it -p 8080:8080 --env-file .env matthewzygowicz/ms-sigmund
충분한 관심이 모이면 모든 오픈 소스 자산을 사용하여 코드의 Unity 부분을 오픈 소스로 다시 작성할 수 있습니다.