paint-brush
与 AI 化身的沉浸式 VR 对话:集成 ChatGPT、Google STT 和 AWS Polly经过@neighborlynook
4,555 讀數
4,555 讀數

与 AI 化身的沉浸式 VR 对话:集成 ChatGPT、Google STT 和 AWS Polly

经过 Matthew Zygowicz5m2023/04/19
Read on Terminal Reader

太長; 讀書

ChatGPT 在 VR 体验中使用 Google Speech-to-Text (STT) 和 Amazon Web Services (AWS) Polly。结果是与 AI 支持的 Ready Player Me 化身进行真正身临其境的交互式对话,由 ChatGPT 的响应驱动并丰富了语音输入和输出功能。
featured image - 与 AI 化身的沉浸式 VR 对话:集成 ChatGPT、Google STT 和 AWS Polly
Matthew Zygowicz HackerNoon profile picture
0-item


虚拟现实 (VR) 开辟了我们与技术互动的新领域。我最近有机会通过在 VR 体验中集成ChatGPT谷歌语音转文本 (STT) 和亚马逊网络服务 (AWS) Polly 的技术演示进一步突破这些界限。


结果?


与 AI 支持的 Ready Player Me 化身进行真正身临其境的交互式对话,由 ChatGPT 的响应驱动,并丰富了语音输入和输出功能。


游戏循环





这个技术演示背后的概念是创建一个虚拟房间,用户可以在其中与由 ChatGPT 提供支持的人工智能化身进行逼真的对话。


为了将体验提升到一个新的水平,我集成了用于语音输入的 Google STT,它将用户的语音转录为文本。然后将此文本发送到微服务进行处理,并转发到 ChatGPT 以生成相关响应。生成响应后,AWS Polly 将用于文本到语音 (TTS) 转换,并将输出发送回头像进行语音处理,从而实现几乎无缝的动态对话。



与动画交谈的数字化身




该技术演示的突出特点之一是集成了 Ready Player Me 头像,并启用了 Lip Sync。这意味着当音频播放时,化身的嘴巴会随着他们的讲话同步移动,从而创造出高度逼真的互动对话体验。这些化身作为 AI 的视觉表现,为对话增添了一层沉浸感和个性化。


为了让对话更吸引人,我为 ChatGPT 创建了三个预填充的提示场景。


在第一种情况下,人工智能扮演财务代表的角色,提供有关财务和投资管理的建议。



第二种情况涉及人工智能充当精神科医生,提供虚拟治疗和咨询。


最后,在第三个场景中,AI 扮演幻想商人的角色,销售虚拟装备和物品。



这些场景让我们得以一窥这项技术在金融、心理健康和娱乐等各个领域的潜在用例。


尽管谈论得不够多,但提示工程本身就是一种人才。正如您在代码中看到的那样,设置上下文场景并确保化身不会丢失角色可能会很复杂。从本质上讲,我们需要确保模型不会破坏脚本,但仍然是现实的。从上面的完整视频中,您会发现 Fantasy 商人偶尔会打破性格,并在表达情绪时表现出一种重复的、几乎是紧张的滴答声,说“好、好、好”。


为沉浸式 VR 对话创造可信的环境

请务必注意,此技术演示主要使用现成的动画和模型作为艺术指导。然而,对于成熟的应用程序,投资于逼真的动画,包括带有积极/消极动画音调情感分析的谈话动画,以及处理期间的填充动画,可以增强 AI 交互的可信度和自然度。这将进一步提升身临其境的体验,使其更类似于类人对话。


创造真正身临其境的 VR 对话体验的挑战之一是我们感官的局限性。在虚拟环境中,我们通常依靠视觉和声音来感知世界并与之互动。由于这些是参与的 2 种感官,当场景中的某些东西看起来不对劲时,你会非常敏感。为了让虚拟世界感觉更真实并分散人们对环境超现实本质的注意力,创建模仿真实世界环境的可信环境至关重要。


视觉效果在 VR 中营造临场感方面起着至关重要的作用。使用逼真的 3D 模型可能会有所帮助,但纹理、光照和动画可以创建一个看起来和感觉起来都像真实世界的环境,即使使用风格化的图形也是如此。例如,如果人工智能化身被放置在一个虚拟办公室中,使用准确的办公家具、装饰品和灯光可以创造一个用户可以产生共鸣的熟悉环境,让对话感觉更真实。


声音是增加 VR 对话沉浸感的另一个关键因素。空间音频,声音根据用户的位置和头部运动改变方向和强度,可以极大地增强临场感。


例如,如果用户听到人工智能化身的声音从化身所在的方向传来,就会增加对话的真实感。然而,比化身的声音更重要的是日常的白噪声。助理翻阅文件的声音、人们在外面洗牌的声音、电话等。这些产生白噪声的声音对于帮助掩盖任何计算思维是必要的,并且有助于分散用户的注意力并让他们保持超现实的沉浸感。


看视频互动的回放,都会显得不对劲。环境是专门为调试覆盖而设计的,并且没有所有背景白噪声。如果我要专注于创造逼真的体验,我的重点领域将包括:动画、声音设计、布景设计和提示工程。这将是重要性的顺序,提示工程在我的考虑中将排在最后,因为当你与 AI 交谈时,它有时会让你震惊,它在预测接下来应该说什么方面有多好,尤其是在井- 定时动画。


结语——迎接未来

虽然这个技术演示展示了在 VR 体验中集成 ChatGPT、Google STT 和 AWS Polly 的巨大潜力,但它也引发了重要的道德考虑。确保用户数据得到安全和负责任的处理,人工智能模型以公平和公正的方式进行训练,应在此类技术的开发和部署中优先考虑。随着这些交互变得越来越广泛,创建模拟虚拟人以从自愿用户那里骗取个人信息可能看起来像是黑镜中的一集,但很快就会成为可能。


总而言之,该技术演示代表了在打破 VR 与 AI 交互界限方面向前迈出的重要一步。 ChatGPT、Google STT 和 AWS Polly 的集成可实现身临其境的动态对话,为教育、客户服务和娱乐等领域的激动人心的可能性铺平道路。随着动画和人工智能技术的进一步进步,我们可以期待未来与人工智能化身的虚拟对话变得更加自然、引人入胜和成为主流。这项技术的潜力是巨大的,我很高兴看到它如何发展和改变我们在虚拟世界中与人工智能的互动。


链接:

Sigmund 微服务的 Github: https://github.com/goldsziggy/sigmund


微服务的 Docker 文件:

 docker run -it -p 8080:8080 --env-file .env matthewzygowicz/ms-sigmund


如果收集到足够的兴趣,我可以/将使用所有开源资产重写代码的 Unity 部分,并将其开源。