paint-brush
使用 Oracle 开发 XR 第 3 集:计算机视觉 AI、ML 和元界经过@paulparkinson
180 讀數

使用 Oracle 开发 XR 第 3 集:计算机视觉 AI、ML 和元界

经过 Paul Parkinson2022/04/12
Read on Terminal Reader
Read this story w/o Javascript

太長; 讀書

这是使用 Oracle 开发 XR 应用程序和体验系列的第三篇,重点介绍计算机视觉 AI 和 ML 的 XR 应用程序及其在元界中的相关使用。

People Mentioned

Mention Thumbnail

Companies Mentioned

Mention Thumbnail
Mention Thumbnail
featured image - 使用 Oracle 开发 XR 第 3 集:计算机视觉 AI、ML 和元界
Paul Parkinson HackerNoon profile picture

这是使用 Oracle 开发 XR 应用程序和体验系列的第三篇,重点介绍计算机视觉 AI 和 ML 的 XR 应用程序及其在元界中的相关使用。

第一件可以在这里找到第二件可以在这里找到

同样,我将专门展示使用 Oracle 数据库和云技术、HoloLens 2、混合现实工具包和 Unity 平台开发的应用程序。

在整个博客中,我将参考这个相应的演示视频。

https://www.youtube.com/watch?v=40ADd-ALkcc

扩展现实 (XR)、元界和 HoloLens

我将向读者推荐该系列的第一篇文章,以了解 XR 和 Hololens 的概述。

本系列的第一篇博客基于数据驱动的微服务研讨会,并通过与食品/产品的 3d 模型、3d/空间现实世界的交互,展示了元节中将出现的许多方面,例如在线购物地图等以及后端 DevOps(Kubernetes 和 OpenTelemetry 跟踪)等。


第二篇博客基于一些图表研讨会,展示了模型、笔记本、布局和亮点的可视化、创建和操作,用于社交图表、神经网络和金融部门(例如,洗钱检测)中使用的属性图分析)。


在这两个博客和第三个博客中,主题可以共享和积极协作,甚至可以实时远程协作。这些类型的能力是元宇宙概念的关键,并且将在这些未来的作品中扩展并扩展到诸如数字替身等概念。


本博客不会深入探讨计算机视觉 AI,而是专注于它的 XR 支持以及 Oracle 数据库和云。

XR 计算机视觉的能力和可能性

计算机视觉 AI 提供了许多功能,包括图像分类、对象检测、文本检测和文档 AI。


我主要使用 Hololens 来演示本系列中的概念,因为它是最接近未来 XR 最常见和日常使用的技术,但是,我在这些博客中展示的概念可以在一定程度上应用在不同风格的 XR 和设备中(事实上,我将在以后的博客中给出这样的例子)。


大多数(如果不是全部)这些设备的共同点是用户和现实世界之间的视觉界面(即计算机和相机)。从本质上讲,它具有捕获和处理用户周围视觉刺激的能力,因此它与计算机视觉 AI 之间的联系是一种合乎逻辑且协同的联系。


AI 音频和语音也是如此,我也将在未来的文章中进行演示。

图像分类和目标检测

想象一下,通过让 XR 设备提供有关周围环境的上下文音频和视觉反馈,帮助那些患有视力障碍、阿尔茨海默氏症的人的潜力。


视频的第一部分展示了应用于 XR 的对象检测。这些是涉及的步骤...

  1. Hololens 会拍摄用户当前视图的照片(我为此使用了一个明确的按钮,但当然,它可以自动、定期地、响应语音命令等)。


  2. 此图像会自动上传到 Oracle 对象存储和数据库以供进一步分析。这本身就是一个方便的功能,用于存储从用户周围环境中检索到的数据,而用户无需明确指示或什至意识到正在收集的各种上下文等信息。

  3. 然后,图像由 Vision AI 服务处理,并将包含名称、置信度、bondingPolygon normalizedVertices、分类等的 JSON 响应返回给 Hololens。这是发送到 Hololens 的图像处理和 JSON 响应在 Oracle 云控制台中的样子......


  4. Hololens 应用程序然后处理此 JSON,使用顶点/坐标重新创建多边形/矩形和标签。

  5. 拍摄初始照片时会保存用户的位置(即 Hololens 耳机相机),并从该点进行射线投射,通过 2d 矩形的坐标,并投射到房间的 3d 空间表面网格上。 (请注意,二维表示仅在演示中显示,以说明所描述的例程,并且可能在实际应用程序中,仅存在空间映射立方体的最终结果。)

  6. 然后在表面网格上这些射线投射的交点处创建 3d 立方体。

  7. 此外,一旦创建,标签就会被输入到一个语音到文本的程序中,该程序会说出对象的名称。该音频也是 3D 空间映射的。

  8. 这提供了一种极其高效和快速的技术,因为单个 2d 图像用于在 3d 中以视觉和听觉方式映射进入视图,并且这种映射在 Hololens/应用程序重新启动后仍然存在于完全相同的位置。 (准确性等当然可以通过多次拍摄/照片进一步提高,并自动捕获,无需用户按下按钮等)


想象一下,通过让 XR 设备提供有关周围环境的上下文音频和视觉反馈,帮助解决视力障碍、阿尔茨海默氏症、识别未知和难以隔离的项目、分析威胁、兴趣等的潜力!


反过来,这些信息/表示可以在任意数量的不同 XR 设备(包括基本手机和简单的计算机显示器)中共享,以非常有效和轻量级的方式促进数字替身、协作等,同时利用Oracle 数据库和/在云中的强大功能。


文档 AI

想象一下,在现实生活中使用 XR 和 AI 来增强社交互动并参与更有意义的对话。


视频的第二部分展示了文档 AI 服务的使用,同样使用了视频第一部分中使用的 Hololens 相机捕获技术,但这次识别图片中的文本(具有不同的方向、距离等) .同样,这可以用于帮助用户阅读等,如对象检测示例,也可以输入到 Oracle 数据库强大的 ML 功能中,以对任意数量的模型、笔记本等运行处理。在这种情况下,我扫描书籍。这是在 OCI 控制台中处理文本的那张图片的照片。

我们可以像我在第一篇博客中所做的那样,使用它来就其他相关书籍提出建议,或者像我在第二篇博客中所做的那样,进行一些图形分析以找出相关性和共性。然而,在这个特定的示例中,我将文本输入到许多 GPT-3 对话模型中,然后这些模型会反馈对话响应。该响应,或者来自各种模型的任何信息,可以提供给用户,例如,与书籍的所有者进行对话。

这当然不限于书籍或对话。就使用这种 XR 组合并为用户提供有关他们所处环境的信息和分析而言,可能性确实是无穷无尽的(Oracle 技术完美地实现了这一点)。


我还可以想象用户广告或“穿着”关于他们自己的信息,就像他们穿着衣服等一样,但可能更复杂,传达时尚(在这个词的两个意义上都意味着“时尚”,在这两个方面都意味着“感官”该词的定义)。元宇宙充满了关于公司寻找新方法在虚拟世界中做广告和互动的讨论。用户至少应该有权表达自己并在现实世界中这样做。

额外的想法

我已经给出了一些关于如何将计算机视觉 AI 和 XR 结合使用的想法和示例。我期待很快发布更多关于此主题以及 XR 与 Oracle 云和数据库的其他领域的博客。


请参阅我在 HackerNoon 上发表的文章,了解有关 XR 和 Oracle 云和融合数据库的更多信息,以及有关微服务、可观察性、事务处理等的各种主题。另外,如有任何新博客的问题或建议,请随时与我联系和视频,因为我非常愿意接受建议。感谢您的阅读和观看。


也发布在甲骨文的官方网站上