paint-brush
Développer XR avec Oracle Ep 3 : Computer Vision AI, ML et le métaversepar@paulparkinson
180 lectures

Développer XR avec Oracle Ep 3 : Computer Vision AI, ML et le métaverse

par Paul Parkinson2022/04/12
Read on Terminal Reader
Read this story w/o Javascript

Trop long; Pour lire

Il s'agit du troisième article d'une série sur le développement d'applications et d'expériences XR à l'aide d'Oracle et se concentre sur les applications XR de vision par ordinateur AI et ML et son utilisation connexe dans le métaverse.

People Mentioned

Mention Thumbnail

Companies Mentioned

Mention Thumbnail
Mention Thumbnail
featured image - Développer XR avec Oracle Ep 3 : Computer Vision AI, ML et le métaverse
Paul Parkinson HackerNoon profile picture

Il s'agit du troisième article d'une série sur le développement d'applications et d'expériences XR à l'aide d'Oracle et se concentre sur les applications XR de vision par ordinateur AI et ML et son utilisation connexe dans le métaverse.

La première pièce peut être trouvée ici et la deuxième pièce peut être trouvée ici .

Encore une fois, je montrerai spécifiquement les applications développées avec les technologies de base de données et de cloud Oracle, HoloLens 2, Mixed Reality Toolkit et la plate-forme Unity.

Tout au long du blog, je ferai référence à cette vidéo de démonstration correspondante.

https://www.youtube.com/watch?v=40ADd-ALkcc

Réalité étendue (XR), métaverse et HoloLens

Je renverrai le lecteur au premier article de la série pour un aperçu de XR et Hololens.

Le premier blog de cette série était basé sur un atelier de microservices axé sur les données et a démontré un certain nombre d'aspects qui seront présents dans le métaverse, tels que les achats en ligne, en interagissant avec des modèles 3D d'aliments/produits, 3D/espace réel cartes, etc. ainsi que DevOps backend (traçage Kubernetes et OpenTelemetry), etc.


Le deuxième blog était basé sur un certain nombre d' ateliers de graphes et démontrait la visualisation, la création et la manipulation de modèles, de cahiers, de mises en page et de faits saillants pour l'analyse de graphes de propriétés utilisés dans les graphes sociaux, les réseaux de neurones et le secteur financier (par exemple, la détection du blanchiment d'argent ).


Dans ces deux blogs et dans ce troisième blog également, le sujet peut être partagé et activement collaboré, même en temps réel, à distance. Ces types de capacités sont la clé du concept de métaverse et seront développés et étendus à des concepts tels que les doubles numériques dans ces futures pièces.


Ce blog n'abordera pas en profondeur l'IA de vision par ordinateur et se concentrera plutôt sur l'activation XR de celle-ci et sur la base de données et le cloud Oracle.

Capacités et possibilités de la vision par ordinateur avec XR

L'IA de vision par ordinateur offre un certain nombre de fonctionnalités, notamment la classification d'images, la détection d'objets, la détection de texte et l'IA de documents.


J'utilise principalement les Hololens pour démontrer les concepts de cette série car c'est la technologie la plus proche de ce qui sera l'utilisation la plus courante et quotidienne de XR à l'avenir, cependant, les concepts que je montre dans ces blogs peuvent être appliqués dans une mesure ou une autre dans différentes saveurs de XR et d'appareils (et j'en donnerai en effet des exemples dans de futurs blogs).


Une chose que la plupart de ces appareils, sinon tous, ont en commun est une interface visuelle (c'est-à-dire un ordinateur et une caméra) entre l'utilisateur et le monde réel. Intrinsèquement, cela a la capacité de capturer et de traiter les stimuli visuels entourant l'utilisateur et donc le lien entre celui-ci et Computer Vision AI est logique et synergique.


Cela est également vrai pour l'audio et la parole de l'IA, dont je ferai également la démonstration dans un prochain article.

Classification d'images et détection d'objets

Imaginez le potentiel d'aider les personnes ayant une déficience visuelle, la maladie d'Alzheimer, ... en faisant en sorte que l'appareil XR donne un retour audio et visuel contextuel sur son environnement.


La première partie de la vidéo montre la détection d'objets appliquée à XR. Ce sont les étapes impliquées...

  1. Une photo de la vue actuelle de l'utilisateur est prise par l'Hololens (j'utilise pour cela un bouton explicite mais bien sûr, cela pourrait se faire automatiquement, périodiquement, en réaction à une commande vocale, etc.).


  2. Cette image est automatiquement téléchargée dans le magasin d'objets et la base de données Oracle pour une analyse plus approfondie. Ceci en soi est une fonctionnalité pratique pour stocker des données extraites de l'environnement des utilisateurs sans que l'utilisateur ait besoin de lui demander explicitement ou même d'être conscient des diverses informations contextuelles, etc. recueillies.

  3. L'image est ensuite traitée par le service Vision AI et une réponse JSON contenant le nom, la confiance, bondingPolygon normalizedVertices, la catégorisation, etc. est renvoyée à l'Hololens. Voici à quoi ressemblent le traitement d'image et la réponse JSON envoyée à Hololens dans la console cloud Oracle...


  4. L'application Hololens traite ensuite ce JSON, en utilisant les sommets/coordonnées pour recréer les polygones/rectangles et les étiquettes.

  5. L'emplacement de l'utilisateur (c'est-à-dire la caméra du casque Hololens) a été enregistré lorsque la photo initiale a été prise et un raycast est effectué à partir de ce point, à travers les coordonnées des rectangles 2d, et sur le maillage de surface spatiale 3d de la pièce. (Notez que la représentation 2D n'est montrée que dans la démonstration pour illustrer la routine décrite et probablement dans une application réelle, seul le résultat final des cubes spatialement mappés existerait.)

  6. Des cubes 3d sont ensuite créés aux points d'intersection de ces raycasts sur le maillage de surface.

  7. De plus, une fois créées, les étiquettes sont transmises à un programme de synthèse vocale qui prononce le nom de l'objet. Cet audio est également mappé spatialement en 3D.

  8. Cela fournit une technique extrêmement efficace et rapide car une seule image 2D est utilisée pour cartographier la vue d'entrée visuellement et audiblement en 3D et cette cartographie persiste exactement aux mêmes endroits au-delà des redémarrages de Hololens/app. (La précision, etc., pourrait bien sûr être encore améliorée avec plusieurs prises/photos, et capturée automatiquement sans que l'utilisateur ait besoin d'appuyer sur un bouton, etc.)


Imaginez le potentiel d'assistance en cas de déficience visuelle, d'Alzheimer, d'identification d'éléments inconnus et difficiles à isoler, d'analyse de menaces, d'intérêts, etc. en faisant en sorte que l'appareil XR donne un retour audio et visuel contextuel sur son environnement !


Cette information/représentation peut à son tour être partagée dans le métaverse sur n'importe quel nombre d'appareils XR différents (y compris les téléphones de base et les écrans d'ordinateur simples) pour faciliter les doubles numériques, la collaboration, etc. d'une manière très efficace et légère qui tire simultanément parti de les puissantes capacités de la base de données Oracle et/dans le cloud.


IA documentaire

Imaginez utiliser XR et l'IA pour améliorer les interactions sociales et engager des conversations plus significatives DANS LA VRAIE VIE.


La deuxième partie de la vidéo montre l'utilisation du service d'IA de documents, toujours avec la technique de capture de caméra Hololens utilisée dans la première partie de la vidéo, sauf que cette fois le texte de l'image (avec une orientation, une distance, etc. variables) est identifié . Encore une fois, cela peut être utilisé pour aider l'utilisateur à lire, etc. comme dans l'exemple de détection d'objet, et peut également être introduit dans les puissantes capacités ML de la base de données Oracle pour exécuter le traitement sur un nombre quelconque de modèles, de cahiers, etc. Dans ce cas, je numériser des livres. Voici une photo de cette image avec le texte traité, dans la console OCI.

Nous pourrions, comme je l'ai fait dans le premier blog, l'utiliser pour faire des suggestions concernant d'autres livres qui sont liés ou, comme je l'ai fait dans le deuxième blog, faire une analyse graphique pour trouver des corrélations et des points communs. Dans cet exemple particulier, cependant, j'ai transmis le texte à un certain nombre de modèles de conversation GPT-3 qui renvoient ensuite une réponse conversationnelle. Cette réponse, ou encore toute information provenant de divers modèles, peut être donnée à l'utilisateur pour, par exemple, engager une conversation avec le propriétaire des livres.

Bien sûr, cela ne se limite pas aux livres ou aux conversations. Les possibilités sont vraiment infinies en ce qui concerne l'utilisation de cette combinaison de XR et la fourniture à l'utilisateur d'informations et d'analyses sur l'environnement dans lequel il se trouve (ce que la technologie Oracle permet parfaitement).


Je peux aussi imaginer que l'utilisateur fait de la publicité ou "porte" des informations sur lui-même de la même manière qu'il porte des vêtements, etc., mais d'une manière potentiellement plus complexe et véhiculante (signifiant "mode" dans les deux sens du mot et signifiant "sens" dans les deux sens). définitions de ce mot). Le métaverse regorge de discussions sur les entreprises qui trouvent de nouvelles façons de faire de la publicité et d'interagir dans un monde virtuel. Les utilisateurs devraient être au moins aussi habilités à s'exprimer et à le faire dans le monde réel.

Pensées supplémentaires

J'ai donné quelques idées et exemples sur la façon dont la vision par ordinateur AI et XR peuvent être utilisées ensemble. J'ai hâte de publier bientôt plus de blogs sur ce sujet et d'autres domaines de XR avec Oracle Cloud et Database.


Veuillez consulter les articles que je publie sur HackerNoon pour plus d'informations sur le cloud XR et Oracle et la base de données convergée ainsi que sur divers sujets concernant les microservices, l'observabilité, le traitement des transactions, etc. N'hésitez pas également à me contacter pour toute question ou suggestion de nouveaux blogs. et des vidéos car je suis très ouvert aux suggestions. Merci d'avoir lu et regardé.


Également publié sur le site officiel d'Oracle .