paint-brush
L'informatique faciale : une brève histoire et l'avenir prometteur du Personal XRpar@ahrwhitford
308 lectures
308 lectures

L'informatique faciale : une brève histoire et l'avenir prometteur du Personal XR

par Archie Whitford12m2023/06/15
Read on Terminal Reader

Trop long; Pour lire

Le lancement par Apple du VisionPro a suscité des réactions mitigées. Cependant, même si les ventes s'effondrent au cours de l'année 1, leur omniprésence sur 10 ans semble presque inévitable. Dans cet article j'explore : - Qu'est-ce qui doit être vrai pour que ces appareils soient utilisés comme l'iPhone est utilisé aujourd'hui ? - Que se passe-t-il une fois que les agents d'IA personnels sont intégrés aux ordinateurs personnels ? - Où est leur argent à faire sur la périphérie du matériel d'Apple.
featured image - L'informatique faciale : une brève histoire et l'avenir prometteur du Personal XR
Archie Whitford HackerNoon profile picture
0-item


Chaque mois de juin, les bros de la technologie, les gestionnaires de portefeuilles de retraite et les fils de discussion Twitter du monde entier tournent les yeux vers Santa Clara alors qu'Apple organise sa conférence annuelle mondiale des développeurs (WWDC, ou « dub-dub »).


Entre autres choses, le dub-dub est surtout connu comme étant le berceau de la quasi-totalité de la suite de technologies grand public omniprésentes d'Apple. L'iPhone, l'iPad, l'Apple Watch et l'Apple TV d'origine et les mises à niveau ultérieures ont tous été lancés lors de l'événement.


Cette année, cette écurie d'appareils grand public est rejointe par un tout nouveau produit pour la première fois depuis 2015. Ce nouveau produit est le VisionPro.



Apple's VisionPro



Il n'y a rien que je puisse vous dire sur le VisionPro ou la vision d'Apple pour l'avenir de la réalité étendue qu'une navigation rapide sur Twitter , LinkedIn ou Internet en général ne peut pas. Le propos de cet article est plutôt d'essayer d'observer :


  1. comment nous sommes arrivés ici ;
  2. pourquoi les gens construisent des ordinateurs pour votre visage et
  3. les nombreux chemins divergents sur lesquels cela peut nous conduire.


Aperçu du contenu

  • XR : un bref historique
  • Les casques d'écoute d'aujourd'hui : Coder de nouveaux mondes
  • La prochaine frontière pour les ordinateurs spatiaux
  • Demandes de startups



XR : un bref historique

Pour les non-initiés, XR fait référence à la réalité étendue - un mélange fourre-tout de réalité augmentée (AR, par exemple Pokemon Go), de réalité virtuelle (VR, par exemple Oculus Rift) et de réalité « R capital » (par exemple Google Street View). La réalité mixte est un autre terme qui existe en grande partie sur la même dimension que la réalité augmentée et sera donc principalement ignoré ici.


La vision moderne de XR commence vers 1935. C'est l'année où Stanley Weinbaum publie les Spectacles de Pygmalion . Dans cette nouvelle, le protagoniste Dan Burke est désillusionné par la réalité dans laquelle il se trouve. Pour y remédier, il chausse une paire de lunettes qui le transporte dans un monde de jeunesse et de bonheur éternels. Le seul hic, c'est qu'il obéit à ses règles (_T&C_s, dans le langage moderne).


A sketch of the fictional Pygmalion's Spectacles. Credit: Matrise



Avance rapide de quelques décennies et nous commençons à voir les premières versions de XR dans des environnements réels. Cela commence par " Sensorama " de Morton Heilig (exclu de la chronologie ci-dessous), une sorte d'expérience cinématographique 4D qui a fourni au spectateur des odeurs et une chaise vibrante en plus des sons et de la vue du film.


La première application militaire de XR est également exclue de la chronologie ci-dessous. En 1961, Philco Headsight est devenu le premier casque doté de la technologie de suivi de mouvement.



Image courtesy of Storyhunter




Bien qu'il ait été abandonné depuis, l'Oculus Rift a été le premier casque à gagner un véritable attrait commercial. Après Oculus, de nombreux grands noms de la technologie se sont joints à l'action. Curieusement, la plupart avaient des visions différentes de la clientèle principale de ces casques.


Le cas d'utilisation dominant attendu pour la plupart était dans les applications de divertissement immersif, plus spécifiquement dans les jeux. Ce fut le chemin suivi par Oculus, Sony via leur PlayStation VR et Meta avec la gamme de produits Meta Quest.


D'autres ont choisi de se concentrer principalement sur l'entreprise. Les premiers pionniers de ce segment comprenaient HTC Vive et Magic Leap. Ces pionniers ont concentré leurs objectifs sur des éléments tels que les plates-formes de collaboration d'entreprise (un peu comme certaines des pièces de métaverse décrites ci-dessous), la formation aux interventions d'urgence et l'éducation médicale.


Ensuite, le cycle de battage médiatique du métaverse . Les entreprises du monde entier ont commencé à imaginer à quoi cela ressemblerait si nous prenions notre environnement de vie mais le rendions *virtuel*. La vision était essentiellement SecondLife , mais cette fois avec moins de porno et plus de travail en entreprise.


Dans le sillage de COVID-19, l'essor du travail à distance a créé un besoin supposé d'environnements numériques collaboratifs. Microsoft a rejoint la fête avec son propre métaverse industriel. Accenture a lancé une division «services métaverses». Facebook a changé son nom en Meta et a commencé à dépenser 1 milliard de dollars par mois pour cette vision, aboutissant à cette brillante présentation .


Je me suis amusé à parcourir le métaverse, mais le cycle de battage médiatique autour de lui a été un moment important pour sensibiliser à l'arrivée de ce qu'Apple appellerait cette semaine l'informatique spatiale. Au fur et à mesure que cet espace évolue, il y a toutes les chances que bon nombre de ces idées reviennent à la mode.



Zuck in Paristan. Credit: Meta



D'autres cas d'utilisation de XR commerciaux variaient du pratique au bénin. Certains d'entre eux commencent à devenir monnaie courante dans les back-ends Web populaires. Vous faites votre choix quant à la description qui correspond à la description ci-dessous :




*Ventes de Magic Leap prises en tant que volume total des ventes divisé par le prix de détail moyen. Chiffres de vente d'Oculus Rift provenant de PC Guide, 2021.



La plupart des appareils existants répertoriés ci-dessus ont tenté d'atteindre une sorte d'équilibre avec les cas d'utilisation qu'ils ciblaient. Le plus réussi à ce jour en termes de ventes, le Meta Quest, l'a fait en se positionnant dur comme appareil de jeu.


Normalement, ce serait une leçon. Cependant, si quelqu'un veut contrer cette tendance, ce serait Apple. Apple dispose d'une large gamme de produits déjà omniprésents (1,6 milliard d'iPhones actifs, pour n'en citer qu'un) qui peuvent et serviront de terminaux secondaires pour les applications VisionPro.


Alors que les démos inaugurales d'Apple pour le VisionPro étaient toutes hébergées dans des environnements de travail, il est plus que probable qu'il finira par être un VR à usage général. Je prévois son rôle comme étant une forme d'augmentation spatiale pour l'écosystème de produits existant d'Apple (par exemple, Maps, FaceTime, Siri et al) car sa vision des ordinateurs change de modalités. Plus d'informations sur d'autres applications potentielles plus loin dans cet article.




Les casques d'écoute d'aujourd'hui : Coder de nouveaux mondes

Calcul spatial

Plutôt que de surfer sur la vague des mots à la mode de la technologie d'aujourd'hui, Apple a utilisé son pouvoir informationnel de création de marché pour en imposer un nouveau à la WWDC.



Bien que cela semble assez intuitif à première vue, approfondissons un peu ce que ce terme peut réellement signifier à l'avenir.


Outre les avantages évidents de la création d'une phrase à la mode, l'utilisation du terme "informatique" semble extrêmement délibérée. Il représente une prochaine étape logique par rapport aux époques précédentes de « l'informatique de bureau » et de « l'informatique mobile ». Tout comme Apple l'a fait avec les générations précédentes d'ordinateurs personnels, il visera à rendre ce concept et cette terminologie omniprésents.


Pour citer Tim Cook de WWDC :


« Dans le futur, vous vous demanderez comment vous meniez votre vie sans réalité augmentée »



Outre le changement de matériel, en quoi l'informatique spatiale est-elle fonctionnellement différente de ses prédécesseurs ?


Le changement immédiat le plus important sera sans doute le passage du travail en 2D au travail en 3D. Des tâches telles que la visualisation, la navigation dans l'espace de travail (c'est-à-dire cliquer et déplacer des éléments) et la collaboration seront toutes activées d'une manière inédite dans les modalités précédentes.


À plus long terme, la conscience contextuelle et l'interconnectivité sont plus susceptibles de prouver les caractéristiques révolutionnaires de l'informatique spatiale.


  • La conscience contextuelle fait référence à la capacité de l'ordinateur à;

    i) adapter les recommandations et notifications existantes au contexte sensoriel de l'utilisateur (c'est-à-dire les recommandations basées sur l'emplacement et les modèles de mouvement, les modifications automatiques des présentations à l'écran en fonction des habitudes de l'utilisateur, etc.) et

    ii) fournir une assistance personnalisée (éventuellement agentique) aux utilisateurs lorsqu'ils accomplissent des tâches en réalité étendue.


  • L'interconnectivité fait référence à la capacité de l'utilisateur à étendre la réalité étendue au-delà de l'appareil. Au-delà du simple travail et de la collaboration sur des interfaces holographiques, les utilisateurs peuvent contrôler et interagir avec d'autres appareils dans leur environnement. Pour prendre un exemple ennuyeux, les utilisateurs peuvent modifier les paramètres de la maison intelligente depuis l'appareil.


À plus long terme, l'interconnectivité peut voir le rôle de Siri en tant qu'assistant virtuel évoluer d'un agrégateur de recherche à commande vocale à un assistant vivant qui peut aider à effectuer des tâches depuis l'appareil en fonction des habitudes et des préférences précédentes de l'utilisateur. Au fur et à mesure que les capacités de base des agents autonomes progressent, la combinaison du réseau de distribution d'Apple et de la familiarité de Siri pourrait en faire la technologie qui tue pour amener en masse des agents personnels dans le monde.


  • Présentation des informations


Credit: Joey Banks on Twitter



Comme mentionné ci-dessus, les démos d'Apple du VisionPro se concentraient presque exclusivement sur les environnements de travail. Ne vous méprenez pas, cette première génération est très orientée vers les travailleurs de l'information. Comment vont-ils l'utiliser ?


Premièrement, il y a un terrain évident et battu. Apple va refaire et reconcevoir toutes les solutions XR d'entreprise que nous avons vues auparavant. Ils fourniront des ressources aux institutions pour former leurs employés, étudiants et dirigeants. Ils fourniront une multitude de solutions d'essai, d'applications de jeu et de solutions de télévision en nuage que nous avons déjà vues.


Un exemple relativement nouveau qui a été présenté dans le cadre du lancement était les interfaces informatiques de style «Minority Report». Au lieu de devoir démarrer un périphérique physique chaque fois que vous souhaitez travailler sur un fichier, accédez-y en un instant depuis n'importe où dans le cloud.


Par où, homme moderne ?



Mais comment cela rend-il l'expérience de base de l'informatique personnelle elle-même différente ?


Quelques premières idées :


  • Moniteurs illimités à tout moment

  • Formes multimodales d'interaction avec le travail d'information (parole, mouvement physique, etc.)

  • Navigation intelligente dans le navigateur grâce au suivi sensoriel (par exemple, œil)

  • Présentations d'écran 3D entièrement personnalisées automatiquement adaptées aux préférences de l'utilisateur

  • Visualisation de données 3D (ennuyeuse mais importante)


Chacun d'entre eux présentera son propre univers d'idées personnalisées qui remplaceront les extensions et les magasins d'applications avant lui.


AppleLM


Crédit à @SullyOmarr sur Twitter



Ce tweet du fondateur de Cognosys AI, Sulaiman Omar, semble prémonitoire. Apple a en effet l'habitude de sacrifier l'avantage du premier arrivé au profit du développement d'un meilleur produit sur une période plus longue. Le VisionPro en est un parfait exemple, étant sorti 13 ans après le premier Oculus Rift disponible dans le commerce.


L'intégration de modèles linguistiques dans ses casques ouvrira un certain nombre de possibilités pour Apple qui ne sont pas disponibles pour les titulaires sans leurs propres LLM propriétaires (remarque : LlaMa de Meta peut les mettre dans le même bateau - Balaji Srinivasan a publié un excellent fil soulignant leur potentiel rôle dans la course à l'informatique spatiale).






Parmi les possibilités que cela peut ouvrir :


  • Expériences de jeu virtuelles formées sur les habitudes réelles des utilisateurs.

  • Requêtes immédiates via le « navigateur » facial.

  • Assistants virtuels agents intégrés au casque et formés aux habitudes des utilisateurs.

  • Moteurs de recommandation spatiale qui recommandent des actions à un moment donné.

  • Traduction en temps réel.

  • Augmentation de l'environnement permettant aux utilisateurs de réorganiser les objets dans leur espace.

  • Création de contenu génératif qui se joue immédiatement lorsque l'utilisateur le prononce.


Mais cela pourrait-il être fait avec plus d'élégance…


La prochaine frontière pour les ordinateurs spatiaux

De nombreux commentateurs ont proclamé la mort de Google Glass en le voyant. Qui voudrait porter un ordinateur sur le visage ? Pourquoi choisiriez-vous de ressembler un peu à un abruti ? Beaucoup ont noté que pas un seul dirigeant d'Apple n'a même essayé un VisionPro dans le cadre du lancement.

Il doit y avoir une meilleure raison pour en mettre un que "parce que tout le monde l'est".





La question clé à long terme devient alors : pourquoi quelqu'un voudrait-il attacher un ordinateur XR à son visage alors que vous pouvez en avoir un dans votre cerveau ?


Le contre classique serait l'idée de « reprojection ». Lorsque tout le monde porte un masque XR, nous pouvons reprojeter des photons pour donner l'impression que personne ne le porte. Parce que la reprojection implique la création de photons entièrement nouveaux, les gens peuvent même se faire paraître complètement différents de ce qu'ils font réellement sans le masque. Cela deviendrait une application tueuse pour la pêche au chat.


Le concept du techno-optimiste de vivre dans la réalité augmentée s'apparente à vivre dans un rêve lucide perpétuel. Masque de sommeil quand vous vous couchez, masque de réalité étendue quand vous en sortez. Examinez la pièce A ci-dessous :


Crédit Dezeen et Apple pour la photographie LHS. Crédit Shaquille O'Neal pour le RHS.



Le paradigme actuel de XR repose sur ces aides exosquelettiques permettant aux utilisateurs de naviguer dans des réalités alternatives. La réalité est que nous sommes déjà si près de ne plus dépendre de ces aides. Entrez dans l'interface cerveau-machine.


IMC

À long terme, la réalité envisagée est susceptible de l'emporter sur toute forme de réalité mixte qui existe aujourd'hui. J'utilise ici le terme de réalité envisagée pour décrire toute forme d'altération de l'environnement qui est ;


a) entièrement personnalisable selon les exigences ou les demandes de l'utilisateur et

b) ne nécessite aucune aide portable.


Le conduit le plus évident pour la réalité envisagée aujourd'hui est les interfaces cerveau-machine (IMC). Pour une introduction plus longue, je ne peux pas recommander l'article de Tim Urban sur les « chapeaux de sorciers pour le cerveau » datant d'aussi loin que 2017.


Les IMC offrent bon nombre des mêmes avantages de "calcul spatial" que des outils tels que le VisionPro, mais sans qu'il soit nécessaire d'attacher un appareil lourd au visage. Les prototypes existants de Neuralink pour les premiers IMC commerciaux impliquent des implants invasifs qui, naturellement, mettent beaucoup de gens mal à l'aise (même si la récompense est une intelligence et une mémoire surhumaines). Qu'en est-il du moment où ceux-ci deviennent moins envahissants, plus accessibles et donc plus acceptables pour le public humain ?

La réalité étendue abonde.



Demandes de startups

  • De meilleurs systèmes de batterie pour les appareils XR d'aujourd'hui. Les mentions de batteries étaient étrangement absentes du lancement inaugural du VisionPro par Apple. C'est moins évident pour les démos et l'utilisation "instantanées" que pour d'autres fonctionnalités de conception telles que les interfaces, le calcul et le poids (comme référencé dans ce fil par Kyle Samani ), mais tout aussi important lorsqu'il est utilisé au quotidien.


  • Infrastructure sociale pour un monde XR. Depuis que les premiers rendez-vous sont passés des cafés aux salons de discussion en ligne, le câblage de base de la façon dont les humains interagissent les uns avec les autres n'a pas été aussi profondément bouleversé. Comment modérer le comportement dans un monde où les gens peuvent se faire passer pour n'importe quoi ? (Remarque : Apple semble déjà travailler sur une forme de protocole de preuve d'identité qui pourrait protéger contre cela). Quel type de contenu devient plus omniprésent lorsque la gamme de méthodes de présentation s'élargit si largement ? Comment les gens se rassemblent-ils en ligne ?


  • Armez les rebelles : outils créatifs pour XR. SecondLife, Minecraft et Roblox ont tous créé des entreprises plus énormes que prévu grâce à des marchés secondaires pour les actifs numériques. Ces marchés ont été activés par des outils créatifs intégrés dans le tissu même des plates-formes elles-mêmes.


Alors qu'aujourd'hui de nombreux développeurs travaillent déjà sur des conceptions pour de nouvelles expériences, etc. pour des casques et des projets de style métavers, comment pouvons-nous rendre ce processus plus accessible pour le profane (plus précisément le Roblocker de 8 ans) pour créer des mondes de leur propre imagination ? Quelle sera la seconde venue de Minecraft pour le paradigme de la réalité augmentée ou de la « réalité envisagée » ?


  • Conceptions d'expériences vécues (c.-à-d. Qualia). Une grande partie de l'attrait de la réalité virtuelle/augmentée/envisagée est l'idée de vivre une vie différente de celle que vous avez actuellement. Tout comme Dan Burke dans Pygmalion's Spectacles, n'importe qui pourra désormais optimiser ses expériences vécues dans des mondes virtuels.


    Dans le cas où de telles technologies deviendraient omniprésentes, cela créerait un marché universel géant pour les qualia - des instances synthétiques d'expérience subjective. La portée de conception est théoriquement infinie. De combien de façons pouvez-vous vivre l'extase pure ? Nostalgie? Le bassin de récompenses pour ceux qui peuvent apporter ce genre d'expériences au monde grâce à une forme de réalité étendue est énorme.


Le développement d'outils permettant aux utilisateurs de capturer ou de développer eux-mêmes ces qualités peut également être sous-estimé. Existe-t-il un marché pour « l'enregistrement » de ses propres expériences vécues à partager avec les autres ? Comment les gens peuvent-ils concevoir de nouvelles expériences à mettre sur le marché et à composer sur d'autres qualia open source ? Comment pouvons-nous fournir des garanties de confidentialité pour les qualia personnels s'ils commencent à être utilisés dans les moteurs de recommandation ?


Pour les curieux, consultez l' Institut de recherche Qualia pour en savoir plus.



  • Marchés de matériel open-source et de logiciels XR. Une chose que XR a encore en commun avec d'autres paradigmes informatiques avant lui est sa nature descendante. Les utilisateurs sont aux caprices d'Apple quant à la façon dont ils souhaitent interagir avec leurs téléphones. S'ils veulent protester contre cela, ils peuvent sélectionner une autre des options déprimantes et limitées du marché. À ce jour, la composabilité et la personnalisation du matériel ont été extrêmement limitées.


    Mais que se passerait-il si nous devions ouvrir le développement des casques eux-mêmes via des laboratoires décentralisés ? Les participants actifs pourraient travailler pour modifier et itérer sur différentes spécifications matérielles selon leurs préférences. Les conceptions modulaires pourraient permettre une personnalisation au niveau du profane. Tout aussi important, ces laboratoires open source n'auraient aucune incitation à créer des systèmes en boucle fermée pour le développement de logiciels. Les développeurs pourraient expérimenter, expédier et déployer du code qui pourrait être disponible pour tous les casques à la vitesse à laquelle ils peuvent le créer.


Un tel développement open source représenterait un changement radical dans la façon dont les gens interagissent avec les logiciels et le matériel. Pour vous inspirer, découvrez l'excellent travail que l'équipe d' Auki Labs fait déjà.


  • Agents d'utilisateurs privés. Lié au point ci-dessus, l'écosystème logiciel descendant d'aujourd'hui signifie que les incitations intégrées aux logiciels ont tendance à être déformées. Plutôt que de tout mettre en œuvre pour l'utilité de l'utilisateur, le marché incite les développeurs à créer des applications sous-optimales qui visent à maximiser des métriques telles que le « temps de session moyen » ou les « taux de clics ».


L'opportunité qu'auraient les studios de développement open source de surpasser les anciennes entreprises technologiques en créant des agents utilisateurs privés en langage naturel qui agiraient comme des assistants fonctionnels pour leurs utilisateurs est immense.


Également publié ici.


L'image principale de cet article a été générée par le générateur d'images AI de HackerNoon via l'invite "Casques de réalité augmentée"