paint-brush
Facial Computing: Eine kurze Geschichte und die vielversprechende Zukunft von Personal XRvon@ahrwhitford
308 Lesungen
308 Lesungen

Facial Computing: Eine kurze Geschichte und die vielversprechende Zukunft von Personal XR

von Archie Whitford12m2023/06/15
Read on Terminal Reader
Read this story w/o Javascript

Zu lang; Lesen

Die Einführung des VisionPro durch Apple hat gemischte Reaktionen hervorgerufen. Doch selbst wenn die Verkaufszahlen im ersten Jahr einbrechen, scheint die 10-Jahres-Allgegenwart fast unvermeidlich zu sein. In diesem Artikel untersuche ich Folgendes: - Was muss wahr sein, damit diese Geräte so genutzt werden können, wie das iPhone heute genutzt wird? - Was passiert, wenn persönliche KI-Agenten in Personalcomputer integriert werden? - Wo soll ihr Geld mit der Peripherie von Apples Hardware verdient werden?

People Mentioned

Mention Thumbnail
Mention Thumbnail
featured image - Facial Computing: Eine kurze Geschichte und die vielversprechende Zukunft von Personal XR
Archie Whitford HackerNoon profile picture
0-item


Jedes Jahr im Juni richten Tech-Brüder, Rentenportfoliomanager und Twitter-Threadbois auf der ganzen Welt ihren Blick auf Santa Clara, wenn Apple seine jährliche Worldwide Developer Conference (WWDC oder „Dub-Dub“) veranstaltet.


Unter anderem ist Dub-Dub vor allem als Geburtsort fast aller allgegenwärtigen Verbrauchertechnologien von Apple bekannt. Auf der Veranstaltung wurden das Original-iPhone, das iPad, die Apple Watch und das Apple TV sowie nachfolgende Upgrades vorgestellt.


In diesem Jahr wird diese Reihe von Verbrauchergeräten zum ersten Mal seit 2015 durch ein völlig neues Produkt ergänzt. Dieses neue Produkt ist VisionPro.



Apple's VisionPro



Es gibt nichts, was ich Ihnen über VisionPro oder Apples Vision für die Zukunft der erweiterten Realität sagen kann, was ein kurzer Blick auf Twitter , LinkedIn oder das Internet im Allgemeinen nicht kann. Der Sinn dieses Artikels besteht stattdessen darin, Folgendes zu beobachten:


  1. wie wir hierher gekommen sind;
  2. Warum Menschen Computer für Ihr Gesicht bauen und
  3. die vielen unterschiedlichen Wege, auf die uns dies führen kann.


Inhaltsübersicht

  • XR: Eine kurze Geschichte
  • Headsets Today: Neue Welten programmieren
  • Die nächste Grenze für räumliche Computer
  • Anfragen für Startups



XR: Eine kurze Geschichte

Für Uneingeweihte bezieht sich XR auf erweiterte Realität – eine Sammelmischung aus erweiterter Realität (AR, z. B. Pokemon Go), virtueller Realität (VR, z. B. Oculus Rift) und „Capital R“-Realität (z. B. Google Street View). Mixed Reality ist ein weiterer Begriff, der weitgehend in der gleichen Dimension wie AR existiert und daher hier größtenteils ignoriert wird.


Die moderne Vision für XR beginnt um 1935. In diesem Jahr veröffentlichte Stanley Weinbaum „Pygmalions Brillen“ . In dieser Kurzgeschichte ist der Protagonist Dan Burke desillusioniert von der Realität, in der er sich befindet. Um dem abzuhelfen, setzt er eine Brille auf, die ihn in eine Welt ewiger Jugend und Glück entführt. Der einzige Haken ist, dass er sich an die Regeln (im modernen Sprachgebrauch „AGB“) hält.


A sketch of the fictional Pygmalion's Spectacles. Credit: Matrise



Ein paar Jahrzehnte später sehen wir die ersten Versionen von XR in realen Umgebungen. Dies beginnt mit Morton Heiligs „ Sensorama “ (von der Zeitleiste unten ausgeschlossen), einer Art 4D-Kinoerlebnis, das dem Zuschauer zusätzlich zu den Geräuschen und dem Anblick des Films Gerüche und einen vibrierenden Stuhl bietet.


Ebenfalls aus der Zeitleiste unten ausgeschlossen ist die erste militärische Anwendung von XR. Im Jahr 1961 war Philco Headsight das erste Headset mit Motion-Tracking-Technologie.



Image courtesy of Storyhunter




Obwohl die Produktion inzwischen eingestellt wurde, war das Oculus Rift das erste Headset, das wirklich kommerziell attraktiv wurde. Nach Oculus schlossen sich viele bekannte Namen der großen Technologieunternehmen der Aktion an. Kurioserweise hatten die meisten unterschiedliche Vorstellungen davon, wer der Hauptkundenstamm für diese Headsets sein würde.


Der vorherrschende erwartete Anwendungsfall waren für die meisten immersive Unterhaltungsanwendungen, genauer gesagt Spiele. Diesem Weg folgten Oculus, Sony mit ihrer PlayStation VR und Meta mit der Meta Quest-Produktlinie.


Andere entschieden sich dafür, sich vorwiegend auf Unternehmen zu konzentrieren. Zu den ersten Pionieren in diesem Segment gehörten HTC Vive und Magic Leap. Diese Pioniere konzentrierten ihre Ziele auf Dinge wie Unternehmenskollaborationsplattformen (ähnlich wie einige der unten beschriebenen Metaverse-Stücke), Notfallschulungen und medizinische Ausbildung.


Dann der Metaverse- Hype-Zyklus. Unternehmen auf der ganzen Welt begannen sich vorzustellen, wie es aussehen würde, wenn wir unsere Lebensumgebung übernehmen, sie aber *virtuell* machen würden. Die Vision war im Wesentlichen SecondLife , aber dieses Mal mit weniger Pornos und mehr Unternehmensarbeitskram.


Im Zuge von COVID-19 führte die Zunahme der Fernarbeit zu einem vermeintlichen Bedarf an kollaborativen digitalen Umgebungen. Microsoft schloss sich der Partei mit seinem eigenen industriellen Metaversum an. Accenture hat eine Abteilung für „Metaverse-Dienste“ gegründet. Facebook änderte seinen Namen in Meta und begann, 1 Milliarde US-Dollar pro Monat für diese Vision auszugeben, was in dieser brillanten Präsentation gipfelte.


Es hat mir Spaß gemacht, das Metaversum zu schwenken, aber der Hype-Zyklus darum war ein wichtiger Moment, um das Bewusstsein für die Ankunft dessen zu schärfen, was Apple diese Woche als Spatial Computing bezeichnen würde. Während sich dieser Raum weiterentwickelt, besteht jede Chance, dass viele dieser Ideen wieder in Mode kommen.



Zuck in Paristan. Credit: Meta



Andere Anwendungsfälle für kommerzielles XR variierten von praktisch bis harmlos. Einige von ihnen werden in beliebten Web-Backends allmählich alltäglich. Sie können aus der folgenden Liste auswählen, was zu welcher Beschreibung passt:




*Der Magic-Leap-Umsatz entspricht dem Gesamtverkaufsvolumen geteilt durch den durchschnittlichen Einzelhandelspreis. Oculus Rift-Verkaufszahlen stammen aus PC Guide, 2021.



Die meisten der oben aufgeführten vorhandenen Geräte versuchten, eine gewisse Balance mit den Anwendungsfällen zu erreichen, auf die sie abzielten. Das bislang erfolgreichste Modell, das Meta Quest, positionierte sich stark als Spielgerät.


Normalerweise wäre das eine Lektion. Wenn sich jedoch jemand diesem Trend widersetzen kann, dann Apple. Apple verfügt über eine breite Palette bereits allgegenwärtiger Produkte (z. B. 1,6 Milliarden aktive iPhones), die als sekundäre Endpunkte für VisionPro-Anwendungen dienen können und werden.


Während Apples erste Demos für den VisionPro alle in Arbeitsumgebungen gehostet wurden, ist es mehr als wahrscheinlich, dass es sich am Ende um eine Allzweck-VR handelt. Ich sehe seine Rolle als eine Form der räumlichen Erweiterung für Apples bestehendes Produktökosystem (z. B. Karten, FaceTime, Siri usw.), da seine Vision für Computer die Modalitäten verschiebt. Mehr zu anderen möglichen Anwendungen später in diesem Artikel.




Headsets Today: Neue Welten programmieren

Räumliches Rechnen

Anstatt auf der Welle der heutigen Tech-Buzzwords zu reiten, nutzte Apple seine informationelle Marktmacht, um auf der WWDC einem neuen Schlagwort Autorität zu verleihen.



Auch wenn es oberflächlich betrachtet recht intuitiv klingt, wollen wir doch etwas tiefer in die Frage eintauchen, was dieser Begriff in Zukunft tatsächlich ausdrücken könnte.


Abgesehen von den offensichtlichen Vorteilen für die Markenbildung, die das Prägen einer Modephrase mit sich bringt, fühlt sich die Verwendung des Begriffs „Computing“ äußerst bewusst an. Es stellt einen logischen nächsten Schritt gegenüber früheren Epochen des „Desktop Computing“ und des „Mobile Computing“ dar. Genau wie Apple es bei den vorherigen Generationen von Personalcomputern getan hat, wird das Ziel sein, dieses Konzept und diese Terminologie allgegenwärtig zu machen.


Um Tim Cook von WWDC zu zitieren:


„In Zukunft werden Sie sich fragen, wie Sie Ihr Leben ohne Augmented Reality geführt haben.“



Wie unterscheidet sich Spatial Computing neben der Änderung der Hardware funktional von seinen Vorgängern?


Der wohl wichtigste unmittelbare Wandel wird von der Arbeit in 2D zur Arbeit in 3D sein. Aufgaben wie Visualisierung, Navigation im Arbeitsbereich (z. B. Klicken und Bewegen von Dingen) und Zusammenarbeit werden alle auf eine Weise ermöglicht, die bei früheren Modalitäten nicht möglich war.


Längerfristig dürften Kontextbewusstsein und Interkonnektivität eher die bahnbrechenden Merkmale des Spatial Computing beweisen.


  • Kontextbewusstsein bezieht sich auf die Fähigkeit des Computers:

    i) bestehende Empfehlungen und Benachrichtigungen an den sensorischen Kontext eines Benutzers anpassen (z. B. Empfehlungen basierend auf Standort- und Bewegungsmustern, automatische Änderungen der Bildschirmdarstellungen basierend auf Benutzergewohnheiten usw.) und

    ii) Bereitstellung maßgeschneiderter (möglicherweise agentischer) Unterstützung für Benutzer bei der Erledigung von Aufgaben in der erweiterten Realität.


  • Unter Interkonnektivität versteht man die Fähigkeit des Benutzers, die erweiterte Realität über das Gerät hinaus zu erweitern. Über die bloße Arbeit und Zusammenarbeit an holografischen Schnittstellen hinaus können Benutzer andere Geräte in ihrer Umgebung steuern und mit ihnen interagieren. Um ein langweiliges Beispiel zu nennen: Benutzer können Smart-Home-Einstellungen über das Gerät ändern.


Längerfristig könnte die Interkonnektivität dazu führen, dass sich Siris Rolle als virtueller Assistent von einem sprachgesteuerten Suchaggregator zu einem lebenden Assistenten entwickelt, der dabei helfen kann, Aufgaben innerhalb des Geräts basierend auf den vorherigen Gewohnheiten und Vorlieben des Benutzers zu erledigen. Während sich die grundlegenden Fähigkeiten autonomer Agenten weiterentwickeln, könnte die Kombination aus dem Vertriebsnetz von Apple und der Vertrautheit von Siri es zur Killertechnologie machen, um persönliche Agenten massenhaft auf die Welt zu bringen.


  • Informationspräsentation


Credit: Joey Banks on Twitter



Wie oben erwähnt, konzentrierten sich Apples VisionPro-Demos fast ausschließlich auf Arbeitsumgebungen. Täuschen Sie sich nicht, diese erste Generation ist stark auf Informationsarbeiter ausgerichtet. Wie werden sie es nutzen?


Erstens gibt es offensichtliches und ausgetretenes Terrain. Apple wird alle XR-Lösungen für Unternehmen, die wir bisher gesehen haben, überarbeiten und neu gestalten. Sie stellen Ressourcen für Institutionen zur Verfügung, um ihre Mitarbeiter, Studenten und Führungskräfte zu schulen. Sie werden eine Vielzahl von Try-on-Lösungen, Gaming-Anwendungen und Cloud-TV-Lösungen anbieten, die wir bereits gesehen haben.


Ein relativ neuartiges Beispiel, das im Rahmen der Markteinführung vorgestellt wurde, waren die Computerschnittstellen im „Minority Report“-Stil. Anstatt jedes Mal, wenn Sie an einer Datei arbeiten möchten, ein physisches Gerät hochzufahren, können Sie sofort von überall in der Cloud darauf zugreifen.


In welche Richtung, moderner Mann?



Aber wie unterscheidet sich dadurch die Kernerfahrung des Personal Computing selbst?


Einige frühe Ideen:


  • Unbegrenzte Monitore zu jedem Zeitpunkt

  • Multimodale Formen der Interaktion mit Informationsarbeit (Sprache, körperliche Bewegung etc.)

  • Intelligente Browsernavigation durch sensorisches (z. B. Augen-)Tracking

  • Völlig individuelle 3D-Bildschirmpräsentationen, die automatisch an die Vorlieben des Benutzers angepasst werden

  • 3D-Datenvisualisierung (langweilig, aber wichtig)


Jedes davon wird sein eigenes Universum an individuellen Ideen präsentieren, die die bisherigen Erweiterungen und App Stores ersetzen werden.


AppleLM


Dank an @SullyOmarr auf Twitter



Dieser Tweet von Cognosys AI -Gründer Sulaiman Omar wirkt vorausschauend. Apple hat in der Tat in der Vergangenheit den Vorsprung als Erstanbieter geopfert, um über einen längeren Zeitraum ein besseres Produkt zu entwickeln. Das VisionPro ist ein perfektes Beispiel dafür, denn es kam 13 Jahre nach der ersten kommerziell erhältlichen Oculus Rift auf den Markt.


Die Integration von Sprachmodellen in seine Headsets wird Apple eine Reihe von Möglichkeiten eröffnen, die etablierten Unternehmen ohne ihre eigenen proprietären LLMs nicht zur Verfügung stehen (Hinweis: Metas LlaMa könnte sie in dasselbe Boot bringen – Balaji Srinivasan hat einen tollen Thread veröffentlicht, der ihr Potenzial hervorhebt Rolle im Spatial-Computing-Wettbewerb).






Zu den Möglichkeiten, die sich daraus ergeben könnten:


  • Virtuelle Spielerlebnisse, die auf den realen Gewohnheiten der Benutzer basieren.

  • Sofortige Abfragen über den Gesichtsbrowser.

  • Agentische virtuelle Assistenten , die in das Headset integriert und auf Benutzergewohnheiten geschult sind.

  • Räumliche Empfehlungs-Engines , die Aktionen zu einem bestimmten Zeitpunkt empfehlen.

  • Echtzeitübersetzung.

  • Umgebungserweiterung, die es Benutzern ermöglicht, Objekte in ihrem Raum neu anzuordnen.

  • Generative Content-Erstellung , die sofort abgespielt wird, wenn der Benutzer sie spricht.


Aber könnte es eleganter gehen?


Die nächste Grenze für räumliche Computer

Viele Kommentatoren verkündeten den Tod von Google Glass, als sie es sahen. Wer möchte schon einen Computer im Gesicht tragen? Warum solltest du dich dafür entscheiden, ein bisschen wie ein Idiot auszusehen? Viele haben festgestellt, dass kein einziger Apple-Manager im Rahmen der Markteinführung auch nur einen VisionPro ausprobiert hat.

Es muss einen besseren Grund geben, sich einen anzuschnallen, als „weil es alle anderen auch tun“.





Die entscheidende Frage auf lange Sicht lautet dann: Warum sollte sich jemand einen XR-Computer ans Gesicht schnallen, wenn man einen in seinem Gehirn haben kann?


Der klassische Gegenentwurf dazu wäre die Idee der „ Reprojektion “. Wenn jeder eine XR-Maske trägt, können wir Photonen so projizieren, dass es so aussieht, als ob niemand eine Maske trägt. Da es sich bei der Reprojektion um die Erzeugung völlig neuer Photonen handelt, können sich Menschen sogar ganz anders aussehen lassen als ohne Maske. Dies würde zu einer Killer-App für das Welsfischen werden.


Das Konzept des Techno-Optimisten, in der erweiterten Realität zu leben, ähnelt dem Leben in einem ständigen Klartraum. Schlafmaske beim Zubettgehen, erweiterte Realitätsmaske beim Aufstehen. Untersuchen Sie Beweisstück A unten:


Credit Dezeen und Apple für die LHS-Fotografie. Credit Shaquille O’Neal für die RHS.



Das aktuelle Paradigma von XR basiert auf diesen Exoskelett-Hilfsmitteln, damit Benutzer sich in alternativen Realitäten zurechtfinden können. Die Realität ist, dass wir bereits so nah dran sind, nicht mehr auf diese Hilfsmittel angewiesen zu sein. Betreten Sie die Gehirn-Maschine-Schnittstelle.


BMIs

Langfristig wird die vorgestellte Realität wahrscheinlich jede Form der heute existierenden gemischten Realität übertrumpfen. Ich verwende hier den Begriff „vorgestellte Realität“, um jede Form von Umweltveränderung zu beschreiben.


a) vollständig an die Anforderungen oder Anforderungen des Benutzers anpassbar und

b) erfordert keine tragbaren Hilfsmittel.


Der offensichtlichste Kanal für die vorgestellte Realität sind heute Gehirn-Maschine-Schnittstellen (BMIs). Für eine längere Einführung kann ich Tim Urbans Artikel „ Zaubererhüte für das Gehirn “ aus dem Jahr 2017 nicht empfehlen.


BMIs bieten viele der gleichen „räumlichen Berechnungsvorteile“ wie Tools wie VisionPro, jedoch ohne dass ein schweres Gerät im Gesicht befestigt werden muss. Bei den bestehenden Prototypen von Neuralink für die ersten kommerziellen BMIs handelt es sich um invasive Implantate, die vielen verständlicherweise Unbehagen bereiten (auch wenn die Belohnung übermenschliche Intelligenz und ein übermenschliches Gedächtnis sind). Was wäre, wenn diese weniger invasiv, zugänglicher und damit für die menschliche Öffentlichkeit schmackhafter würden?

Die erweiterte Realität ist reichlich vorhanden.



Anfragen für Startups

  • Bessere Batteriesysteme für die heutigen XR-Geräte. Bei Apples erster Markteinführung des VisionPro fehlten seltsamerweise Erwähnungen von Batterien. Es ist für Demos und die Verwendung im aktuellen Moment weniger offensichtlich als andere Designmerkmale wie Schnittstellen, Rechenleistung und Gewicht (wie in diesem Thread von Kyle Samani erwähnt), aber genauso wichtig, wenn es täglich verwendet wird.


  • Soziale Infrastruktur für eine XR-Welt. Seit der Verlagerung der ersten Dates von Cafés in Online-Chatrooms ist die grundlegende Verkabelung der Art und Weise, wie Menschen miteinander interagieren, nicht mehr so grundlegend erschüttert worden. Wie kann Verhalten in einer Welt moderiert werden, in der Menschen den Eindruck erwecken können, alles zu sein? (Hinweis: Apple scheint bereits an einer Art Identitätsnachweisprotokoll zu arbeiten, das davor schützen könnte.) Welche Art von Inhalten wird allgegenwärtiger, wenn sich die Palette der Präsentationsmethoden so weit ausdehnt? Wie kommen Menschen online zusammen?


  • Bewaffnen Sie die Rebellen: Kreative Tools für XR. SecondLife, Minecraft und Roblox haben allesamt auf der Grundlage sekundärer Marktplätze für digitale Assets größere Unternehmen als erwartet geschaffen. Diese Marktplätze wurden durch kreative Tools ermöglicht, die in die Struktur der Plattformen selbst integriert waren.


Während heute bereits viele Entwickler an Designs für neue Erlebnisse usw. für Headsets und Projekte im Metaverse-Stil arbeiten, stellt sich die Frage: Wie können wir diesen Prozess für den Laien (genauer gesagt für den 8-jährigen Roblocker) zugänglicher machen, um Welten seiner eigenen Fantasie zu erschaffen? Was wird das zweite Kommen von Minecraft für das Augmented-Reality- oder „vorgestellte-Reality“-Paradigma sein?


  • Designs für gelebte Erfahrungen (z. B. Qualia). Ein großer Teil des Reizes der virtuellen/erweiterten/vorgestellten Realität liegt in der Idee, ein anderes Leben zu führen als das, das Sie jetzt haben. Ähnlich wie Dan Burke in Pygmalions Brillen kann nun jeder seine gelebten Erfahrungen in virtuellen Welten optimieren.


    Für den Fall, dass solche Technologien allgegenwärtig werden, entsteht ein riesiger universeller Markt für Qualia – synthetische Instanzen subjektiver Erfahrung. Der Gestaltungsspielraum ist theoretisch unbegrenzt. Auf wie viele Arten kann man pure Ekstase erleben? Nostalgie? Die Belohnungen für diejenigen, die der Welt solche Erfahrungen durch irgendeine Form der erweiterten Realität vermitteln können, sind enorm.


Unterschätzt wird möglicherweise auch die Entwicklung von Tools, mit denen Benutzer diese Qualia selbst erfassen oder entwickeln können. Gibt es einen Markt für die „Aufzeichnung“ der eigenen gelebten Erfahrungen, um sie mit anderen zu teilen? Wie können Menschen neue Erfahrungen entwickeln, um sie auf den Markt zu bringen und auf anderen Open-Source-Qualia zu komponieren? Wie können wir Datenschutzgarantien für persönliche Qualifikationen bieten, wenn diese in Empfehlungsmaschinen verwendet werden?


Neugierige können beim Qualia Research Institute mehr erfahren.



  • Open-Source-Hardware- und XR-Software-Marktplätze. Eine Sache, die XR noch mit anderen Computerparadigmen gemeinsam hat, ist sein Top-Down-Charakter. Benutzer sind den Launen von Apple überlassen, wie sie mit ihren Telefonen interagieren möchten. Wenn sie dagegen protestieren wollen, können sie eine andere der deprimierend begrenzten Optionen auf dem Markt wählen. Bisher waren die Zusammensetzbarkeit und Anpassbarkeit der Hardware äußerst begrenzt.


    Aber was wäre, wenn wir die Entwicklung der Headsets selbst in dezentralen Laboren als Open-Source-Lösung anbieten würden? Aktive Teilnehmer könnten daran arbeiten, verschiedene Hardwarespezifikationen nach ihren Wünschen zu ändern und zu iterieren. Modulare Designs könnten eine individuelle Anpassung auch für Laien ermöglichen. Ebenso wichtig wäre, dass diese Open-Source-Labore keinen Anreiz hätten, geschlossene Systeme für die Softwareentwicklung zu schaffen. Entwickler könnten mit Code experimentieren, ihn versenden und bereitstellen, der für alle Headsets in dem Tempo verfügbar wäre, in dem sie ihn erstellen können.


Eine solche Open-Source-Entwicklung würde die Art und Weise, wie Menschen mit Software und Hardware interagieren, grundlegend verändern. Schauen Sie sich zur Inspiration die großartige Arbeit an, die das Team von Auki Labs bereits leistet.


  • Private Benutzeragenten. Im Zusammenhang mit dem oben genannten Punkt bedeutet das heutige Top-Down-Software-Ökosystem, dass in Software integrierte Anreize tendenziell verzerrt sind. Anstatt sich voll und ganz auf den Benutzernutzen zu konzentrieren, drängt der Markt Entwickler dazu, suboptimale Anwendungen zu entwickeln, die darauf abzielen, Kennzahlen wie „durchschnittliche Sitzungszeit“ oder „Klickraten“ zu maximieren.


Die Chance, die Open-Source-Entwicklungsstudios hätten, durch den Einbau privater Benutzeragenten in natürlicher Sprache, die als funktionale Assistenten für ihre Benutzer fungieren, die alten Technologieunternehmen zu übertreffen, ist immens.


Auch hier veröffentlicht.


Das Leitbild für diesen Artikel wurde vom AI Image Generator von HackerNoon über die Eingabeaufforderung „Augmented Reality Headsets“ generiert.