paint-brush
面部计算:个人 XR 的简史和充满希望的未来经过@ahrwhitford
308 讀數
308 讀數

面部计算:个人 XR 的简史和充满希望的未来

经过 Archie Whitford12m2023/06/15
Read on Terminal Reader

太長; 讀書

Apple 推出 VisionPro 引起了不同的反响。然而,即使第 1 年的销售失败,它的 10 年无处不在也几乎是不可避免的。在这篇文章中,我探索: - 要使这些设备像今天使用 iPhone 一样使用,需要满足哪些条件? - 一旦将个人 AI 代理内置到个人计算机中会发生什么? - 他们在苹果硬件的外围从哪里赚钱。
featured image - 面部计算:个人 XR 的简史和充满希望的未来
Archie Whitford HackerNoon profile picture
0-item


每年 6 月,随着Apple举办一年一度的全球开发者大会(WWDC,或“dub-dub”),全世界的技术兄弟、养老金投资组合经理和 Twitter threadbois 都会将目光投向圣克拉拉。


除其他事项外,dub-dub 最为人熟知的是几乎所有 Apple 无处不在的消费技术套件的发源地。初代 iPhone、iPad、Apple Watch 和 Apple TV 以及后续升级产品均在活动中推出。


今年,自 2015 年以来,这款稳定的消费类设备首次加入全新产品。这款新产品就是 VisionPro。



Apple's VisionPro



关于 VisionPro 或 Apple 对扩展现实未来的愿景,我无法告诉您任何快速浏览TwitterLinkedIn或整个互联网都无法告诉您的信息。这篇文章的重点是尝试观察:


  1. 我们如何到达这里;
  2. 为什么人们要为你的脸制造电脑
  3. 这可能导致我们走上许多不同的道路。


内容概览

  • XR:简史
  • 今天的耳机:编码新世界
  • 空间计算机的下一个前沿
  • 对初创企业的要求



XR:简史

对于外行来说,XR 指的是扩展现实——增强现实(AR,例如 Pokemon Go)、虚拟现实(VR,例如 Oculus Rift)和“资本 R”现实(例如 Google 街景)的全面融合。混合现实是另一个在很大程度上与 AR 存在于同一维度上的术语,因此在这里将被忽略。


XR 的现代愿景始于 1935 年左右。这一年Stanley Weinbaum发表了Pygmalion's Spectacles 。在这个短篇小说中,主人公丹伯克对他所处的现实感到失望。为了解决这个问题,他戴上了一副眼镜,让他进入了一个永远年轻快乐的世界。唯一的问题是他遵守了它的规则(_T&C_s,用现代的说法)。


A sketch of the fictional Pygmalion's Spectacles. Credit: Matrise



快进几十年,我们开始在真实环境中看到 XR 的第一个版本。这始于 Morton Heilig 的“ Sensorama ”(不包括在下面的时间线中),这是一种 4D 电影体验,除了电影的声音和视觉之外,还为观众提供气味和振动椅。


下面的时间表还排除了 XR 的首次军事应用。 1961 年, Philco Headsight成为第一款具有运动追踪技术的耳机。



Image courtesy of Storyhunter




尽管已经停产,但 Oculus Rift 是第一款获得真正商业吸引力的耳机。继 Oculus 之后,许多家喻户晓的大型科技公司也加入了这一行动。奇怪的是,大多数人对这些耳机的主要客户群有不同的看法。


大多数人的主要预期用例是沉浸式娱乐应用,更具体地说是游戏。这是 Oculus、索尼通过他们的PlayStation VRMeta 的Meta Quest 系列产品所遵循的道路。


其他人选择主要关注企业。该领域的早期先驱包括HTC ViveMagic Leap。这些先行者将他们的目标集中在企业协作平台(很像下面描述的一些元宇宙游戏)、应急响应培训和医学教育等方面。


然后,元宇宙炒作周期。世界各地的公司开始设想如果我们把我们的生活环境变成*虚拟*会是什么样子。愿景本质上是第二人生,但这次少了色情内容,多了一些公司工作内容。


在 COVID-19 之后,远程工作的兴起创造了对协作数字环境的假设需求。微软加入了自己的工业元宇宙。埃森哲推出了一个“元宇宙服务”部门。 Facebook 更名为 Meta,并开始每月花费 10 亿美元用于实现这一愿景,最终促成了这次精彩的演讲


我在 metaverse 中玩得很开心,但围绕它的炒作周期是提高人们对苹果本周称之为空间计算的到来的认识的重要时刻。随着这个领域的发展,这些想法中的许多很有可能重新流行起来。



Zuck in Paristan. Credit: Meta



商业 XR 的其他用例从实用到良性不等。其中一些开始在流行的网络后端中变得司空见惯。您可以从以下内容中选择适合哪种描述:




*Magic Leap 销售额等于总销量除以平均零售价。 Oculus Rift 销售数据来自 PC 指南,2021 年。



上面列出的大多数现有设备都试图与它们所针对的用例取得某种平衡。迄今为止销量最成功的 Meta Quest 通过将硬盘定位为游戏设备而做到了这一点。


通常,这将是一个教训。但是,如果有人要逆势而行,那就是 Apple。 Apple 拥有一整套已经无处不在的产品(仅举 16 亿部活跃的 iPhone),这些产品可以并将作为 VisionPro 应用程序的次要端点。


虽然 Apple 的 VisionPro 首次演示都是在工作环境中进行的,但它很可能最终会成为一个通用的 VR。我预见它的作用是作为 Apple 现有产品生态系统(例如地图、FaceTime、Siri 等)的一种空间增强形式,因为它对计算机的愿景正在转变模式。本文稍后将详细介绍其他潜在应用。




今天的耳机:编码新世界

空间计算

Apple 没有顺应当今科技流行语的浪潮,而是利用其信息做市的力量在 WWDC 上为一个新的术语加盖权威。



虽然表面上听起来很直观,但让我们更深入地研究一下这个术语在未来可能实际传达的含义。


除了创造流行语的明显品牌优势外,“计算”一词的使用让人感觉非常刻意。它代表了先前“桌面计算”和“移动计算”时代的合乎逻辑的下一步。正如苹果公司对前几代个人电脑所做的那样,它的目标是让这个概念和术语无处不在。


引用 WWDC 的蒂姆库克的话:


“在未来,你会想知道没有增强现实你是如何过你的生活的”



除了硬件的变化之外,空间计算在功能上与其前身有何不同?


可以说,最重要的直接转变将是从 2D 工作转向 3D 工作。可视化、工作区导航(即单击和移动事物)和协作等任务都将以以前模式下未见的方式启用。


从长远来看,上下文感知互连性更有可能证明空间计算的突破性特征。


  • 情境意识是指计算机的能力;

    i) 使现有的推荐和通知适应用户的感官环境(即基于位置和移动模式的推荐、基于用户习惯的屏幕呈现的自动改变等)和

    ii) 为用户在扩展现实中完成任务时提供定制的(可能是代理的)帮助。


  • 互连性是指用户将扩展现实扩展到设备之外的能力。除了在全息界面上工作和协作之外,用户还可以控制环境中的其他设备并与之交互。举一个无聊的例子,用户可以从设备内部更改智能家居设置。


从长远来看,互连性可能会使 Siri 作为虚拟助手的角色从语音命令搜索聚合器演变为生活助手,可以根据用户以前的习惯和偏好帮助从设备内部完成任务。随着自主代理基本能力的提高,Apple 的分销网络与 Siri 的熟悉程度相结合,可能使其成为将个人代理大规模推向世界的杀手级技术。


  • 信息介绍


Credit: Joey Banks on Twitter



如上所述,Apple 的 VisionPro 演示几乎完全集中在工作环境上。毫无疑问,第一代非常适合信息工作者。他们将如何使用它?


首先,有明显的和踩踏的地面。 Apple 将重新做和重新设计我们之前看到的所有企业 XR 解决方案。他们将为机构提供资源,以培训其员工、学生和领导者。他们将提供我们之前看到的一系列试用解决方案、游戏应用程序和云电视解决方案。


作为发布的一部分展示的一个相对新颖的例子是“少数派报告”风格的计算机界面。无需每次要处理文件时都启动物理设备,而是立即从云中的任何位置访问它。


哪条路,现代人?



但这如何使个人计算本身的核心体验与众不同呢?


一些早期的想法:


  • 在任何给定时间点无限监控

  • 与信息工作交互的多模态形式(言语、身体运动等)

  • 通过感官(例如眼睛)跟踪进行智能浏览器导航

  • 完全自定义的 3D 屏幕演示,自动根据用户偏好量身定制

  • 3D数据可视化(枯燥但重要)


其中每一个都将展示自己的定制创意领域,这些创意将取代之前的扩展程序和应用程序商店。


苹果LM


感谢推特上的@SullyOmarr



Cognosys AI创始人 Sulaiman Omar 的这条推文让人感觉很有先见之明。为了在更长的时间内开发出更好的产品,Apple 确实有牺牲先发优势的历史。 VisionPro 就是一个完美的例子,它在第一款商用 Oculus Rift 发布 13 年后发布。


将语言模型集成到其耳机中将为 Apple 开辟许多可能性,如果没有自己的专有 LLM,现任者将无法获得这些可能性(注意:Meta 的 LlaMa 可能会将他们放在同一条船上 - Balaji Srinivasan 发表了一篇很棒的文章,强调了他们的潜力在空间计算竞赛中的作用)。






这可能带来的可能性包括:


  • 根据用户的现实生活习惯训练的虚拟游戏体验

  • 通过面部“浏览器”立即查询

  • 内置于耳机中并根据用户习惯进行培训的Agentic 虚拟助手

  • 在某个时间点推荐操作的空间推荐引擎

  • 实时翻译。

  • 环境增强允许用户在他们的空间中重新安排对象。

  • 生成的内容创建在用户说话时立即播放。


但能不能做得更优雅……


空间计算机的下一个前沿

许多评论员一看到它就宣布谷歌眼镜已死。谁愿意把电脑戴在脸上?为什么你会选择看起来有点像个笨蛋?许多人注意到,作为发布的一部分,甚至没有一位 Apple 高管尝试过 VisionPro。

必须有一个比“因为其他人都是”更好的理由。





从长远来看,关键问题就变成了:当你的大脑中可以装一台 XR 计算机时,为什么有人愿意将 XR 计算机绑在脸上?


对此的经典反驳是“再投影”的想法。当每个人都戴着 XR 面具时,我们可以重新投射光子,让它看起来好像没有人。因为再投影涉及完全创造全新的光子,人们甚至可以让自己看起来与没有面具时的实际行为完全不同。这将成为鲶鱼的杀手级应用程序。


技术乐观主义者的生活在增强现实中的概念类似于生活在永恒的清醒梦中。睡觉时使用睡眠面罩,起床时使用扩展现实面罩。检查下面的展览 A:


信用 Dezeen 和 Apple 的 LHS 摄影。 RHS 归功于 Shaquille O'Neal。



当前的 XR 范例依赖于这些外骨骼辅助设备,供用户导航替代现实。事实上,我们已经非常接近不再需要依赖这些辅助工具了。进入脑机接口。


体重指数

从长远来看,设想的现实很可能胜过当今存在的任何形式的混合现实。我在这里使用“设想的现实”一词来描述任何形式的环境改变;


a) 完全可根据用户的要求或要求进行定制,并且

b) 不需要可穿戴辅助设备。


当今设想的现实最明显的渠道是脑机接口(BMI)。对于更长的入门读物,我不能推荐 Tim Urban 早在 2017 年就发表的关于“大脑的巫师帽”的文章。


BMI 提供许多与 VisionPro 等工具相同的“空间计算”优势,但无需将沉重的设备绑在脸上。 Neuralink现有的第一个商业 BMI 原型涉及侵入性植入物,可以理解,这会让许多人感到不舒服(即使回报是超人的智力和记忆力)。当这些变得更少侵入性、更容易获得并因此更受人类公众欢迎时呢?

扩展现实比比皆是。



对初创企业的要求

  • 适用于当今 XR 设备的更好电池系统。奇怪的是,Apple 首次推出 VisionPro 时没有提到电池。对于“当下”的演示和使用,与接口、计算和重量(如Kyle Samani 在此线程中引用的那样)等其他设计功能相比,它不太明显,但在日常使用时同样重要。


  • XR 世界的社会基础设施。自从第一次约会从咖啡馆转移到在线聊天室以来,人类彼此互动方式的核心线路就没有发生过如此根本性的变化。在一个人们可以让自己看起来无所不能的世界里,如何调节行为? (注意:Apple 似乎已经在研究某种形式的身份证明协议,可以防止这种情况发生)。当呈现方法的范围如此广泛地扩展时,什么样的内容会变得更加普遍?人们如何在网上聚在一起?


  • 武装叛军:XR 的创意工具。 SecondLife、Minecraft 和 Roblox 都在数字资产二级市场的支持下创造了超出预期的巨大业务。这些市场是由融入平台本身结构的创意工具实现的。


虽然今天有许多开发人员已经在为头显和元宇宙风格的项目设计新体验等,但我们如何才能让外行(更具体地说是 8 年的 Roblocker)更容易理解这个过程,以创造他们自己想象的世界?对于增强现实或“设想的现实”范例,Minecraft 的第二次到来会是什么?


  • 生活体验设计(即 Qualia)。虚拟/增强/想象现实的很大一部分吸引力在于过一种与现在不同的生活的想法。就像皮格马利翁的眼镜中的丹伯克一样,任何人现在都可以在虚拟世界中优化他们的生活体验。


    如果这样的技术确实变得无处不在,这就会为感受性——主观体验的合成实例——创造一个巨大的普遍市场。设计范围理论上是无限的。您可以通过多少种方式体验纯粹的狂喜?怀旧?对于那些能够通过某种形式的扩展现实将这些体验带给世界的人来说,奖池是巨大的。


同样被低估的可能是用户自己捕获或开发这些感受质的工具的开发。 “记录”自己的生活经历并与他人分享是否有市场?人们如何设计新体验以推向市场并在其他开源感受性之上进行组合?如果开始在推荐引擎中使用,我们如何为个人质量提供隐私保证?


如果好奇,请查看Qualia Research Institute以了解更多信息。



  • 开源硬件和 XR 软件市场。 XR 与之前的其他计算范式仍然有一个共同点,那就是它的自上而下的性质。用户希望如何与他们的手机交互,Apple 随心所欲。如果他们想抗议这一点,他们可以选择市场上令人沮丧的有限选项中的另一个。迄今为止,硬件的可组合性和可定制性非常有限。


    但是,如果我们要通过去中心化实验室开源耳机本身的开发呢?积极的参与者可以根据自己的喜好修改和迭代不同的硬件规格。模块化设计可以允许在外行层面进行定制。同样重要的是,这些开源实验室没有动力为软件开发创建闭环系统。开发人员可以按照他们可以构建的速度试验、发布和部署可用于所有头显的代码。


这种开源开发将代表人们与软件和硬件交互的方式发生重大变化。如需一些灵感,请查看Auki Labs团队已经完成的出色工作。


  • 私人用户代理。与上一点相关,当今自上而下的软件生态系统意味着软件中内置的激励措施往往会被扭曲。市场激励并没有全力以赴地提高用户效用,而是让开发人员构建次优应用程序,旨在最大化“平均会话时间”或“点击率”等指标。


开源开发工作室必须通过构建充当用户功能助手的私人自然语言用户代理来击败传统技术公司,这一机会是巨大的。


也发布在这里。


本文的主图是由 HackerNoon 的 AI Image Generator 通过提示“增强现实耳机”生成的