paint-brush
Computação facial: uma breve história e o futuro promissor do Personal XRpor@ahrwhitford
308 leituras
308 leituras

Computação facial: uma breve história e o futuro promissor do Personal XR

por Archie Whitford12m2023/06/15
Read on Terminal Reader

Muito longo; Para ler

O lançamento do VisionPro pela Apple produziu reações mistas. No entanto, mesmo que as vendas caiam no primeiro ano, sua onipresença de 10 anos parece quase inevitável. Neste artigo eu exploro: - O que precisa ser verdade para que esses dispositivos sejam usados da mesma forma que o iPhone é usado hoje? - O que acontece quando os agentes pessoais de IA são incorporados aos computadores pessoais? - Onde está o dinheiro deles na periferia do hardware da Apple.
featured image - Computação facial: uma breve história e o futuro promissor do Personal XR
Archie Whitford HackerNoon profile picture
0-item


Todo mês de junho, bros da tecnologia, gerentes de portfólio de pensões e threadbois do Twitter em todo o mundo voltam seus olhos para Santa Clara, quando a Apple realiza sua Conferência Mundial de Desenvolvedores (WWDC, ou 'dub-dub') anual.


Entre outras coisas, o dub-dub é mais conhecido por ser o berço de quase todo o conjunto de onipresente tecnologia de consumo da Apple. O iPhone original, iPad, Apple Watch e Apple TV e atualizações subsequentes foram todos lançados no evento.


Este ano, este estábulo de dispositivos de consumo é acompanhado por um produto totalmente novo pela primeira vez desde 2015. Esse novo produto é o VisionPro.



Apple's VisionPro



Não há nada que eu possa dizer sobre o VisionPro ou a visão da Apple para o futuro da realidade estendida que uma rápida navegação no Twitter , LinkedIn ou na Internet em geral não possa. O objetivo deste artigo é tentar observar:


  1. como chegamos aqui;
  2. por que as pessoas estão construindo computadores para o seu rosto e
  3. os muitos caminhos divergentes que isso pode nos levar.


Visão geral do conteúdo

  • XR: Uma Breve História
  • Fones de ouvido hoje: Código Novos Mundos
  • A próxima fronteira para computadores espaciais
  • Pedidos de Startups



XR: Uma Breve História

Para os não iniciados, XR refere-se à realidade estendida - uma mistura abrangente de realidade aumentada (AR, por exemplo, Pokemon Go), realidade virtual (VR, por exemplo, Oculus Rift) e realidade 'R maiúsculo' (por exemplo, Google Street View). A realidade mista é outro termo que existe em grande parte na mesma dimensão que AR e, portanto, será ignorado aqui.


A visão moderna para XR começa por volta de 1935. Este foi o ano em que Stanley Weinbaum publicou Óculos de Pigmalião . Neste conto, o protagonista Dan Burke está desiludido com a realidade em que se encontra. Para remediar isso, ele coloca um par de óculos que o transportam para um mundo de eterna juventude e felicidade. O único problema é que ele obedece às suas regras (_T&C_s, na linguagem moderna).


A sketch of the fictional Pygmalion's Spectacles. Credit: Matrise



Avanço rápido de algumas décadas e começamos a ver as primeiras construções de XR em ambientes reais. Isso começa com ' Sensorama ' de Morton Heilig (excluído da linha do tempo abaixo), uma espécie de experiência de cinema 4D que forneceu ao espectador cheiros e uma cadeira vibratória, além dos sons e da visão do filme.


Também excluída da linha do tempo abaixo está a primeira aplicação militar do XR. Em 1961, o Philco Headsight tornou-se o primeiro fone de ouvido com tecnologia de rastreamento de movimento.



Image courtesy of Storyhunter




Embora tenha sido descontinuado, o Oculus Rift foi o primeiro fone de ouvido a ganhar apelo comercial real. Após a Oculus, muitos nomes conhecidos da big tech se juntaram à ação. Curiosamente, a maioria tinha visões diferentes sobre quem seria a principal base de clientes para esses fones de ouvido.


O caso de uso dominante esperado para a maioria era em aplicativos de entretenimento imersivo, mais especificamente em jogos. Este foi o caminho seguido pela Oculus, Sony através de seu PlayStation VR e Meta com a linha de produtos Meta Quest.


Outros optaram por se concentrar predominantemente na empresa. Os primeiros pioneiros neste segmento incluíram HTC Vive e Magic Leap. Esses pioneiros concentraram seus objetivos em coisas como plataformas de colaboração corporativa (bem como algumas das jogadas do metaverso descritas abaixo), treinamento de resposta a emergências e educação médica.


Então, o ciclo de hype do metaverso . Corporações em todo o mundo começaram a imaginar como seria se pegássemos nosso ambiente de vida, mas o fizéssemos *virtual*. A visão era essencialmente o SecondLife , mas desta vez com menos pornografia e mais trabalho corporativo.


Na esteira do COVID-19, o aumento do trabalho remoto criou uma suposta necessidade de ambientes digitais colaborativos. A Microsoft juntou-se à festa com seu próprio metaverso industrial. A Accenture lançou uma divisão de 'serviços metaversos'. O Facebook mudou seu nome para Meta e começou a gastar US$ 1 bilhão por mês nessa visão, culminando nessa brilhante apresentação .


Eu me diverti analisando o metaverso, mas o ciclo de hype em torno dele foi um momento importante para aumentar a conscientização sobre a chegada do que a Apple chamaria esta semana de computação espacial. À medida que esse espaço evolui, há todas as chances de que muitas dessas ideias voltem à moda.



Zuck in Paristan. Credit: Meta



Outros casos de uso para XR comercial variaram do prático ao benigno. Alguns deles estão começando a se tornar comuns em back-ends populares da web. Você escolhe qual se encaixa em qual descrição abaixo:




*Vendas do Magic Leap consideradas como o volume total de vendas dividido pelo preço médio de varejo. Números de vendas do Oculus Rift provenientes do PC Guide, 2021.



A maioria dos dispositivos existentes listados acima tentou alcançar algum tipo de equilíbrio com os casos de uso que visavam. O mais bem-sucedido em vendas até hoje, o Meta Quest, o fez posicionando-se como um dispositivo de jogo.


Normalmente, isso seria uma lição. No entanto, se alguém vai contrariar essa tendência, seria a Apple. A Apple tem um amplo conjunto de produtos já onipresentes (1,6 bilhão de iPhones ativos, para citar um) que podem e servirão como endpoints secundários para aplicativos VisionPro.


Embora as demonstrações inaugurais da Apple para o VisionPro tenham sido todas hospedadas em ambientes de trabalho, é mais do que provável que acabe sendo um VR de uso geral. Eu prevejo seu papel como sendo uma forma de aumento espacial para o ecossistema de produtos existente da Apple (por exemplo, Maps, FaceTime, Siri e outros) conforme sua visão para computadores muda de modalidade. Mais informações sobre outras aplicações potenciais mais adiante neste artigo.




Fones de ouvido hoje: Código Novos Mundos

Computação Espacial

Em vez de aproveitar a onda das palavras-chave da tecnologia de hoje, a Apple usou seu poder de criação de mercado informacional para imprimir autoridade em um novo na WWDC.



Embora pareça intuitivo o suficiente na superfície, vamos nos aprofundar um pouco mais no que esse termo pode realmente transmitir daqui para frente.


Além dos óbvios benefícios de marca de cunhar uma frase da moda, o uso do termo 'computação' parece extremamente deliberado. Ele representa um próximo passo lógico das eras anteriores de 'computação de desktop' e 'computação móvel'. Assim como a Apple fez com as gerações anteriores de computadores pessoais, ela pretende tornar esse conceito e terminologia onipresentes.


Para citar Tim Cook da WWDC:


“No futuro, você vai se perguntar como viveu sua vida sem a realidade aumentada”



Além da mudança no hardware, como a computação espacial é funcionalmente diferente de seus predecessores?


Indiscutivelmente, a mudança imediata mais importante será do trabalho em 2D para o trabalho em 3D. Tarefas como visualização, navegação no espaço de trabalho (ou seja, clicar e mover coisas) e colaboração serão todas habilitadas de maneiras não vistas nas modalidades anteriores.


A longo prazo, a consciência contextual e a interconectividade são mais propensas a provar os recursos inovadores da computação espacial.


  • Consciência contextual refere-se à capacidade do computador de;

    i) adaptar as recomendações e notificações existentes ao contexto sensorial do usuário (ou seja, recomendações baseadas em localização e padrões de movimento, alterações automáticas nas apresentações da tela com base nos hábitos do usuário, etc.) e

    ii) fornecer assistência personalizada (possivelmente agêntica) aos usuários à medida que eles concluem tarefas em realidade estendida.


  • A interconectividade refere-se à capacidade do usuário de estender a realidade além do dispositivo. Além de apenas trabalhar e colaborar em interfaces holográficas, os usuários podem controlar e interagir com outros dispositivos em seu ambiente. Para dar um exemplo chato, os usuários podem alterar as configurações de casa inteligente de dentro do dispositivo.


A longo prazo, a interconectividade pode fazer com que o papel da Siri como um assistente virtual evolua de um agregador de pesquisa comandado por voz para um assistente vivo que pode ajudar a concluir tarefas de dentro do dispositivo com base nos hábitos e preferências anteriores do usuário. À medida que os recursos básicos dos agentes autônomos avançam, a combinação da rede de distribuição da Apple e a familiaridade da Siri podem torná-la a tecnologia matadora para trazer agentes pessoais para o mundo em massa.


  • Apresentação de informações


Credit: Joey Banks on Twitter



Como mencionado acima, as demos do VisionPro da Apple focaram quase exclusivamente em ambientes de trabalho. Não se engane, esta primeira geração é muito voltada para profissionais da informação. Como eles vão usá-lo?


Em primeiro lugar, há um terreno óbvio e trilhado. A Apple irá refazer e redesenhar todas as soluções XR corporativas que vimos antes. Eles fornecerão recursos para as instituições capacitarem seus funcionários, alunos e líderes. Eles fornecerão um bando de soluções de teste, aplicativos de jogos e soluções de TV em nuvem que vimos antes.


Um exemplo relativamente novo que foi apresentado como parte do lançamento foram as interfaces de computador estilo 'Minority Report'. Em vez de precisar inicializar um dispositivo físico toda vez que quiser trabalhar em um arquivo, acesse-o de qualquer lugar na nuvem em um instante.


Qual caminho, homem moderno?



Mas como isso torna a experiência central da própria computação pessoal diferente?


Algumas ideias iniciais:


  • Monitores ilimitados a qualquer momento

  • Formas multimodais de interagir com o trabalho de informação (fala, movimento físico, etc.)

  • Navegação inteligente do navegador através de rastreamento sensorial (por exemplo, olho)

  • Apresentações em tela 3D totalmente personalizadas, adaptadas automaticamente às preferências do usuário

  • Visualização de dados 3D (chato, mas importante)


Cada um deles apresentará seu próprio universo de ideias personalizadas que substituirão extensões e lojas de aplicativos anteriores.


AppleLM


Crédito para @SullyOmarr no Twitter



Este tweet do fundador da Cognosys AI, Sulaiman Omar, parece presciente. A Apple realmente tem um histórico de sacrificar a vantagem do pioneirismo para desenvolver um produto melhor em um período de tempo mais longo. O VisionPro é um exemplo perfeito disso, sendo lançado 13 anos após o primeiro Oculus Rift disponível comercialmente.


A integração de modelos de linguagem em seus fones de ouvido abrirá uma série de possibilidades para a Apple que não estão disponíveis para os titulares sem seus próprios LLMs proprietários (nota: Meta's LlaMa pode colocá-los no mesmo barco - Balaji Srinivasan publicou um ótimo tópico destacando seu potencial papel na corrida da computação espacial).






Entre as possibilidades que isso pode trazer:


  • Experiências de jogos virtuais treinadas nos hábitos da vida real dos usuários.

  • Consultas imediatas através do 'browser' facial.

  • Assistentes virtuais Agentic integrados ao headset e treinados nos hábitos do usuário.

  • Mecanismos de recomendação espacial que recomendam ações em um determinado momento.

  • Tradução em tempo real.

  • Ampliação do ambiente permitindo que os usuários reorganizem os objetos em seu espaço.

  • Criação de conteúdo generativo que ocorre imediatamente conforme o usuário fala.


Mas poderia ser feito de forma mais elegante...


A próxima fronteira para computadores espaciais

Muitos comentaristas proclamaram a morte do Google Glass ao vê-lo. Quem gostaria de usar um computador no rosto? Por que você optaria por se parecer um pouco com um idiota? Muitos observaram que nem um único executivo da Apple experimentou um VisionPro como parte do lançamento.

Tem que haver uma razão melhor para amarrar um do que “porque todo mundo está”.





A questão-chave a longo prazo torna-se então: por que alguém iria querer amarrar um computador XR em seu rosto quando você pode ter um dentro de seu cérebro?


O contra-ataque clássico a isso seria a ideia de ' reprojeção '. Quando todos estão usando uma máscara XR, podemos reprojetar fótons para fazer parecer que ninguém está. Como a reprojeção envolve a criação de fótons totalmente novos, as pessoas podem até parecer totalmente diferentes do que realmente fazem sem a máscara. Isso se tornaria um aplicativo matador para a pesca-gato.


O conceito do tecno-otimista de viver em realidade aumentada é semelhante a viver em um sonho lúcido perpétuo. Máscara de dormir quando você for para a cama, máscara de realidade estendida quando você sair dela. Examine a prova A abaixo:


Crédito Dezeen e Apple para fotografia LHS. Crédito Shaquille O'Neal para o RHS.



O atual paradigma de XR depende dessas ajudas exoesqueléticas para que os usuários naveguem em realidades alternativas. A realidade é que já estamos tão perto de não precisar mais depender desses auxílios. Entre na interface cérebro-máquina.


IMCs

A longo prazo, a realidade imaginada provavelmente superará qualquer forma de realidade mista que existe hoje. Eu uso o termo realidade imaginada aqui para descrever qualquer forma de alteração ambiental que seja;


a) totalmente personalizável para os requisitos ou demandas do usuário e

b) não requer dispositivos vestíveis.


O canal mais óbvio para a realidade imaginada hoje são as interfaces cérebro-máquina (IMCs). Para uma cartilha mais longa, não posso recomendar o artigo de Tim Urban sobre ' Chapéus de mago para o cérebro ' desde 2017.


Os IMCs oferecem muitos dos mesmos benefícios de 'computação espacial' que ferramentas como o VisionPro, mas sem a necessidade de amarrar um dispositivo pesado no rosto. Os protótipos existentes da Neuralink para os primeiros IMCs comerciais envolvem implantes invasivos que, compreensivelmente, deixam muitos desconfortáveis (mesmo que a recompensa seja inteligência e memória sobre-humanas). E quando eles se tornarem menos invasivos, mais acessíveis e, portanto, mais palatáveis para o público humano?

A realidade estendida é abundante.



Pedidos de Startups

  • Melhores sistemas de bateria para os dispositivos XR atuais. As menções a baterias estavam estranhamente ausentes no lançamento inaugural do VisionPro pela Apple. É menos óbvio para demonstrações e uso 'no momento' do que outros recursos de design, como interfaces, computação e peso (conforme referenciado neste tópico por Kyle Samani ), mas igualmente importante quando usado dia após dia.


  • Infraestrutura social para um mundo XR. Desde que os primeiros encontros mudaram de cafés para salas de bate-papo online, a fiação central de como os humanos interagem uns com os outros foi tão fundamentalmente abalada. Como o comportamento pode ser moderado em um mundo onde as pessoas podem se fazer passar por qualquer coisa? (nota: a Apple já parece estar trabalhando em algum tipo de protocolo de prova de identidade que pode proteger contra isso). Que tipo de conteúdo se torna mais difundido quando a gama de métodos de apresentação se expande tão amplamente? Como as pessoas se reúnem online?


  • Arme os rebeldes: ferramentas criativas para XR. SecondLife, Minecraft e Roblox criaram negócios maiores do que o esperado por meio de mercados secundários de ativos digitais. Esses mercados foram ativados por ferramentas criativas inseridas na própria estrutura das próprias plataformas.


Embora já existam muitos desenvolvedores hoje trabalhando em designs para novas experiências, etc. para fones de ouvido e projetos no estilo metaverso, como podemos tornar esse processo mais acessível para o leigo (mais especificamente o Robloker de 8 anos) criar mundos de sua própria imaginação? Qual será a segunda vinda do Minecraft para o paradigma de realidade aumentada ou 'realidade imaginada'?


  • Projetos para experiências vividas (ou seja, Qualia). Grande parte do apelo da realidade virtual/aumentada/imaginada é a ideia de viver uma vida diferente da que você tem agora. Assim como Dan Burke em Spectacles de Pygmalion, qualquer pessoa agora poderá otimizar suas experiências vividas em mundos virtuais.


    No caso de tais tecnologias se tornarem onipresentes, isso criará um gigantesco mercado universal para qualia - instâncias sintéticas de experiência subjetiva. O escopo do projeto é teoricamente infinito. De quantas maneiras você pode experimentar o êxtase puro? Nostalgia? O conjunto de recompensas para aqueles que podem trazer esses tipos de experiências para o mundo por meio de alguma forma de realidade estendida é enorme.


Também subestimado pode ser o desenvolvimento de ferramentas para os usuários capturarem ou desenvolverem esses qualia por conta própria. Existe um mercado para a 'gravação' das próprias experiências vividas para compartilhar com os outros? Como as pessoas podem projetar novas experiências para levar ao mercado e compor sobre outros qualia de código aberto? Como podemos dar garantias de privacidade para os qualia pessoais se eles começam a ser usados em mecanismos de recomendação?


Para os curiosos, confira o Qualia Research Institute para saber mais.



  • Mercados de hardware de código aberto e software XR. Uma coisa que o XR ainda tem em comum com outros paradigmas de computação antes dele é sua natureza de cima para baixo. Os usuários estão à mercê da Apple sobre como desejam interagir com seus telefones. Se quiserem protestar contra isso, podem selecionar outra das opções deprimentemente limitadas do mercado. Até o momento, a capacidade de composição e personalização no hardware tem sido extremamente limitada.


    Mas e se tivéssemos o código aberto para o desenvolvimento dos próprios headsets por meio de laboratórios descentralizados? Os participantes ativos podem trabalhar para modificar e iterar em diferentes especificações de hardware de acordo com sua preferência. Os projetos modulares podem permitir a personalização no nível do leigo. Igualmente importante, esses laboratórios de código aberto não teriam nenhum incentivo para criar sistemas de circuito fechado para desenvolvimento de software. Os desenvolvedores podem experimentar, enviar e implantar código que pode estar disponível para todos os fones de ouvido na taxa que eles podem construí-lo.


Esse desenvolvimento de código aberto representaria uma mudança radical na maneira como as pessoas interagem com software e hardware. Para alguma inspiração, confira o excelente trabalho que a equipe do Auki Labs já está fazendo.


  • Agentes de usuários privados. Vinculado ao ponto acima, o ecossistema de software de cima para baixo de hoje significa que os incentivos incorporados ao software tendem a ser distorcidos. Em vez de se dedicar totalmente à utilidade do usuário, os incentivos de mercado induzem os desenvolvedores a criar aplicativos abaixo do ideal que visam maximizar métricas como 'tempo médio de sessão' ou 'taxas de cliques'.


A oportunidade que os estúdios de desenvolvimento de código aberto teriam para superar as empresas de tecnologia legadas ao criar agentes de usuário privados em linguagem natural que atuam como assistentes funcionais para seus usuários é imensa.


Também publicado aqui.


A imagem principal deste artigo foi gerada pelo AI Image Generator do HackerNoon por meio do prompt "fones de ouvido de realidade aumentada"