Inteligência artificial (IA) é um termo que você já deve ter ouvido, mesmo que seja do mundo da TI. AI é quando máquinas e sistemas de computador simulam processos de inteligência humana. No momento, a IA está literalmente dominando o mundo – pelo menos 90% dos gigantes da tecnologia investem nela. De acordo com a Data and AI Leadership Executive Survey , o número de empresas amigas da IA que participaram da pesquisa dobrou em um ano. Outra pesquisa afirma que metade das empresas entrevistadas usa IA.
Algumas aplicações mais específicas da IA incluem sistemas especialistas, processamento de linguagem natural, reconhecimento de fala e visão de máquina (computador). O último tipo de IA – visão computacional – já foi integrado ao tráfego rodoviário, pagamentos bancários e redes sociais. Nas últimas décadas, a visão da IA aprendeu a resolver muitas tarefas com uma precisão que chega à humana.
“Como muitos outros notaram e apontaram, o neocórtex também tem uma arquitetura altamente uniforme em todas as suas modalidades de entrada. Talvez a natureza tenha tropeçado em uma arquitetura poderosa muito semelhante e a replicado de maneira semelhante, variando apenas alguns dos detalhes. Essa consolidação na arquitetura, por sua vez, focará e concentrará software, hardware e infraestrutura, acelerando ainda mais o progresso da IA. […] Enfim, tempos emocionantes.” – Andrej Karpathy, caçado por Elon Musk para desenvolver a visão computacional para a Tesla, twittou sobre a visão da IA.
Muitas empresas começaram a usar a visão computacional em tarefas de inteligência artificial. Karpathy está trabalhando em carros movidos a IA. A NASA usa visão de IA para rastrear astronautas, e a polícia a usa para rastrear criminosos. A visão da IA tornou-se uma parte sólida da nossa rotina diária. Você percebe onde a visão computacional funciona para você todos os dias? Apostamos que você o usa diariamente. Pelo menos, você faz isso se for um cliente da Amazon, Apple ou Google.
Considerando que a visão computacional já faz parte de nossas vidas, é hora de aprender como funciona a visão de IA e decidir se vale a pena confiar nela. Cinco anos atrás, pensávamos na IA como uma “criança”. Ele cresceu o suficiente para ser confiável? Recomendamos que você decida por conta própria depois de descobrir:
Uma vez, as pessoas decidiram ensinar os computadores a agir como um cérebro. A ideia pertenceu principalmente ao psicólogo Frank Rosenblatt. Muitos o chamam de pai da IA. No final dos anos 1950, Rosenblatt fez um computador simular uma rede neural com a ajuda da biologia e da matemática. Para aprender algo, os neurônios do cérebro humano constroem conexões. Este princípio lançou as bases da inteligência artificial.
O co-fundador do MIT, Marvel Minsky, deu o próximo passo. Ele esperava que seu aluno ensinasse o computador a descrever tudo o que “viu” durante o verão. Vale dizer que foi um projeto de verão e fracassou. Embora o computador ainda não fosse capaz de reconhecer as imagens com precisão, ele reconhecia as bordas dos objetos nas fotos.
A visão AI foi aplicada pela primeira vez a textos impressos de qualquer fonte (reconhecimento óptico de caracteres) ou até mesmo textos manuscritos (reconhecimento inteligente de caracteres). Já era possível na década de 1970. Após esse avanço, muito está sendo feito em negócios, entretenimento, transporte, saúde e vida cotidiana.
A década de 1970 foi crucial para a visão computacional, pois muitos de seus fundamentos tecnológicos surgiram nessa década. Na década de 1980, os computadores já podiam realizar tarefas complicadas. Graças a David Marr e outros, a IA pôde ver curvas e arestas e perceber padrões visuais semelhantes. Mais tarde, o computador foi capaz de reconhecer não apenas linhas, mas também sombra, foco e textura. Isso aconteceu graças à Rede Neural Convolucional que impulsionou o processamento de imagens.
Em 2001, a IA já era capaz de reconhecer rostos. Desde o projeto AlexNet em 2012, a visão de IA comete menos erros e agora é muito mais precisa. Claro, ainda é uma tarefa difícil para a IA reconhecer um gato em uma pose para baixo. De qualquer forma, ele pode aprender como fazer isso. Enormes esforços foram feitos pela equipe ImageNet, que atraiu mais de 50.000 pessoas em todo o mundo para marcar imagens manualmente. Ajudou a IA a aprender alguns padrões e a continuar estudando por conta própria.
A visão dos computadores é semelhante à dos seres vivos?
A ideia da CNN (rede neural convolucional) é baseada no princípio do neurônio. A CNN consiste em camadas que reconhecem padrões de imagem gradualmente, de simples a complexos, de linhas a rostos inteiros. Camadas artificiais são semelhantes às camadas de neurônios em um cérebro. Os neurônios artificiais são chamados de perceptrons, e a CNN é uma rede que usa esses perceptrons.
Falando sobre a visão humana, alguns neurônios são ativados quando particularmente expostos a linhas verticais, outros – a linhas horizontais ou diagonais. Isso é o que Hubel e Wiesel descreveram em 1962. Dividir tarefas específicas para separar neurônios artificiais é o que a CNN também faz.
Os perceptrons avaliam as informações de maneira diferente ou, falando matematicamente, os neurônios artificiais pesam as entradas de maneira diferente, decidindo quais delas são importantes. Nosso cérebro filtra as informações de maneira semelhante. Não conseguimos nos lembrar de todos os rostos que vemos durante o dia. Salvamos apenas informações valiosas. E as camadas neuronais?
O córtex cerebral mantém os neurônios em seis camadas horizontais. Essas camadas diferem pelo tipo de neurônio e suas conexões. No entanto, a sinalização neural na verdade não passa por todas as camadas do córtex de maneira hierárquica. Os sinais não se movem necessariamente da primeira camada para a última.
A forma como a informação é transmitida pelos neurônios não depende da topologia das camadas. Nas camadas da CNN, sim. A CNN usa o princípio das camadas neuronais de uma maneira diferente: a informação é gradualmente passada de camada para camada.
Tudo isso veio da “neurocognição” proposta por Kunihiko Fukushima em 1980. Ele introduziu dois tipos básicos de camadas CNN: camadas convolucionais e camadas de redução da resolução. Essas camadas contêm unidades semelhantes a diferentes neurônios, que podem processar informações visuais de diferentes complexidades. Fukushima, inspirado por essas células, propôs um modelo em cascata no qual os neurônios passam informações de forma hierárquica: De camada para camada.
Investigar a visão humana levou ao surgimento da visão de inteligência artificial. Agora, os sistemas de computador reconhecem mundos complexos mesmo em movimento. Além disso, eles aprendem sozinhos como fazê-lo de forma mais eficaz.
A visão computacional tornou-se possível devido a várias conquistas. Matemática, biologia, programação e engenharia são frequentemente combinadas para desenvolver um produto de IA. A visão computacional pode ser chamada de visão de IA, pois é baseada em tecnologias de IA. Além disso, a visão de máquina está parcialmente relacionada à visão computacional. Suas tecnologias são frequentemente combinadas. De qualquer forma, a visão computacional é mais comum para muitas tarefas, como monitorar produtos em linhas ou ler códigos QR. Então, como isso funciona?
Pixels: AI vê cores e linhas
Para ser preciso, a IA reconhece padrões. Processa milhões de imagens para poder tirar conclusões sobre elas. É aqui que ocorre o aprendizado profundo, fazendo com que um sistema aprenda.
As imagens são feitas de pixels. Os pixels têm seus códigos e cada imagem é armazenada como dados que consistem nesses códigos. Todas as cores são baseadas em vermelho, azul e verde (como no modelo RGB, por exemplo). Isso significa que cada cor particular tem três valores. Enquanto vemos cães, o computador vê números. Por exemplo, a IA entende os pixels laranja como um conjunto de números (255, 165, 0). Como resultado, os computadores veem uma grade de tais números em vez da imagem.
Se um computador lida com uma imagem de 1920*1080 pixels, ele deve ler 2.073.600 pixels. Para reconhecer um cachorro nesta foto, o computador precisa ver alguns padrões em todos os pixels da imagem. Fazemos algo semelhante: primeiro, notamos as características dos objetos que nos são simples e familiares. É por isso que podemos distinguir um cachorro de um carro por ter apenas suas silhuetas.
Os computadores também tentam distinguir padrões familiares – veja linhas ou formas associadas a algo do banco de dados do computador. Quanto mais correspondências o banco de dados contiver, mais chances o computador categorizará a imagem corretamente.
Tecnologia: CNN inspirada no cérebro
A convolução é uma função matemática combinada com os princípios de uma rede neural na Rede Neural de Convolução. A CNN tem camadas como o córtex. Possui camadas que filtram gradualmente os recursos da imagem, dos mais simples aos mais difíceis:
O núcleo da CNN é a camada de convolução. Pense na imagem como uma grade de números novamente. Nesta camada, graças à multiplicação da grade na matriz de convolução (CM), um computador pode extrair características de uma imagem. Depois que CM foi multiplicado em cada célula da grade, obtemos uma grade transformada. O computador entende seus valores como recursos como arestas ou linhas, e seus padrões podem ser familiares ao banco de dados AI.
A convolução é executada várias vezes para fazer previsões sobre os padrões e verificar sua precisão. As redes neurais continuarão fazendo iterações até que a precisão seja a mais alta possível. Isso se aplica a todas as camadas.
Se obtivermos 10 matrizes de recursos como saída da camada de convolução, essas 10 matrizes serão passadas para a próxima camada como entrada. O agrupamento e as camadas densas também funcionam com uma imagem para muitas iterações. Mas suas funções são diferentes.
A camada de pooling reduz as dimensões das matrizes de características, resumindo assim as informações principais. A imagem de entrada pode conter muitos desvios dos padrões do objeto simples: sombras, rotações ou recortes. Eles complicam o reconhecimento do objeto. Em uma camada de agrupamento, os recursos invariáveis que interferem no processamento da imagem são apenas reduzidos ou reduzidos.
Finalmente, a camada densa deve classificar uma imagem usando a saída das camadas anteriores. Ele tem que lidar com todos os recursos de imagem extraídos das camadas anteriores e nomear os objetos dessa imagem. A camada profunda é uma camada totalmente conectada, chamada assim por causa dos neurônios artificiais altamente interconectados. Outras camadas carecem desse poder.
As camadas convolucionais contêm neurônios conectados apenas com o nível anterior. Não é suficiente para a previsão de um objeto. A camada profunda lida com essa tarefa usando muitos neurônios interconectados ao mesmo tempo. Baseando sua previsão nos recursos extraídos das camadas anteriores, a camada profunda é onde a visão da inteligência artificial atinge sua alta precisão.
No nível de programação, o processamento de imagem não se parece com uma simples filtragem de imagem dentro da hierarquia de camadas. Em casos diferentes, a IA lida com diferentes quantidades de camadas e diferentes iterações de processamento de imagem, e o faz em diferentes períodos de tempo.
Considerando que a IA precisa processar bilhões de imagens para entender o complexo mundo moderno, imaginamos pessoas sentadas e tentando preencher seu banco de dados fingindo que a IA é sua aluna. Agora, a IA está tentando estudar por conta própria. A IA é uma “criança” inteligente que precisa apenas de material para começar.
A IA ensina a si mesma: aprendizado profundo
Para poder reconhecer objetos em imagens rapidamente, a IA precisa de muitos materiais. Os primeiros reconhecimentos faciais foram possíveis devido ao processamento manual de fotos. As pessoas marcavam características em fotos de rosto, e a IA precisava apenas comparar novos rostos com seu banco de dados pronto. AI não funcionou automaticamente e o erro foi muito grande. Para realizar tarefas tão difíceis de visão computacional, o aprendizado de máquina é usado.
Agora, a IA usa tecnologias de aprendizado profundo para aprender por conta própria. A IA geralmente não precisa de pessoas depois de ser alimentada com algum banco de dados. As pessoas não explicam todas as regras para a IA. Eles aplicam algoritmos de aprendizado estatístico – regressão logística, árvores de decisão, regressão linear e máquinas de vetor de suporte – para que a IA comece a se lembrar de novos padrões por conta própria. O aprendizado profundo captura recursos automaticamente e as pessoas não precisam fazer isso manualmente.
Para treinar, a IA ainda precisa de material introduzido por pessoas nas primeiras etapas. Para reconhecer um cão, os desenvolvedores precisam mostrar muitos cães a um computador para prepará-lo. Mais tarde, a IA continuará aprendendo sozinha enquanto processa novas imagens. Isso também significa que a IA não apenas procurará imagens correspondentes em seu banco de dados, mas também saberá como classificar novas imagens se algo semelhante já tiver sido carregado ou visto.
Muitos gigantes da tecnologia de IA compartilham seu trabalho com gigantes de redes sociais como Meta e Google ou o deixam de código aberto. Ele permite coletar big data, compartilhá-lo e dar mais possibilidades de estudo à IA.
Graças às primeiras tecnologias de visão computacional que trabalhavam com big data manualmente, muitas tecnologias modernas de visão de IA realizam tarefas específicas. Hoje, a visão da IA está sendo desenvolvida por milhares de equipes em todo o mundo.
Por exemplo, o algoritmo YOLO permite detecção e rastreamento de objetos em tempo real. Sua tarefa não é apenas detectar um objeto na foto, mas associar todas as informações das fotos anteriores. O princípio You Only Look Once significa que a rede neuronal processa uma imagem apenas uma vez para detectar todos os objetos. Então ele os observa. É possível devido às camadas profundas e ao aprendizado profundo.
Agora, a visão computacional é quase uma tecnologia autossuficiente que faz algumas previsões melhores do que as pessoas. No estudo financiado pelo Google, os algoritmos de aprendizado profundo detectaram células cancerígenas na mama com uma precisão superior à dos radiologistas. Os sistemas de IA mostram uma redução de 5,7% e 1,2% (EUA e Reino Unido) em falsos positivos e 9,4% e 2,7% em falsos negativos. Um bom argumento para confiar na IA, não é?
De lojas a tratores: aplicativos de visão computacional
O que a visão computacional pode nos dizer sobre uma imagem? Sabemos que ele pode detectar objetos e até rastreá-los em tempo real. O que mais? Usando o Google Street View, a IA de visão que capturou carros nas estradas americanas previu receitas e até padrões de votação em áreas de diferentes cidades. Por exemplo, é provável que os cidadãos votem nos democratas se houver mais sedãs do que picapes naquela cidade.
Outra coisa que a IA pode fazer pelas pessoas é contar animais em parques nacionais. O software AI chamado Wildbook identifica automaticamente as espécies por sua aparência. Essa visão de IA pode reconhecer padrões únicos de pelagem ou outros recursos, como contornos de orelhas ou barbatanas. Wildbook tem um banco de dados de 20 espécies. Agora ele coopera com o programa Microsoft AI for Earth para resolver diferentes problemas ambientais. Não lidamos com girafas ou onças com frequência, e essas histórias não nos tocam tanto quanto a IA que encontramos diariamente.
Snapchat e Amazon
Você sabia que pode se concentrar em qualquer produto com uma câmera do Snapchat e a IA mostrará esse produto na Amazon? Se você visitar uma loja física da Amazon, a visão computacional o observará e informará aos desenvolvedores como você se comporta. A IA pode extrair análises de toda a jornada de compra: desde recomendar um estacionamento até coletar dados emocionais e fazer previsões sobre os produtos que são interessantes para um cliente.
Nos bastidores, a IA também ajuda na fase de fabricação. Usando a visão de máquina, as linhas de produtos são monitoradas quanto a mercadorias ou embalagens defeituosas. A propósito, ler códigos de barras é o que o reconhecimento óptico de caracteres (OCR), um tipo de visão de máquina, faz quando você compra algo.
É provável que grande parte do varejo implemente a visão de IA em breve. Diferentes equipes já estão trabalhando em novas tecnologias para detectar e rastrear os produtos para que essas tecnologias se tornem mais baratas. Assim, mais lojas poderão se inscrever.
A Amazon delegou tanto trabalho de IA que a empresa criou o AWS Panorama, um projeto separado que vende serviços de visão computacional para diferentes empresas. Por exemplo, eles ajudaram um aeroporto a lidar com as filas. A AWS também ajuda uma empresa de exploração de gás a monitorar o distanciamento social dos trabalhadores e detectar vazamentos de petróleo. Tocando guitarra Fender? A AWS sabe quanto tempo foi gasto na produção de uma guitarra. Ele ajuda a Fender a monitorar quanto tempo leva para produzir uma guitarra e quais pontos de fabricação podem ser otimizados.
Existem muitos outros exemplos apenas da visão de IA da Amazon. Agora, imagine quantas tarefas são resolvidas pela visão de IA todos os dias, levando em consideração que todo gigante da tecnologia trabalha com IA.
tratores John Deere
As colheitadeiras John Deere cuidam dos campos há quase 200 anos. A empresa está gradualmente implementando tecnologias de IA com a velocidade de um gigante da tecnologia. Em 2020, os desenvolvedores da John Deere lançaram um conceito de trator semiautônomo, que poderia encontrar rotas ideais entre as culturas, analisar a qualidade da colheita, pulverizar herbicidas com precisão e remover ervas daninhas por conta própria. Todos esses recursos foram feitos com visão computacional.
Para analisar plantações e pulverizar herbicidas, não precisamos necessariamente de um trator. Os drones também podem fazer isso. A utilização de drones antecipa-nos à Agricultura de Precisão e resolve o problema das perdas alimentares. Quase 15% dos alimentos são perdidos anualmente durante a colheita e os drones podem diminuir esse número.
A visão computacional pode ajudar a humanidade a lidar com a fome. Na agricultura, a visão AI oferece soluções para minimizar as perdas na colheita. Assim, uma população prevista de 10 bilhões pode enfrentar menos riscos de abastecimento. Além disso, precisaremos de menos herbicidas se a IA castrar com mais precisão do que as pessoas. Pode resolver o problema ecológico com herbicidas extras.
Reconhecimento facial da Apple
Esta é a coisa que usamos não diariamente, mas a cada hora. A partir do iOS 10, os novos modelos de iPhone são desbloqueados pelo FaceID com base em algoritmos de detecção de rosto. As câmeras do iPhone rastreiam um rosto em tempo real e permitem autorização se o rosto pertencer ao proprietário do telefone. No iOS, o reconhecimento facial não é usado apenas para desbloquear a tela, mas também para reconhecer pessoas nas fotos. Nesse caso, as fotos são enviadas para um servidor em nuvem para detectar rostos com a tecnologia de aprendizado profundo.
Foi isso que o Facebook também fez. Até 2021. O Facebook desativou o reconhecimento facial devido à regulamentação da lei fraca e preocupações sociais. Essa opção não se limitava apenas ao reconhecimento facial: um sistema automático de texto alternativo também gerava descrições de imagens para pessoas cegas. Esse sistema usava o reconhecimento facial para saber se uma pessoa ou amigos estavam na imagem. As pessoas continuam discutindo esse assunto porque é onde a IA beneficia a sociedade. Que tal diversão?
Você tentou trocar seu rosto com o rosto do seu amigo em algum aplicativo? Ou você já viu como seria na velhice? Então você tentou a manipulação facial realista. Essa tecnologia de visão AI é usada não apenas para divertir os usuários, mas também para fazer deepfakes. É aqui que a visão computacional se torna perigosa, pois os deepfakes podem ser usados para manipular a sociedade.
Já foi feito com os russos assistindo ao profundo vídeo falso do presidente ucraniano, onde ele dizia que não lidou com a guerra e estava pronto para render a Ucrânia, o que era mentira.
Que coisas realmente boas o reconhecimento facial já fez? Além de criminosos detectados em câmeras públicas, a IA de visão pode encontrar crianças desaparecidas. A polícia de New Dehli rastreou quase 3.000 das 45.000 crianças desaparecidas em apenas quatro dias, graças ao reconhecimento facial aplicado a um banco de dados TrackChild. Mais um exemplo de como a visão computacional beneficia nossa sociedade.
Hoje, há muito trabalho para a visão computacional. Exemplos de IA podem compor uma lista de centenas de pontos. Mais alguns são:
Falando sobre saúde, a CNN e o aprendizado profundo ajudam os médicos a detectar o Covid. Usando imagens de radiografia de tórax, o aplicativo da equipe Covid-Net – DarwinAI – prevê a doença com mais de 92% de precisão. Devido ao seu banco de dados de código aberto, o software possui muitos materiais para aprender.
Nada mal para um “adolescente” que ajuda a humanidade a resolver problemas no varejo, agricultura, redes sociais e saúde. Pode ser que a IA tenha alcançado as possibilidades da inteligência de um adulto. A visão da IA literalmente entrou em todas as esferas da vida. Porém, há algo que a IA é “muito jovem” ou não está pronta para lidar.
A principal limitação não é sobre a IA não saber algo: é um bom “aluno” de aprendizado profundo. O problema é que o hardware geralmente limita o potencial de visão da IA.
O aprendizado de máquina exige processadores de alta eficiência: CPU e GPU precisam renderizar imagens ou vídeos de alta qualidade. Os recursos da CPU geralmente não são suficientes para tarefas computacionais intensivas, enquanto a GPU ajuda a acelerar a computação de visão de IA . Assim, a GPU libera a CPU para outras tarefas além da visão computacional.
Além de computadores eficientes, a visão computacional precisa de dispositivos de ponta. Eles se conectam a câmeras para coletar dados em tempo real, economizando tempo para processamento de dados em nuvens. Os dispositivos de borda processam dados localmente e, como resultado, os dados em tempo real não apresentam problemas de latência. Ao processar dados localmente, as empresas podem economizar dinheiro fazendo o processamento de dados localmente.
Conseguir um dispositivo de ponta não é um problema, mas ele é adicionado à “cesta do consumidor” para visão computacional e o preço fica mais alto. É difícil estimar quanto custaria um computador perfeito para visão de IA. O céu é o limite. Em um laptop comum, apenas tarefas simples de visão de IA podem ser executadas.
Os pesquisadores do laboratório AI12 calcularam quanto custaria se as complexas tarefas de aprendizado profundo NoisyStudent do Google fossem executadas em um AWS da Amazon semelhante à nuvem, por exemplo. Considerando que o NoisyStudent funciona na CNN e inclui 480 milhões de parâmetros, o preço chegaria a $ 10K – $ 200K (somente para 340 milhões de parâmetros).
Se combinar máquina e IA de computador, deve haver uma câmera com alta resolução. Se o objetivo é rastrear um objeto, uma máquina precisa de uma câmera capaz de gravar fluxos de alta definição. Adicione isso ao preço também.
Além do hardware, outra limitação é a falta de dados de alta qualidade. Para ensinar a IA a reconhecer objetos, ela deve ser treinada em dados rotulados com imagens de alta resolução. Lidando com um monte de raios X de baixa qualidade, é difícil para a visão de IA prever doenças. Além disso, muitas vezes não há dados suficientes. O Covid-Net teve sucesso devido ao constante preenchimento de novas varreduras durante a pandemia. Outros projetos podem falhar devido a problemas de privacidade que limitam o acúmulo de dados.
Aqui, a visão da IA lida com outro problema – regulamentação ética e legal. Vários estados dos EUA já proibiram os sistemas de reconhecimento facial nas câmeras corporais da polícia. Considerando que a IA pode encontrar um criminoso ou uma criança desaparecida, parece ser um problema de uma regulamentação de lei fraca que ainda permanece bastante incerta agora.
Os preconceitos raciais e de gênero também atingiram a visão da IA . Na maioria dos casos, a IA é treinada em um conjunto de dados contendo poucas imagens de mulheres e pessoas com pele mais escura. O problema é que isso realmente leva a uma identificação imprecisa – não é apenas uma questão ética.
Em seu caminho, a visão da IA enfrentará muitos problemas morais e será desafiada pela confiança da sociedade. Ética, hardware e dados de baixa qualidade desafiam a IA. No entanto, a questão principal é que a IA ainda precisa de um ser humano. Ele ainda precisa de dados rotulados manualmente.
No entanto, é uma questão de tempo até que a IA resolva os problemas de forma mais autônoma. A visão computacional não é mais uma “criança” tecnológica. Parece ser um adulto e já podemos nos orgulhar disso. Este é o momento de relembrar suas principais conquistas.
Os principais e mais importantes pontos a serem considerados quando se fala em visão computacional são os seguintes:
Depender da IA ou confiar sua vida a ela (ao dirigir um carro autônomo, por exemplo) é sua escolha pessoal. No entanto, o que você deve aceitar, não importa o que pense sobre todas as coisas de alta tecnologia, é que a IA já está observando você desde que você abriu o navegador ou desbloqueou o telefone. Além disso, ele continua cercando você a cada passo de sua rotina diária. Portanto, a melhor coisa a fazer é estar ciente e bem informado sobre como a visão computacional está sendo desenvolvida e de que maneira você pode aproveitá-la pessoalmente ou em termos de negócios.
Originalmente publicado aqui .