L'intelligence artificielle (IA) est un terme que vous devez avoir entendu, même si vous êtes du monde de l'informatique. L'IA, c'est quand les machines et les systèmes informatiques simulent les processus de l'intelligence humaine. À l'heure actuelle, l'IA prend littéralement le contrôle du monde - au moins 90 % des géants de la technologie y investissent. Selon le Data and AI Leadership Executive Survey , le nombre d'entreprises favorables à l'IA participant à l'enquête a doublé en un an. Une autre enquête indique que la moitié des entreprises interrogées utilisent l'IA.
Certaines applications plus spécifiques de l'IA incluent les systèmes experts, le traitement du langage naturel, la reconnaissance vocale et la vision artificielle (par ordinateur). Ce dernier type d'IA - la vision par ordinateur - a déjà été intégré dans le trafic routier, les paiements bancaires et les réseaux sociaux. Au cours des dernières décennies, la vision IA a appris à résoudre de nombreuses tâches avec une précision atteignant celle de l'humain.
"Comme beaucoup d'autres l'ont remarqué et souligné, le néocortex a également une architecture très uniforme dans toutes ses modalités d'entrée. Peut-être que la nature est tombée sur une architecture puissante très similaire et l'a reproduite de la même manière, en ne modifiant que certains détails. Cette consolidation de l'architecture se concentrera à son tour sur les logiciels, le matériel et l'infrastructure, accélérant encore les progrès dans l'IA. […] Quoi qu'il en soit, des moments passionnants. – Andrej Karpathy, chassé par Elon Musk pour développer la vision par ordinateur pour Tesla, a tweeté à propos de la vision de l'IA.
De nombreuses entreprises ont commencé à utiliser la vision par ordinateur dans des tâches d'intelligence artificielle. Karpathy travaille sur des voitures pilotées par l'IA. La NASA utilise la vision de l'IA pour suivre les astronautes, et la police l'utilise pour suivre les criminels. La vision de l'IA est devenue une partie intégrante de notre routine quotidienne. Avez-vous remarqué où la vision par ordinateur fonctionne pour vous chaque jour ? Nous parions que vous l'utilisez quotidiennement. Au moins, vous le faites si vous êtes un client Amazon, Apple ou Google.
Considérant que la vision par ordinateur fait déjà partie de nos vies, il est temps d'apprendre comment fonctionne la vision par IA et de décider de s'y fier ou non. Il y a cinq ans, nous considérions l'IA comme un « enfant ». A-t-il suffisamment grandi pour qu'on s'y fie ? Nous vous recommandons de décider par vous-même après avoir découvert :
Une fois, les gens ont décidé d'apprendre aux ordinateurs à agir comme un cerveau. L'idée appartenait principalement au psychologue Frank Rosenblatt. Beaucoup l'appellent le père de l'IA. À la fin des années 1950, Rosenblatt a fait en sorte qu'un ordinateur simule un réseau de neurones à l'aide de la biologie et des mathématiques. Pour apprendre quelque chose, les neurones du cerveau humain établissent des connexions. Ce principe a jeté les bases de l'intelligence artificielle.
Le co-fondateur du MIT, Marvel Minsky, a franchi l'étape suivante. Il s'attendait à ce que son élève enseigne à l'ordinateur à décrire tout ce qu'il « voyait » tout au long de l'été. Cela vaut la peine de dire que c'était un projet d'été et qu'il a échoué. Bien que l'ordinateur n'ait toujours pas été en mesure de reconnaître les images avec précision, il a reconnu les bords des objets sur les images.
La vision de l'IA a d'abord été appliquée à des textes imprimés de n'importe quelle police (reconnaissance optique de caractères) ou même à des textes manuscrits (reconnaissance intelligente de caractères). C'était déjà possible dans les années 1970. Après cette percée, beaucoup se fait dans les affaires, le divertissement, les transports, les soins de santé et la vie quotidienne.
Les années 1970 ont été cruciales pour la vision par ordinateur, car bon nombre de ses bases technologiques sont apparues au cours de cette décennie. Dans les années 1980, les ordinateurs pouvaient déjà accomplir des tâches compliquées. Grâce à David Marr et à d'autres, l'IA a pu voir des courbes et des bords, et remarquer des motifs visuels similaires. Plus tard, l'ordinateur a pu reconnaître non seulement les lignes, mais aussi l'ombre, la mise au point et la texture. Cela s'est produit grâce au réseau de neurones convolutifs qui a stimulé le traitement des images.
En 2001, l'IA était déjà capable de reconnaître les visages. Depuis le projet AlexNet en 2012, la vision de l'IA fait moins d'erreurs, et maintenant elle est beaucoup plus précise. Bien sûr, il est toujours difficile pour l'IA de reconnaître un chat dans une pose vers le bas. Quoi qu'il en soit, il peut apprendre à le faire. D'énormes efforts ont été déployés par l'équipe d'ImageNet, qui a attiré plus de 50 000 personnes dans le monde entier pour taguer manuellement les images. Cela a aidé l'IA à apprendre certains modèles et à pouvoir continuer à étudier par elle-même.
La vision des ordinateurs est-elle similaire à celle des êtres vivants ?
L'idée de CNN (réseau de neurones convolutifs) est basée sur le principe des neurones. CNN se compose de couches qui reconnaissent progressivement les modèles d'image, des plus simples aux plus complexes, des lignes aux visages entiers. Les couches artificielles sont similaires aux couches de neurones dans un cerveau. Les neurones artificiels sont appelés perceptrons, et CNN est un réseau utilisant ces perceptrons.
En parlant de vision humaine, certains neurones sont activés lorsqu'ils sont particulièrement exposés à des lignes verticales, d'autres à des lignes horizontales ou diagonales. C'est ce que Hubel et Wiesel ont décrit en 1962. Diviser des tâches spécifiques pour séparer les neurones artificiels, c'est aussi ce que fait CNN.
Les perceptrons évaluent les informations différemment ou, en termes mathématiques, les neurones artificiels pondèrent les entrées différemment en décidant lesquelles d'entre elles sont importantes. Notre cerveau filtre les informations de la même manière. Nous ne pouvons pas nous souvenir de tous les visages que nous voyons pendant la journée. Nous ne conservons que les informations précieuses. Qu'en est-il des couches neuronales ?
Le cortex cérébral maintient les neurones en six couches horizontales. Ces couches diffèrent selon le type de neurone et leurs connexions. Cependant, la signalisation neuronale ne traverse pas réellement toutes les couches du cortex de manière hiérarchique. Les signaux ne se déplacent pas nécessairement de la première couche à la dernière.
La façon dont les informations sont transmises à travers les neurones ne dépend pas de la topologie des couches. Dans les couches CNN, c'est le cas. CNN utilise le principe des couches neuronales d'une manière différente : les informations sont progressivement transmises de couche en couche.
Tout cela est venu de la « neurocognition » proposée par Kunihiko Fukushima en 1980. Il a introduit deux types de base de couches CNN : les couches convolutionnelles et les couches de sous-échantillonnage. Ces couches contiennent des unités similaires à différents neurones, qui peuvent traiter des informations visuelles de complexité différente. Fukushima, inspiré par ces cellules, a proposé un modèle en cascade dans lequel les neurones transmettent les informations de manière hiérarchique : de couche en couche.
L'étude de la vision humaine a conduit à l'apparition de la vision de l'intelligence artificielle. Désormais, les systèmes informatiques reconnaissent des mondes complexes même en mouvement. De plus, ils apprennent par eux-mêmes comment le faire plus efficacement.
La vision par ordinateur est devenue possible grâce à plusieurs réalisations. Les mathématiques, la biologie, la programmation et l'ingénierie sont souvent combinées pour développer un produit d'IA. La vision par ordinateur peut être appelée une vision IA car elle est basée sur les technologies de l'IA. De plus, la vision artificielle est partiellement liée à la vision par ordinateur. Leurs technologies sont souvent combinées. Quoi qu'il en soit, la vision par ordinateur est plus courante pour de nombreuses tâches telles que la surveillance de produits en ligne ou la lecture de codes QR. Alors, comment ça marche?
Pixels : l'IA voit les couleurs et les lignes
Pour être précis, l'IA reconnaît les modèles. Il traite des millions d'images pour pouvoir en tirer des conclusions. C'est là que l'apprentissage en profondeur a lieu, ce qui permet à un système d'apprendre.
Les images sont faites de pixels. Les pixels ont leurs codes et chaque image est stockée sous forme de données constituées de ces codes. Toutes les couleurs sont basées sur le rouge, le bleu et le vert (comme dans le modèle RVB, par exemple). Cela signifie que chaque couleur particulière a trois valeurs. Alors que nous voyons des chiens, l'ordinateur voit des chiffres. Par exemple, AI comprend les pixels orange comme un ensemble de nombres (255, 165, 0). En conséquence, les ordinateurs voient une grille de ces nombres au lieu de l'image.
Si un ordinateur traite une image de 1920*1080 pixels, alors il doit lire 2 073 600 pixels. Pour reconnaître un chien sur cette image, l'ordinateur doit voir des motifs sur tous les pixels de l'image. Nous faisons une chose similaire : premièrement, nous remarquons les caractéristiques des objets qui nous sont simples et familières. C'est pourquoi on peut distinguer un chien d'une voiture en n'ayant que leurs silhouettes.
Les ordinateurs essaient également de distinguer des motifs familiers - voyez des lignes ou des formes associées à quelque chose dans la base de données de l'ordinateur. Plus la base de données contient de correspondances, plus l'ordinateur a de chances de catégoriser correctement l'image.
Technologie : CNN inspiré par le cerveau
La convolution est une fonction mathématique combinée aux principes d'un réseau de neurones dans le réseau de neurones à convolution. CNN a des couches comme le cortex. Il comporte des couches qui filtrent progressivement les caractéristiques de l'image, des plus simples aux plus difficiles :
Le cœur de CNN est la couche de convolution. Imaginez à nouveau l'image comme une grille de nombres. Sur cette couche, grâce à la multiplication de la grille sur la matrice de convolution (CM), un ordinateur peut extraire des caractéristiques d'une image. Une fois que CM a été multiplié sur chaque cellule de la grille, nous obtenons une grille transformée. L'ordinateur comprend ses valeurs comme des caractéristiques telles que des arêtes ou des lignes, et leurs modèles peuvent être familiers à la base de données AI.
La convolution est exécutée plusieurs fois pour faire des prédictions sur les modèles et vérifier leur exactitude. Les réseaux de neurones continueront à faire des itérations jusqu'à ce que la précision soit aussi élevée que possible. Cela concerne toutes les couches.
Si nous obtenons 10 matrices de caractéristiques en sortie de la couche de convolution, ces 10 matrices sont transmises à la couche suivante en entrée. La mise en commun et les couches denses fonctionnent également avec une image pour de nombreuses itérations. Mais leurs fonctions sont différentes.
La couche de regroupement réduit les dimensions des matrices de caractéristiques, résumant ainsi les informations principales. L'image d'entrée peut contenir de nombreux écarts par rapport aux motifs de l'objet simple : ombres, rotations ou recadrages. Ils compliquent la reconnaissance de l'objet. Au niveau d'une couche de regroupement, les caractéristiques invariantes qui interfèrent avec le traitement de l'image sont simplement sous-échantillonnées ou réduites.
Enfin, la couche dense doit classer une image en utilisant la sortie des couches précédentes. Il doit traiter toutes les caractéristiques d'image extraites des couches précédentes et nommer les objets de cette image. La couche profonde est une couche entièrement connectée, appelée ainsi en raison des neurones artificiels hautement interconnectés. D'autres couches n'ont pas ce pouvoir.
Les couches convolutives contiennent des neurones connectés uniquement au niveau précédent. Ce n'est pas suffisant pour la prédiction d'un objet. La couche profonde fait face à cette tâche en utilisant simultanément de nombreux neurones interconnectés. En basant sa prédiction sur les caractéristiques extraites des couches précédentes, la couche profonde est l'endroit où la vision de l'intelligence artificielle atteint sa haute précision.
Au niveau de la programmation, le traitement d'images ne ressemble pas à un simple filtrage d'images au sein de la hiérarchie des calques. Dans différents cas, l'IA traite différentes quantités de couches et différentes itérations de traitement d'image, et le fait dans un laps de temps différent.
Considérant que l'IA doit traiter des milliards d'images pour comprendre le monde moderne complexe, nous imaginons des gens assis et essayant de remplir sa base de données en prétendant que l'IA est leur élève. Maintenant, l'IA essaie d'étudier par elle-même. L'IA est un "enfant" intelligent qui n'a besoin que de matériel pour démarrer.
L'IA s'apprend d'elle-même : Apprentissage en profondeur
Pour pouvoir reconnaître rapidement des objets dans des images, l'IA a besoin de beaucoup de matériel. Les premières reconnaissances de visage ont été possibles grâce au traitement manuel des photos. Les gens ont marqué des caractéristiques sur les photos de visage, et l'IA n'avait qu'à comparer les nouveaux visages avec sa base de données prête. L'IA ne fonctionnait pas automatiquement et l'erreur était trop importante. Pour accomplir des tâches aussi difficiles de vision par ordinateur, l'apprentissage automatique est utilisé.
Désormais, l'IA utilise des technologies d'apprentissage en profondeur pour apprendre par elle-même. L'IA n'a généralement pas besoin de personnes après avoir été alimentée par une base de données. Les gens n'expliquent pas chaque règle à l'IA. Ils appliquent des algorithmes d'apprentissage statistique - régression logistique, arbres de décision, régression linéaire et machines à vecteurs de support - afin que l'IA commence à se souvenir de nouveaux modèles par elle-même. L'apprentissage en profondeur capture les fonctionnalités automatiquement et les utilisateurs n'ont pas à le faire manuellement.
Pour s'entraîner, l'IA a encore besoin de matériel introduit par les personnes dans les premières étapes. Pour reconnaître un chien, les développeurs doivent montrer de nombreux chiens à un ordinateur pour le préparer. Plus tard, l'IA continuera à s'auto-apprendre tout en traitant de nouvelles images. Cela signifie également que l'IA ne recherchera pas seulement les images correspondantes dans sa base de données, désormais, elle sait également comment classer les nouvelles images si quelque chose de similaire a déjà été téléchargé ou vu.
De nombreux géants de la technologie de l'IA partagent leur travail avec des géants des réseaux sociaux comme Meta et Google ou le laissent en open source. Cela permet de collecter des données volumineuses, de les partager et de donner à l'IA plus de possibilités d'étude.
Grâce aux premières technologies de vision par ordinateur qui fonctionnaient manuellement avec le Big Data, de nombreuses technologies de vision IA modernes accomplissent des tâches spécifiques. Aujourd'hui, la vision de l'IA est développée par des milliers d'équipes dans le monde.
Par exemple, l'algorithme YOLO permet la détection et le suivi d'objets en temps réel. Sa tâche n'est pas seulement de détecter un objet dans le plan mais d'y associer toutes les informations des plans précédents. Le principe You Only Look Once signifie que le réseau neuronal ne traite une image qu'une seule fois pour détecter tous les objets. Ensuite, il les regarde. C'est possible grâce aux couches profondes et à l'apprentissage en profondeur.
Maintenant, la vision par ordinateur est presque une technologie autosuffisante qui fait certaines prédictions mieux que les gens. Dans l'étude financée par Google, des algorithmes d'apprentissage en profondeur ont détecté des cellules cancéreuses dans le sein avec une précision supérieure à celle des radiologues. Les systèmes d'IA montrent une réduction de 5,7 % et 1,2 % (États-Unis et Royaume-Uni) des faux positifs et de 9,4 % et 2,7 % des faux négatifs. Un bon argument pour faire confiance à l'IA, n'est-ce pas ?
Des magasins aux tracteurs : applications de vision par ordinateur
Que peut nous dire la vision par ordinateur sur une image ? Nous savons qu'il peut détecter des objets et même les suivre en temps réel. Quoi d'autre? À l'aide de Google Street View, l'IA de vision qui a capturé des voitures sur les routes américaines a prédit les revenus et même les habitudes de vote dans différentes zones de villes. Par exemple, les citoyens sont susceptibles de voter pour les démocrates s'il y a plus de berlines que de camionnettes dans cette ville.
Une autre chose que l'IA peut faire pour les gens est de compter les animaux dans les parcs nationaux. Un logiciel d'IA appelé Wildbook identifie automatiquement les espèces par leur apparence. Cette vision de l'IA peut reconnaître des motifs de pelage uniques ou d'autres caractéristiques comme les contours des oreilles ou la douve. Wildbook a une base de données de 20 espèces. Maintenant, il coopère avec le programme Microsoft AI for Earth pour résoudre différents problèmes environnementaux. Nous n'avons pas souvent affaire à des girafes ou à des jaguars, et de telles histoires ne nous touchent pas autant que l'IA que nous rencontrons quotidiennement.
Snapchat et Amazon
Saviez-vous que vous pouvez vous concentrer sur n'importe quel produit avec un appareil photo Snapchat, et AI vous montrera ce produit sur Amazon ? Si vous visitez un magasin Amazon physique, la vision par ordinateur vous observera et dira à ses développeurs comment vous vous comportez. L'IA peut extraire des analyses de l'ensemble du parcours d'achat : de la recommandation d'un parking à la collecte de données émotionnelles en passant par la réalisation de prédictions sur les produits qui intéressent un client.
Dans les coulisses, l'IA aide également au stade de la fabrication. À l'aide de la vision artificielle, les gammes de produits sont surveillées pour détecter les marchandises ou les emballages défectueux. Soit dit en passant, la lecture des codes-barres est ce que fait la reconnaissance optique de caractères (OCR), un type de vision artificielle, lorsque vous achetez quelque chose.
Il est probable qu'une grande partie du commerce de détail mettra bientôt en œuvre la vision de l'IA. Différentes équipes travaillent déjà sur de nouvelles technologies pour détecter et suivre les produits afin que ces technologies deviennent moins chères. Ainsi, davantage de magasins pourront en faire la demande.
Amazon a délégué tellement de travail à l'IA que la société a créé AWS Panorama, un projet distinct qui vend des services de vision par ordinateur pour différentes entreprises. Par exemple, ils ont aidé un aéroport à faire face aux files d'attente. AWS aide également une société d'exploration gazière à surveiller la distanciation sociale des travailleurs et à détecter les fuites de pétrole. Vous jouez de la guitare Fender ? AWS sait combien de temps a été consacré à la production d'une guitare. Cela aide Fender à surveiller combien de temps il faut pour produire une guitare et quels points de fabrication peuvent être optimisés.
Il existe de nombreux autres exemples de la vision de l'IA d'Amazon. Maintenant, imaginez combien de tâches sont résolues par la vision de l'IA chaque jour en tenant compte du fait que chaque géant de la technologie travaille avec l'IA.
Tracteurs John Deere
Les moissonneuses-batteuses John Deere s'occupent des champs depuis près de 200 ans. L'entreprise met progressivement en œuvre des technologies d'intelligence artificielle à la vitesse d'un géant de la technologie. En 2020, les développeurs de John Deere ont lancé un concept de tracteur semi-autonome, qui pourrait trouver des itinéraires optimaux entre les cultures, analyser la qualité de la récolte, pulvériser des herbicides avec précision et éliminer les mauvaises herbes par lui-même. Toutes ces fonctionnalités ont été réalisées avec la vision par ordinateur.
Pour analyser les cultures et pulvériser des herbicides, nous n'avons pas nécessairement besoin d'un tracteur. Les drones peuvent aussi le faire. L'utilisation de drones nous permet d'anticiper l'agriculture de précision et de résoudre le problème des pertes alimentaires. Près de 15% de la nourriture est perdue chaque année lors de la récolte et les drones peuvent diminuer ce nombre.
La vision par ordinateur peut aider l'humanité à faire face à la faim. Dans l'agriculture, vision AI propose des solutions pour minimiser les pertes de récolte. Ainsi, une population estimée à 10 milliards de personnes pourrait être confrontée à moins de risques d'approvisionnement. De plus, nous aurons besoin de moins d'herbicides si l'IA stérilise plus précisément que les humains. Il peut résoudre le problème écologique avec des herbicides supplémentaires.
La reconnaissance faciale d'Apple
C'est la chose que nous utilisons non pas quotidiennement mais toutes les heures. À partir d'iOS 10, les nouveaux modèles d'iPhone sont débloqués par FaceID sur la base d'algorithmes de détection de visage. Les caméras de l'iPhone suivent un visage en temps réel et autorisent l'autorisation si le visage appartient au propriétaire du téléphone. Dans iOS, la reconnaissance faciale n'est pas seulement utilisée pour débloquer l'écran mais aussi pour reconnaître les personnes sur les photos. Dans ce cas, les photos sont envoyées à un serveur cloud pour détecter les visages avec la technologie d'apprentissage en profondeur.
C'est ce que Facebook a fait aussi. Jusqu'en 2021. Facebook a fermé la reconnaissance faciale en raison de la faiblesse de la réglementation et des préoccupations sociales. Cette option n'était pas limitée uniquement par la reconnaissance faciale : un système automatique de texte alternatif générait également des descriptions d'images pour les personnes aveugles. Ce système utilisait la reconnaissance faciale pour dire si une personne ou des amis étaient dans l'image. Les gens continuent de discuter de cette question parce que c'est là que l'IA profite à la société. Qu'en est-il du plaisir ?
Avez-vous essayé d'échanger votre visage avec celui de votre ami dans n'importe quelle application ? Ou avez-vous déjà vu à quoi vous ressembleriez dans votre vieillesse? Ensuite, vous avez essayé la manipulation réaliste du visage. Cette technologie de vision AI est utilisée non seulement pour amuser les utilisateurs mais aussi pour faire des deepfakes. C'est là que la vision par ordinateur devient dangereuse car les deepfakes peuvent être utilisés pour manipuler la société.
Cela a déjà été fait avec les Russes qui regardent la fausse vidéo profonde du président ukrainien où il dit qu'il n'a pas fait face à la guerre et qu'il était prêt à rendre l'Ukraine, ce qui était un mensonge.
Qu'est-ce que la reconnaissance faciale a déjà fait de vraiment bien ? Outre les criminels détectés sur les caméras publiques, la vision AI peut retrouver les enfants disparus. La police de New Dehli a retrouvé près de 3 000 des 45 000 enfants disparus en seulement quatre jours grâce à la reconnaissance faciale appliquée à une base de données TrackChild. Un autre exemple de la façon dont la vision par ordinateur profite à notre société.
Aujourd'hui, il y a trop de travail pour la vision par ordinateur. Les exemples d'IA peuvent constituer une liste de centaines de points. Quelques autres sont:
En parlant de soins de santé, CNN et l'apprentissage en profondeur aident les médecins à détecter Covid. À partir d'images radiographiques du thorax, l'application de l'équipe Covid-Net – DarwinAI – prédit la maladie avec plus de 92 % de précision. En raison de sa base de données open-source, le logiciel a beaucoup de matériel à apprendre.
Pas mal pour un « adolescent » qui aide l'humanité à résoudre des problèmes dans le commerce de détail, l'agriculture, les réseaux sociaux et les soins de santé. Il se pourrait que l'IA ait atteint les possibilités de l'intelligence d'un adulte. La vision de l'IA est littéralement entrée dans toutes les sphères de la vie. Cependant, il y a quelque chose que l'IA est "trop jeune" ou pas prête à gérer.
La principale limitation n'est pas que l'IA ne sait pas quelque chose : c'est un bon « élève » d'apprentissage en profondeur. Le problème est que le matériel limite souvent le potentiel de vision de l'IA.
L'apprentissage automatique exige des processeurs très efficaces : le processeur et le processeur graphique doivent restituer des images ou des vidéos de haute qualité. Les capacités du processeur ne sont souvent pas suffisantes pour les tâches de calcul intensives, tandis que le GPU aide à accélérer le calcul de la vision de l'IA . Ainsi, le GPU libère le CPU pour des tâches autres que la vision par ordinateur.
Outre des ordinateurs efficaces, la vision par ordinateur a besoin d'appareils de pointe. Ils sont connectés à des caméras pour collecter des données en temps réel, ce qui permet de gagner du temps pour le traitement des données dans les nuages. Les appareils Edge traitent les données localement et, par conséquent, les données en temps réel ne présentent aucun problème de latence. En traitant les données localement, les entreprises peuvent économiser de l'argent en faisant effectuer le traitement des données localement.
Obtenir un appareil de pointe n'est pas un problème, mais il est ajouté au « panier de consommation » pour la vision par ordinateur, et le prix augmente. Il est difficile d'estimer combien coûterait un ordinateur parfait pour la vision par IA. Le ciel est la limite. Sur un ordinateur portable courant, seules des tâches de vision IA simples peuvent être exécutées.
Les chercheurs du laboratoire AI12 ont calculé combien cela coûterait si les tâches complexes d'apprentissage en profondeur NoisyStudent de Google s'exécutaient dans un AWS d'Amazon de type cloud, par exemple. En considérant que NoisyStudent fonctionne sur CNN et comprend 480 millions de paramètres, le prix atteindrait 10K$ – 200K$ (uniquement pour 340 millions de paramètres).
Si vous combinez l'IA de la machine et de l'ordinateur, il doit y avoir une caméra à haute résolution. Si l'objectif est de suivre un objet, une machine a besoin d'une caméra capable d'enregistrer des flux haute définition. Ajoutez cela au prix aussi.
Outre le matériel, une autre limitation est le manque de données de haute qualité. Pour apprendre à l'IA à reconnaître des objets, elle doit être entraînée sur des données étiquetées avec des images haute résolution. Face à un tas de rayons X de mauvaise qualité, il est difficile pour la vision de l'IA de prédire la maladie. De plus, il n'y a souvent pas assez de données. Covid-Net a réussi en raison du remplissage constant de nouveaux scans pendant la pandémie. D'autres projets peuvent échouer en raison de problèmes de confidentialité qui limitent l'accumulation de données.
Ici, la vision de l'IA traite d'un autre problème - l'éthique et la réglementation des lois. Plusieurs États américains ont déjà interdit les systèmes de reconnaissance faciale dans les caméras du corps de la police. Considérant que l'IA peut trouver un criminel ou un enfant disparu, cela semble être un problème de réglementation de la loi faible qui reste encore assez floue maintenant.
Les préjugés raciaux et sexistes ont également atteint la vision de l'IA . Dans la plupart des cas, l'IA est formée sur un ensemble de données contenant peu d'images de femmes et de personnes à la peau plus foncée. Le problème est que cela conduit effectivement à une identification inexacte – ce n'est pas seulement une question d'éthique.
Sur son chemin, la vision de l'IA sera confrontée à de nombreux problèmes moraux et sera mise au défi par la confiance de la société. L'éthique, le matériel et les données de mauvaise qualité défient l'IA. Cependant, le principal problème est que l'IA a toujours besoin d'un humain. Il a toujours besoin de données étiquetées manuellement.
Cependant, ce n'est qu'une question de temps avant que l'IA résolve les problèmes de manière plus autonome. La vision par ordinateur n'est plus un «enfant» technologique. Il a l'air d'être un adulte et on peut déjà en être fier. C'est le moment de rappeler ses principales réalisations.
Les points principaux et les plus importants à prendre en compte lorsque l'on parle de vision par ordinateur sont les suivants :
Que vous vous appuyiez sur l'IA ou que vous lui confiiez votre vie (en conduisant une voiture autonome, par exemple) est votre choix personnel. Cependant, ce que vous devriez accepter, peu importe ce que vous pensez de tous les trucs de haute technologie, c'est que l'IA vous surveille déjà depuis que vous avez ouvert votre navigateur ou débloqué votre téléphone. De plus, il vous entoure à chaque étape de votre routine quotidienne. La meilleure chose à faire est donc d'être conscient et informé de la façon dont la vision par ordinateur est développée et de la manière dont vous pouvez en tirer parti personnellement ou professionnellement.
Publié à l'origine ici .