La détection des anomalies peut vous aider à identifier les tendances à venir avant vos concurrents. Il peut signaler les transactions frauduleuses en surveillant le trafic des magasins en ligne et repérer la violence dans les lieux publics, donnant à votre équipe de sécurité la possibilité d'intervenir avant que des personnes ne soient blessées.
Intéressé? Il existe des sociétés de détection d'anomalies dédiées qui peuvent vous aider à créer et à intégrer des logiciels personnalisés conçus pour détecter les écarts de comportement dans votre secteur d'activité.
Alors, qu'est-ce que la détection d'anomalies ? Comment ça marche? Et comment pouvez-vous l'intégrer dans les processus et les flux de travail de votre entreprise ?
Qu'est-ce que la détection d'anomalies ?
Comment fonctionne la détection d'anomalies ?
Principaux cas d'utilisation de la détection d'anomalies
Premiers pas avec la détection d'anomalies
Comment ITRex peut aider à la détection d'anomalies
La détection d'anomalies est un type d'exploration de données qui analyse les données d'une entreprise pour détecter les points de données qui s'écartent de la ligne de base établie (par exemple, le comportement standard de l'ensemble de données). Ces valeurs aberrantes indiquent généralement des incidents, tels que des problèmes techniques dans l'équipement, des changements dans les préférences des clients et d'autres types d'anomalies, permettant aux entreprises d'agir avant que le dommage ne soit fait.
Une anomalie est un point de données incohérent qui s'écarte d'un modèle familier. Même si cela ne représente pas toujours une préoccupation importante, cela vaut la peine d'enquêter pour éviter d'éventuelles escalades. Par exemple, une augmentation des ventes de produits peut être le résultat d'une campagne marketing réussie ou peut indiquer un changement dans les tendances et le comportement des clients, auquel les entreprises devront s'adapter.
Les anomalies des données d'entreprise se répartissent en trois catégories de valeurs aberrantes :
Une valeur aberrante globale est un point de données situé anormalement loin du reste des données. Supposons que vous receviez 7 000 $ sur votre compte bancaire chaque mois. Si vous obtenez soudainement un transfert de 50 000 $, ce serait une valeur aberrante mondiale.
Une valeur aberrante contextuelle s'écarte du reste des données dans le même contexte. Par exemple, si vous vivez dans un pays où il neige généralement en hiver et où il fait chaud en été, de fortes chutes de neige en hiver sont normales. Mais connaître une chute de neige pendant l'été serait une valeur aberrante contextuelle.
Une valeur aberrante collective se produit lorsqu'un sous-ensemble de points de données s'écarte de l'ensemble de données complet. Par exemple, si vous observez des baisses inhabituelles des ventes de plusieurs produits apparemment sans rapport, mais que vous réalisez ensuite que cela est lié d'une manière ou d'une autre, vos observations sont alors combinées en une seule valeur aberrante collective.
La plupart des entreprises traitent de gros volumes de données structurées et non structurées, ces dernières comprenant jusqu'à 90 % des informations générées au sein d'une entreprise. Il est impossible de traiter manuellement toutes ces informations et de générer des informations significatives, en particulier si nous parlons de données non structurées, composées d'images, de transactions, de texte libre, etc.
La recherche montre que les techniques d'apprentissage automatique sont le meilleur choix pour traiter de grands ensembles de données non structurées. Ce champ contient un grand nombre d'algorithmes et vous pouvez sélectionner celui qui vous convient le mieux. Vous pouvez également combiner plusieurs techniques ML ensemble pour des résultats optimaux.
Il existe trois principaux types de techniques de détection d'anomalies basées sur l'IA et l'apprentissage automatique.
Détection supervisée des anomalies . Ici, les modèles ML sont entraînés et testés avec un ensemble de données entièrement étiqueté contenant un comportement normal et anormal. L'approche fonctionne bien lors de la détection d'écarts qui faisaient partie d'un ensemble de données de formation, mais la technologie trébuche lorsqu'elle est confrontée à une nouvelle anomalie qu'elle n'a pas vue lors de la formation. Les techniques supervisées nécessitent un effort manuel et une expertise du domaine car quelqu'un doit étiqueter les données.
Détection d'anomalies non supervisée . Cette méthode ne nécessite pas d'étiquetage manuel des données. Les modèles supposent que seul un petit pourcentage de points de données qui diffèrent significativement du reste des données constituent des anomalies. Les techniques non supervisées peuvent encore exceller dans l'identification de nouvelles anomalies dont elles n'ont pas été témoins pendant la formation, car elles détectent les valeurs aberrantes en fonction de leurs caractéristiques plutôt que de ce qu'elles ont appris pendant la formation. Cependant, ces algorithmes sont assez complexes et leur architecture est une boîte noire, ce qui signifie que les utilisateurs ne recevront pas d'explication sur la façon dont l'outil a pris ses décisions.
Détection d'anomalies semi-supervisée . Ces techniques impliquent à la fois des données étiquetées et non étiquetées, ce qui réduit les dépenses d'annotation manuelle. De plus, un modèle de détection d'anomalies semi-supervisé peut toujours apprendre après le déploiement et détecter des anomalies qu'il n'a pas vues lors de la formation. Et comme pour les techniques non supervisées, ces modèles peuvent également fonctionner avec des données non structurées.
La détection des anomalies repose sur l'intelligence artificielle et ses sous-types, y compris l'apprentissage automatique. Voici cinq techniques de ML fréquemment déployées dans ce contexte.
Les auto-encodeurs sont des réseaux de neurones artificiels non supervisés qui compriment les données puis les reconstruisent pour ressembler le plus possible à la forme originale. Ces algorithmes peuvent efficacement ignorer le bruit et reconstruire du texte, des images et d'autres types de données. Un encodeur automatique comporte deux parties :
Encodeur, qui comprime les données d'entrée
Décodeur, qui décompresse les données à proximité de leur forme d'origine
Lorsque vous utilisez un encodeur automatique, faites attention à la taille du code, car elle déterminera le taux de compression. Un autre paramètre important est le nombre de couches. Avec moins de couches, l'algorithme sera plus rapide, mais il pourrait fonctionner sur moins de fonctionnalités.
Cette technique est un type de modèle basé sur un graphique probabiliste qui calcule la probabilité en fonction de l'inférence bayésienne. Les nœuds d'un graphe correspondent à des variables aléatoires, tandis que les arêtes représentent des dépendances conditionnelles qui permettent au modèle de faire des inférences.
Les réseaux bayésiens sont utilisés dans les diagnostics, la modélisation causale, le raisonnement, etc. Dans la détection d'anomalies, cette méthode est particulièrement utile pour détecter des déviations subtiles difficiles à repérer à l'aide d'autres techniques. Cette méthode peut également tolérer des données manquantes pendant la formation et aura toujours des performances solides si elle est formée sur de petits ensembles de données.
Il s'agit d'une technique de clustering ML non supervisée qui détecte des modèles reposant uniquement sur l'emplacement spatial et les distances entre voisins. Il compare la valeur de densité d'un point de données à la densité de ses points de données voisins. Une valeur aberrante (une anomalie) aura une valeur de densité inférieure à celle d'autres populations de données.
Il s'agit d'un algorithme de ML supervisé couramment utilisé pour la classification. Cependant, les extensions SVM peuvent également fonctionner dans un environnement non supervisé. Cette technique utilise des hyperplans pour diviser les points de données en classes.
Même si SVM fonctionne généralement avec deux classes ou plus, dans la détection d'anomalies, il peut analyser des problèmes à classe unique. Il apprend "la norme" pour cette classe et détermine si un point de données peut appartenir à cette classe ou s'il s'agit d'une valeur aberrante.
GMM est une technique de clustering probabiliste. Cette technique classe les données en différents groupes en fonction de la distribution de probabilité. Il suppose que les points de données appartiennent à un mélange de distributions gaussiennes avec des paramètres inconnus, et il détecte les anomalies en repérant les données dans les régions à faible densité.
Maintenant que vous savez comment fonctionne la détection d'anomalies dans les coulisses et les techniques d'IA sur lesquelles elle s'appuie, il est temps d'étudier quelques exemples de détection d'anomalies dans différents secteurs.
La détection des anomalies peut bénéficier au secteur médical en aidant les médecins à identifier tout problème de santé des patients, à détecter les escalades chez les patients hospitalisés et à informer le personnel médical avant qu'il ne soit trop tard, et à faciliter le diagnostic et le choix du traitement. Tout cela réduit le travail manuel et la charge cognitive que subissent les médecins.
Cependant, la détection des anomalies présente des défis uniques dans le domaine de la santé.
Un problème est qu'il peut être difficile d'établir la ligne de base (c'est-à-dire le comportement normal) lorsqu'il s'agit de différents schémas médicaux. Par exemple, un électroencéphalogramme d'une personne en bonne santé varie en fonction des caractéristiques individuelles. Les chercheurs ont identifié des variations considérables chez les enfants , et il existe des différences chez les adultes selon le groupe d'âge et le sexe.
Un autre aspect est que les modèles ML doivent être très précis, car la vie des gens dépendra de leurs performances.
Les algorithmes de détection d'anomalies médicales peuvent analyser les informations suivantes :
Un exemple de détection d'anomalies vient d'une équipe de recherche en Afrique du Sud. Ils ont combiné avec succès des techniques d'auto-encodeur et d'amplification de gradient extrême pour surveiller les variables physiologiques des patients COVID-19 et détecter toute anomalie qui indiquerait une dégradation de la santé.
Une autre équipe s'est concentrée non seulement sur la détection des anomalies, mais aussi sur l'explication des raisons pour lesquelles l'outil les a signalées comme telles . Ainsi, ils ont d'abord utilisé des techniques de détection d'anomalies pour repérer les écarts, puis déployé des algorithmes d'exploration d'aspects pour définir un ensemble de caractéristiques dans lesquelles un certain point de données est considéré comme une valeur aberrante.
Les environnements sportifs et de divertissement reposent sur une surveillance de sécurité basée sur la vidéo avec des centaines de caméras. Par conséquent, il ne serait pas possible pour les équipes de sécurité de repérer et de réagir rapidement aux accidents si les images étaient examinées manuellement. Grâce à l'apprentissage automatique, les algorithmes peuvent analyser les vidéos diffusées par chaque caméra de l'installation et détecter les violations de sécurité.
Alors que les modèles ML continuent d'apprendre sur le tas, ils pourraient détecter des menaces et des violations que vos opérateurs humains n'auraient pas pu remarquer. Ces algorithmes peuvent détecter le vandalisme, les troubles parmi les spectateurs, la fumée, les objets suspects, etc., et alerter le personnel de sécurité afin qu'il ait le temps d'agir et de prévenir les responsabilités et les atteintes à la réputation.
Un de ces projets sort tout droit de notre portefeuille. Une société de divertissement basée aux États-Unis avec des salles de jeux réparties dans tout le pays s'est tournée vers ITRex pour créer une solution de détection d'anomalies basée sur ML qui s'intégrerait dans son système de vidéosurveillance basé sur le cloud. Cette application détecterait tout comportement dangereux et violent, comme casser des machines à sous. Cela rationaliserait également le processus administratif en repérant les objets oubliés et les machines en panne.
Notre équipe a créé un modèle ML personnalisé à l'aide d'un auto-encodeur variationnel. Nous avons agrégé un ensemble de données de formation de 150 vidéos illustrant la violence physique et les dommages matériels et prétraité ces vidéos avec le framework OpenCV. Ensuite, nous nous sommes appuyés sur la bibliothèque torchvision pour normaliser et augmenter les données et les avons utilisées pour former l'algorithme ML.
La solution résultante reposait sur la validation croisée pour repérer les anomalies. Par exemple, il pourrait identifier les machines à sous défectueuses en « lisant » le message d'erreur à l'écran et en le validant par rapport aux modèles d'écran disponibles. La solution finale s'est intégrée de manière transparente au système de sécurité basé sur le cloud du client, a surveillé les machines à sous 24h/24 et 7j/7 et a informé le personnel de sécurité chaque fois qu'il détectait une anomalie.
À mesure que les processus de fabrication deviennent de plus en plus automatisés, les machines deviennent plus complexes et les installations s'agrandissent. Par conséquent, les approches de surveillance traditionnelles ne suffisent plus.
Les techniques de détection d'anomalies peuvent décrire différents écarts par rapport à la norme dans votre établissement et vous avertir avant qu'ils ne s'aggravent et même apprendre à faire la distinction entre les problèmes mineurs et les préoccupations urgentes.
Il existe de nombreux avantages en matière de détection d'anomalies pour la fabrication. Ces outils peuvent détecter les problèmes suivants :
Matériel en panne . En collaboration avec les fabricants de capteurs Internet des objets (IoT), les algorithmes d'IA peuvent surveiller divers paramètres de l'appareil, tels que les vibrations, la température, etc., et détecter tout écart par rapport à la norme. De tels changements peuvent indiquer que l'équipement est surchargé, mais cela peut aussi signifier le début d'une panne. L'algorithme signalera l'équipement pour une inspection plus approfondie. C'est ce qu'on appelle aussi la maintenance prédictive.
Sous-utilisation des équipements . Les solutions de détection d'anomalies basées sur ML peuvent voir quels appareils restent inactifs pendant une période prolongée et inciter l'opérateur à équilibrer la répartition de la charge.
Dangers pour la sécurité . En surveillant les flux des caméras de sécurité, un logiciel de détection d'anomalies peut repérer les employés qui ne respectent pas les protocoles de sécurité de l'usine, mettant en danger leur propre bien-être. Si vos employés utilisent des appareils portables pour surveiller la sécurité, l'apprentissage automatique peut analyser les données des capteurs pour repérer les travailleurs épuisés et malades et les encourager à faire une pause ou à se déconnecter pour la journée.
Problèmes d'infrastructure . Les algorithmes ML peuvent détecter les fuites d'eau ou de gaz et tout autre dommage infrastructurel et notifier le gestionnaire de site correspondant.
Un exemple de solution de détection d'anomalies de fabrication provient de Hemlock Semiconductor, un producteur américain de polysilicium hyper pur. L'entreprise a déployé la détection des anomalies pour obtenir une visibilité sur ses processus et enregistrer tout écart par rapport aux modèles de production optimaux. L'entreprise a déclaré avoir économisé environ 300 000 dollars par mois en consommation de ressources.
La détection des anomalies peut aider les détaillants à identifier des comportements inhabituels et à utiliser ces informations pour améliorer leurs opérations et protéger leur entreprise et leurs clients. Les algorithmes d'IA peuvent s'adapter à l'évolution des demandes des clients et alerter les détaillants pour qu'ils cessent d'acquérir des produits qui ne se vendent pas tout en réapprovisionnant les articles en demande. De plus, les anomalies peuvent représenter des opportunités commerciales à un stade précoce, permettant aux détaillants d'en tirer parti avant la concurrence. Dans le cas du commerce électronique, les propriétaires de sites Web peuvent déployer des modèles de détection d'anomalies pour surveiller le trafic afin de détecter un comportement inhabituel qui pourrait signaler une activité frauduleuse.
De plus, les détaillants peuvent utiliser des techniques de détection d'anomalies pour sécuriser leurs locaux. Chez ITRex, nous avons mené une série de PoC pour créer une solution capable de détecter les expressions de violence, telles que les bagarres, dans les vidéos diffusées par les caméras de sécurité placées dans les centres commerciaux et autres lieux publics. La solution repose sur la méthode de détection d'anomalies des réseaux de neurones convolutifs 3D, qui a été entraînée sur un vaste ensemble de données de combat. Ce type d'algorithme ML est connu pour bien fonctionner sur les tâches de détection d'action. Si vous êtes intéressé par une telle solution, nous pouvons vous montrer la démo complète pour commencer. Ensuite, notre équipe affinera l'algorithme et ajustera ses paramètres pour correspondre aux spécificités de votre emplacement et de votre entreprise, et nous l'intégrerons de manière transparente dans votre système de sécurité existant.
Comme vous pouvez le voir, la formation de modèles d'IA personnalisés pour la détection d'anomalies ponctuelles peut être un défi technique. C'est pourquoi notre équipe a préparé un guide en cinq étapes pour les entreprises qui envisagent la nouvelle technologie. Faites défiler vers le bas pour quelques conseils d'experts - et envisagez de télécharger notre guide commercial sur l'intelligence artificielle si vous êtes nouveau dans le domaine de l'IA ou si vous recherchez plus d'informations sur les applications d'IA et les coûts des projets.
Il y a deux options ici. Soit vous recherchez des anomalies spécifiques dans vos données, soit vous souhaitez signaler tout ce qui s'écarte du comportement standard. Ce que vous choisissez ici aura un impact sur vos données d'entraînement et restreindra la sélection de techniques d'IA.
Si vous souhaitez capturer chaque événement qui s'écarte de la ligne de base, vous entraînerez le modèle sur un grand ensemble de données représentant un comportement normal. Par exemple, si vous travaillez sur la conduite et la sécurité routière, votre ensemble de données sera composé de vidéos montrant une conduite sûre.
Supposons que vous cherchiez à détecter des anomalies spécifiques - par exemple, des accidents de voiture, mais pas des infractions mineures, telles que traverser un feu rouge. Dans ce cas, votre ensemble de données d'entraînement inclura des vidéos ou des images d'accidents de voiture.
Le résultat de l'étape précédente vous aidera à décider du type de données dont vous avez besoin.
Collectez les données à partir des sources internes de votre entreprise ou utilisez des ensembles de données accessibles au public. Ensuite, nettoyez ces données pour éliminer les doublons et toutes les entrées incorrectes ou déséquilibrées. Lorsque l'ensemble de données est nettoyé, vous pouvez utiliser la mise à l'échelle, la normalisation et d'autres techniques de transformation de données pour rendre l'ensemble adapté aux algorithmes d'IA. Divisez votre ensemble de données en trois parties :
Pour plus d'informations, consultez notre guide détaillé sur la préparation des données pour le machine learning .
Cette étape n'est pertinente que si vous souhaitez créer une solution personnalisée. Vous ou votre fournisseur de technologie sélectionnerez la technique d'intelligence artificielle la mieux adaptée pour résoudre le problème de l'entreprise. Il y a trois facteurs clés à considérer ici :
La tâche à accomplir (reportez-vous à l'étape 1 ci-dessus). Si vous souhaitez détecter des anomalies spécifiquement définies, l'auto-encodeur variationnel (VAE) est une excellente option.
Les exigences techniques . Cela peut inclure les niveaux de précision et de détail que vous souhaitez atteindre. Par exemple, si vous souhaitez former un modèle ML qui détecte les anomalies dans les vidéos, il est essentiel de décider de la fréquence d'images optimale, car différents algorithmes analysent les images à des vitesses différentes. Tant que l'anomalie que vous souhaitez détecter peut se produire en une seconde, il est recommandé d'étudier chaque image d'un clip vidéo, et l'utilisation d'algorithmes plus lents, tels que VAE, devient peu pratique. La décomposition en valeurs singulières (SVD), en revanche, peut faire le travail beaucoup plus rapidement.
La taille de votre ensemble de données d'entraînement . Certains modèles, tels que les encodeurs automatiques, ne peuvent pas être correctement entraînés sur de petits ensembles de données.
Vous pouvez soit acheter un logiciel de détection d'anomalies prêt à l'emploi, soit implémenter un système personnalisé qui correspondra à vos besoins uniques et sera adapté au type d'anomalies qui vous intéresse.
Vous pouvez opter pour un système de détection d'anomalies prêt à l'emploi lorsque vous avez des ressources financières limitées, pas d'ensemble de données de formation personnalisé ou pas de temps pour la formation de modèles, et vous pouvez trouver un fournisseur qui propose déjà une solution capable de détecter le type d'anomalies vous êtes concerné. Mais gardez à l'esprit que ces solutions ont des hypothèses intégrées concernant les caractéristiques des données et qu'elles fonctionneront bien tant que ces hypothèses seront maintenues. Cependant, si les données de votre entreprise s'écartent de cette ligne de base, l'algorithme peut ne pas détecter les anomalies avec la même précision.
Si vous disposez de suffisamment de données pour former des algorithmes d'IA, vous pouvez engager une société de développement d'apprentissage automatique pour créer et former une solution de détection d'anomalies personnalisée. Cette option sera conçue pour répondre aux besoins de votre entreprise et s'intégrer à vos processus. Un autre grand avantage est que vous pouvez toujours optimiser cette solution même après le déploiement. Vous pouvez modifier ses paramètres pour le faire fonctionner plus rapidement ou vous concentrer sur différents paramètres, en fonction de l'évolution des besoins de votre entreprise.
Vous déploierez la solution de détection d'anomalies soit localement, soit dans le cloud. Si vous travaillez avec ITRex, nous aurons le choix entre deux options :
Détection d'anomalies basée sur le cloud , où nous regroupons les données de vos systèmes logiciels, appareils et services tiers et les transmettons au cloud pour stockage et traitement afin de soulager vos ressources locales.
Détection des anomalies Edge , où les algorithmes ML analysent vos données localement et ne téléchargent qu'une partie des données dans le cloud. Cette approche est la mieux adaptée aux systèmes critiques qui ne tolèrent pas les retards, tels que les véhicules autonomes et les solutions IoT médicales.
Les algorithmes ML continuent d'apprendre sur le tas, ce qui leur permet de s'adapter à de nouveaux types de données. Mais cela signifie également qu'ils peuvent acquérir des préjugés et d'autres tendances indésirables. Pour éviter ce scénario, vous pouvez planifier un audit pour réévaluer les performances des algorithmes et mettre en œuvre les ajustements nécessaires.
Chez ITRex Group, nous avons une vaste expérience des modèles d'apprentissage automatique, tels que les auto-encodeurs bêta-variationnels (Bêta-VAE) et les modèles de mélange gaussien (GMM), l'IoT, l'analyse de données et la visualisation de données. Nous avons mis en œuvre ces technologies dans différentes industries, nous sommes donc conscients des spécificités que les secteurs fortement réglementés, tels que la santé, apportent. Nous utilisons une combinaison de technologies open source et propriétaires, telles que des outils d'exploration de données et des frameworks ML, pour développer des solutions personnalisées et les intégrer à vos processus métier.
Nos solutions personnalisées basées sur l'IA pour la détection des anomalies peuvent fonctionner avec les deux tâches : détecter les anomalies prédéfinies et repérer tout écart par rapport au comportement standard établi. Vous pouvez opter pour le cloud pour économiser sur l'infrastructure, ou nous pouvons faire fonctionner le système localement pour prendre en charge les applications critiques qui ne tolèrent pas la latence.
Intéressé par la mise en place d'un système de détection d'anomalies ? Écrivez-nous ! Nous pouvons vous aider à créer et à former un modèle ML personnalisé. Même si vous optez pour une solution toute faite, si elle est open-source et dispose d'une API, nous pouvons toujours la ré-entraîner sur vos propres données afin qu'elle s'adapte mieux à votre système !