J'ai récemment donné un cours sur l'utilisation de la science des données pour la cybersécurité, en mettant l'accent sur l'analyse des données de capture de paquets, un sujet plutôt technique et traditionnellement aride. L'approche que j'ai partagée s'inspire de mon expérience en cybersécurité au sein d'institutions financières, couvrant des étapes essentielles telles que l'analyse exploratoire des données, le prétraitement et la transformation des données de journal, et l'identification des anomalies grâce à une combinaison de clustering et d'analyse de réseau de graphes.
L’un des aspects surprenants a été le temps que j’ai passé à préparer cette session, une fraction de ce que j’investirais habituellement. L’IA a joué un rôle important dans la rationalisation du processus. J’ai fait appel à Claude pour m’aider à coder, à élaborer le plan et même à créer les diapositives. Au total, l’ensemble du cours était prêt en 48 heures.
La session s'est avérée intéressante. Les participants, principalement des RSSI qui ne codent généralement pas, ont trouvé les exercices, conçus avec l'aide de l'IA, intuitifs et pratiques. Mon objectif était de les immerger dans le travail direct avec les données et le code. Ils ont particulièrement apprécié la possibilité d'explorer manuellement ce que les plateformes modernes de surveillance des cybermenaces et de SIEM automatisent généralement, en obtenant un aperçu des processus qui se déroulent « sous le capot ».
Ce que j'ai retenu de ce cours était étonnamment contre-intuitif : la science des données telle que nous la connaissons sera un jour remplacée par l'IA . Cette vision peut sembler prématurée, voire en avance sur son temps, mais elle mérite d'être débattue.
Attention : certains éléments pourraient déranger certaines personnes.
Depuis plus d’une décennie, la science des données est considérée comme le « métier le plus sexy du 21e siècle ». Mais à mesure que l’IA progresse rapidement, il devient évident que les défis sous-jacents du domaine sont plus difficiles à ignorer. L’avènement d’une puissante IA générative pourrait bien être le point de bascule pour une discipline qui, rétrospectivement, a peut-être été définie de manière plus vague et surfaite qu’on ne le pensait initialement.
Fondamentalement, la science des données combine l'informatique, les statistiques et le sens des affaires, offrant aux organisations la promesse d'informations exploitables à partir de vastes quantités de données. Cet ensemble de compétences est indéniablement précieux dans le monde actuel axé sur les données. Cependant, sous cette image soignée, le domaine est confronté à des problèmes importants. Ce que l'on appelle souvent la science des données s'avère souvent être un patchwork de tâches vaguement liées qui ne s'alignent pas toujours parfaitement, et de nombreux professionnels du domaine ont du mal à gérer toute l'étendue et la complexité que la discipline exige.
L’essor des outils d’IA capables de gérer l’analyse des données, la modélisation et la génération d’informations pourrait nous amener à changer notre façon de voir le rôle et l’avenir de la science des données elle-même. Alors que l’IA continue de simplifier et d’automatiser de nombreuses tâches fondamentales de la science des données, le domaine pourrait être amené à se demander ce que signifie réellement être un data scientist à l’ère de l’automatisation intelligente.
De nombreux data scientists, malgré leurs compétences de codage et leurs outils numériques sophistiqués, effectuent un travail étonnamment manuel et sujet à erreurs . La préparation, le nettoyage et l'analyse des données impliquent des tâches fastidieuses, chronophages, répétitives et mécaniques. En fait, une part importante du travail de data scientists est consacrée à la préparation des ensembles de données, une tâche qui ressemble souvent plus à une corvée qu'à la science passionnante et axée sur la découverte qu'elle est censée être. Ce problème est aggravé par le fait que beaucoup de ceux qui entrent dans le domaine sont, au mieux, des amateurs. Ayant suivi quelques cours en ligne sur Python ou R, ces « data scientists » ne sont souvent pas préparés aux rigueurs de ce rôle . La data science ne se résume pas à du codage. Elle implique une analyse approfondie, une compréhension contextuelle et la capacité à présenter des informations à des publics non techniques. En réalité, il s'agit davantage d'un travail de recherche, exigeant un mélange de créativité et de pensée analytique que de nombreux professionnels du domaine ne possèdent tout simplement pas.
En outre, de nombreux data scientists ont développé un sentiment de droit à l’emploi, s’attendant à des salaires élevés et à des avantages lucratifs simplement en raison de leur titre. Cette attitude rebute les entreprises, en particulier dans les secteurs où la rentabilité est primordiale. J’ai rencontré des entreprises qui s’empressaient autrefois d’embaucher des data scientists, mais qui reconsidèrent désormais leur décision. Pourquoi payer des salaires élevés à quelqu’un qui passe la plupart de son temps à se débattre avec le nettoyage des données, alors que l’IA peut le faire plus rapidement, mieux et à un coût bien inférieur ?
Comme je l'ai personnellement constaté en écrivant ce cours, l'IA générative est devenue une force puissante dans les domaines où la science des données est la plus faible. Des tâches telles que la préparation des données, le nettoyage et même l'analyse qualitative de base (des activités qui consomment une grande partie du temps d'un data scientist) sont désormais facilement automatisées par les systèmes d'IA . Le pire (ou le meilleur, selon votre point de vue) est que l'IA est plus rapide, plus précise et moins sujette aux erreurs ou à la fatigue humaines.
Pour de nombreux data scientists, cette situation peut être terrifiante. Après tout, ces tâches représentent l’essentiel de leur travail quotidien. Le nettoyage des données, par exemple, est notoirement chronophage et sujet aux erreurs, mais l’IA peut désormais l’accomplir en quelques clics et avec une précision quasi parfaite. Les data scientists se plaignent souvent de ces tâches fastidieuses, pourtant fondamentales pour leur rôle. À mesure que les systèmes d’IA s’améliorent, la nécessité de faire appel à des humains pour effectuer ces tâches diminue. Il n’est pas surprenant qu’une grande partie des critiques virulentes contre l’IA proviennent des data scientists eux-mêmes . Ils voient les signes avant-coureurs et craignent pour leur emploi.
Pour couronner le tout, le domaine n’a pas fait de progrès significatifs ces dernières années. Malgré sa popularité fulgurante, la science des données est toujours en proie à des inefficacités, des erreurs et un manque de clarté sur ce qu’elle devrait impliquer exactement . On pensait autrefois que des outils plus sophistiqués et une meilleure formation feraient évoluer le domaine, mais cela ne s’est pas concrétisé dans la mesure escomptée. En revanche, l’IA s’est constamment améliorée. Les algorithmes d’apprentissage automatique, le traitement du langage naturel et les modèles génératifs évoluent rapidement, laissant la science des données traditionnelle dans la poussière.
Là encore, les attentes salariales élevées des data scientists aggravent le problème . Les entreprises qui toléraient autrefois l’inefficacité se rendent désormais compte que l’IA peut remplacer une grande partie du travail fastidieux sans le coût exorbitant du travail humain. L’IA devenant de plus en plus compétente pour effectuer des tâches clés comme l’analyse, la prévision et même la présentation, la nature manuelle de la science des données devient de plus en plus redondante. De nombreuses entreprises se rendront compte que ce qui nécessitait autrefois une équipe de data scientists peut désormais être géré plus efficacement par des outils basés sur l’IA.
La réalité est que la science des données, telle qu’elle est traditionnellement définie, est sur le point de devenir obsolète. L’IA générative progressant à une vitesse fulgurante, la demande de data scientists humains sous leur forme actuelle va probablement diminuer . Cela ne signifie pas que les humains n’ont aucun rôle à jouer dans la prise de décision basée sur les données, mais le rôle classique de « data scientist » pourrait bientôt appartenir au passé. Ce dont nous avons besoin aujourd’hui, ce sont des professionnels capables de collaborer avec l’IA, d’exploiter ses capacités tout en se concentrant sur la réflexion stratégique et la résolution de problèmes complexes à un niveau supérieur.
L’IA ne signifie pas la fin de l’analyse, de la connaissance ou de la prise de décision, mais plutôt leur évolution . Le domaine actuel de la science des données risque de devenir obsolète s’il n’évolue pas au même rythme. L’IA révolutionne déjà les industries, et la science des données doit s’adapter ou risquer d’être dépassée par cette vague. En fin de compte, la question n’est peut-être pas de savoir si l’IA éliminera la science des données, mais si elle tiendra un jour pleinement ses promesses.
Ou peut-être que la distinction n’a même plus d’importance si nous allons enfin au-delà du battage médiatique autour de la « science des données » et adoptons l’IA comme la prochaine progression logique.
À propos de moi : Vétéran de l'informatique depuis plus de 25 ans, combinant données, IA, gestion des risques, stratégie et éducation. 4 fois vainqueur d'un hackathon et impact social en tant que défenseur des données. Je travaille actuellement à relancer la main-d'œuvre de l'IA aux Philippines. Pour en savoir plus sur moi, cliquez ici : https://docligot.com