Le monde des données a radicalement changé au cours de la dernière décennie. Les bases de données traditionnelles, conçues pour stocker des informations dans un format structuré, se sont transformées en entrepôts massifs de données non structurées hébergées sur plusieurs serveurs à différents endroits. Il n'y a pas si longtemps, nous étions habitués à voir des systèmes monolithiques dominés par des mastodontes, comme Oracle et IBM. Si vous êtes un analyste ou un utilisateur professionnel qui a besoin d'accéder à ce type de données (et qui n'en a pas besoin ?), cela signifiait des systèmes lents qui étaient incroyablement difficiles à gérer.
La complexité croissante des systèmes a finalement conduit au besoin de piles logicielles modernes qui pourraient aider les organisations à exécuter des applications complexes tout en restant rentables. Le mouvement open source a contribué à cela, en réduisant considérablement le coût de l'assemblage d'applications complexes telles que Elastic Search pour la recherche en texte intégral et PyTorch pour la modélisation. L'emballage et les opérations robustes du logiciel ont amélioré la convivialité, la stabilité et l'économie du système.
La pile de données moderne (MDS), qui a connu beaucoup de succès au cours de la dernière décennie, s'appuie sur le mouvement open source et est un ensemble d'idées, d'outils et de méthodologies destinés à construire la pile de données d'entreprise.
Dans les années 2010, nous avons vu l'adoption rapide d'outils open source au sein du MDS. Cependant, après leur succès initial, de nombreuses initiatives d'organisations autour de ceux-ci se sont heurtées à des défis lorsqu'il s'agissait de les mettre à l'échelle :
Les points 1 et 2 ont joué un rôle majeur dans l'augmentation des niveaux de stress dans l'industrie et dans la limitation des talents disponibles pour adopter et utiliser les technologies. Nous avons constaté une tendance similaire dans l'espace DevOps, l'offre de développeurs talentueux ne répondant pas à la demande de nouveaux services numériques. Tyler Jewell de Dell Capital s'est fait entendre à propos de ce problème - qui a conduit à un épuisement professionnel élevé, et la durée moyenne de carrière d'un développeur professionnel étant inférieure à 20 ans. Il a récemment publié un fil de discussion dans lequel il a approfondi la complexité du paysage dirigé par les développeurs, et nous ne pouvons pas nous empêcher de remarquer plusieurs parallèles entre ce qu'il prétend et l'espace MLOps.
Les points 3 et 4 mettent en évidence le sort des spécialistes des données d'aujourd'hui : si la résolution de problèmes ne suffisait pas, ils finissent par passer plus de temps à essayer de comprendre « comment » ils peuvent procéder et résoudre les problèmes sans pouvoir réfléchir à quoi. doit être fait, ou le résultat attendu.
Nous assistons à une évolution des outils de données utilisés par les organisations, motivée par une prise de conscience croissante que nombre d'entre elles n'ont d'autre choix que de s'appuyer sur des fournisseurs tiers pour leurs besoins en infrastructure. Cela n'est pas seulement dû à des contraintes budgétaires, mais également à d'autres contraintes, telles que la sécurité et la provenance des données.
En outre, il existe une demande croissante de processus automatisés permettant aux entreprises de migrer facilement les charges de travail d'un fournisseur à un autre sans perturber les opérations ni provoquer de temps d'arrêt. Nous en constatons les effets dans des secteurs tels que les services financiers, où la gestion des données est souvent essentielle au succès (par exemple, les agences de notation de crédit).
En raison de tout cela ainsi que des défis énumérés ci-dessus, il y a eu plusieurs développements dans la communauté :
La consolidation des outils et des plates-formes, des développements de plates-formes plus simples et l'utilisation de services gérés se produisent dans l'ensemble de l'industrie. Cela découle de la nécessité pour les entreprises de faire face à la complexité. C'est une période passionnante pour faire partie de cet espace, et j'ai hâte de voir comment le paysage évolue au cours de l'année.
Chez Scribble Data (l'entreprise que j'ai cofondée), nous sommes parfaitement conscients de cette évolution en cours. Nous nous concentrons sur un problème spécifique : l'ingénierie des fonctionnalités pour les cas d'utilisation d'analyse avancée et de science des données. Cet espace de problèmes n'a cessé de croître en termes d'importance et a évolué de manière cohérente avec les points ci-dessus. Avec la bonne combinaison de technologies et l'orientation de la solution, il est possible d'aligner la valeur du produit sur les cas d'utilisation, tout en obtenant un délai de valorisation (TTV) 5 fois plus rapide pour chaque cas d'utilisation.
Également publié ici