paint-brush
Complexités croissantes de l'infrastructure de données : implications en matière de coûts et voie à suivrepar@pingaliscribble
598 lectures
598 lectures

Complexités croissantes de l'infrastructure de données : implications en matière de coûts et voie à suivre

par Venkata Pingali5m2022/08/04
Read on Terminal Reader
Read this story w/o Javascript

Trop long; Pour lire

Comprendre le paysage actuel de l'infrastructure de données serait impossible sans approfondir son parcours des bases de données traditionnelles à la pile de données moderne (MDS) telle qu'elle existe aujourd'hui, ainsi que les défis, les complexités et les changements rapides en cours de route. Dans cet article, nous examinons comment MDS a vu le jour et comment il est difficile de le mettre à l'échelle - avec une surcharge cognitive, une courbe d'apprentissage abrupte et un épuisement professionnel élevé qu'il provoque parmi les équipes de données. Nous examinons également comment cela conduit à la consolidation des outils et des plates-formes, à des développements de plates-formes plus simples, ainsi qu'à de nouvelles méthodologies davantage axées sur l'établissement de la confiance, l'attachement aux résultats et simplement la suppression du bruit créé par le barrage d'outils. se présenter tous les jours.

Companies Mentioned

Mention Thumbnail
Mention Thumbnail

Coin Mentioned

Mention Thumbnail
featured image - Complexités croissantes de l'infrastructure de données : implications en matière de coûts et voie à suivre
Venkata Pingali HackerNoon profile picture


Le monde des données a radicalement changé au cours de la dernière décennie. Les bases de données traditionnelles, conçues pour stocker des informations dans un format structuré, se sont transformées en entrepôts massifs de données non structurées hébergées sur plusieurs serveurs à différents endroits. Il n'y a pas si longtemps, nous étions habitués à voir des systèmes monolithiques dominés par des mastodontes, comme Oracle et IBM. Si vous êtes un analyste ou un utilisateur professionnel qui a besoin d'accéder à ce type de données (et qui n'en a pas besoin ?), cela signifiait des systèmes lents qui étaient incroyablement difficiles à gérer.

La naissance d'une nouvelle pile logicielle

La complexité croissante des systèmes a finalement conduit au besoin de piles logicielles modernes qui pourraient aider les organisations à exécuter des applications complexes tout en restant rentables. Le mouvement open source a contribué à cela, en réduisant considérablement le coût de l'assemblage d'applications complexes telles que Elastic Search pour la recherche en texte intégral et PyTorch pour la modélisation. L'emballage et les opérations robustes du logiciel ont amélioré la convivialité, la stabilité et l'économie du système.


La pile de données moderne (MDS), qui a connu beaucoup de succès au cours de la dernière décennie, s'appuie sur le mouvement open source et est un ensemble d'idées, d'outils et de méthodologies destinés à construire la pile de données d'entreprise.

Défis liés à la mise à l'échelle de MDS

Dans les années 2010, nous avons vu l'adoption rapide d'outils open source au sein du MDS. Cependant, après leur succès initial, de nombreuses initiatives d'organisations autour de ceux-ci se sont heurtées à des défis lorsqu'il s'agissait de les mettre à l'échelle :


  1. La surcharge cognitive due au nombre d'outils, de configurations, de méthodologies et d'interactions que les organisations et les équipes devaient suivre était écrasante, entraînant un épuisement professionnel et des taux d'attrition élevés parmi les talents
  2. La courbe d'apprentissage associée à ces technologies était incroyablement raide. Il faut comprendre que la plupart de ces outils open source ont été créés dans des organisations sophistiquées telles que Netflix, Google et Uber et ne répondent pas nécessairement aux besoins des organisations qui ont des déploiements plus petits - une fraction de l'échelle.
  3. Le rythme de l'innovation dans l'espace signifiait également des durées de vie plus courtes pour les nouvelles technologies . Avec le rythme auquel des outils plus récents, meilleurs, plus rapides et plus efficaces arrivaient sur scène, les ingénieurs devaient apprendre et désapprendre rapidement.
  4. La communauté de la science des données est celle qui a plusieurs points de vue contradictoires, ce qui entraîne un manque de clarté quant à l'approche à adopter (ce qui est le mieux pour son entreprise). Le plus souvent, la seule façon de surmonter ce défi est de construire, ce qui est non seulement coûteux mais chronophage.
  5. Si vous avez suivi des cycles de battage médiatique tels que Gartner, ce n'est probablement pas une surprise pour vous d'apprendre que les investissements technologiques ont une date de fin (qui arrive beaucoup plus rapidement qu'il y a probablement dix ans). Des technologies comme Hadoop, NoSQL et Deep Learning, qui étaient considérées comme "chaudes" il n'y a pas si longtemps, ont déjà dépassé leur apogée du cycle de battage publicitaire de Gartner.


Les points 1 et 2 ont joué un rôle majeur dans l'augmentation des niveaux de stress dans l'industrie et dans la limitation des talents disponibles pour adopter et utiliser les technologies. Nous avons constaté une tendance similaire dans l'espace DevOps, l'offre de développeurs talentueux ne répondant pas à la demande de nouveaux services numériques. Tyler Jewell de Dell Capital s'est fait entendre à propos de ce problème - qui a conduit à un épuisement professionnel élevé, et la durée moyenne de carrière d'un développeur professionnel étant inférieure à 20 ans. Il a récemment publié un fil de discussion dans lequel il a approfondi la complexité du paysage dirigé par les développeurs, et nous ne pouvons pas nous empêcher de remarquer plusieurs parallèles entre ce qu'il prétend et l'espace MLOps.


(Source : https://www.linkedin.com/feed/update/urn:li:share:6951971587176734720/)


Les points 3 et 4 mettent en évidence le sort des spécialistes des données d'aujourd'hui : si la résolution de problèmes ne suffisait pas, ils finissent par passer plus de temps à essayer de comprendre « comment » ils peuvent procéder et résoudre les problèmes sans pouvoir réfléchir à quoi. doit être fait, ou le résultat attendu.

Un changement s'annonce…

Nous assistons à une évolution des outils de données utilisés par les organisations, motivée par une prise de conscience croissante que nombre d'entre elles n'ont d'autre choix que de s'appuyer sur des fournisseurs tiers pour leurs besoins en infrastructure. Cela n'est pas seulement dû à des contraintes budgétaires, mais également à d'autres contraintes, telles que la sécurité et la provenance des données.

En outre, il existe une demande croissante de processus automatisés permettant aux entreprises de migrer facilement les charges de travail d'un fournisseur à un autre sans perturber les opérations ni provoquer de temps d'arrêt. Nous en constatons les effets dans des secteurs tels que les services financiers, où la gestion des données est souvent essentielle au succès (par exemple, les agences de notation de crédit).

En raison de tout cela ainsi que des défis énumérés ci-dessus, il y a eu plusieurs développements dans la communauté :

  1. Les organisations insistent de plus en plus sur la nécessité d'instaurer la confiance dans leurs données , donnant naissance à des outils axés sur la qualité et la gouvernance des données.
  2. On met de plus en plus l'accent sur les initiatives d'apprentissage automatique et de science des données liées aux résultats, et sur les modèles commerciaux qui sont explicitement alignés sur des cas d'utilisation métier spécifiques .
  3. Les coûts et la complexité sans cesse croissants entraînent une consolidation par le biais d'extensions de fonctionnalités, d'acquisitions et d'intégrations. Snowflake, par exemple, étend rapidement sa liste de partenaires pour devenir une pile d'applications analytiques complètes.
  4. Compte tenu de la complexité après le déploiement du modèle, nous assistons à l'émergence d'outils tels que NannyML , qui aident à estimer les performances du modèle, à détecter la dérive et à améliorer les modèles en production grâce à des déploiements itératifs. Nous voyons cela comme un moyen pour les entreprises de boucler la boucle entre l'entreprise, les données et le modèle.
  5. Une nouvelle organisation, AI Infrastructure Alliance , a émergé pour rassembler les éléments essentiels des applications d'intelligence artificielle. Ils ont travaillé à la construction d'une pile canonique pour l'apprentissage automatique , qui vise à étouffer le bruit créé par l'introduction d'une pléthore d'outils qui prétendent être les « derniers et les meilleurs » et à aider les entreprises non technologiques à progresser rapidement. .
  6. La définition du MDS est étendue pour inclure les produits de données, les applications et d'autres éléments. Cela rend MDS full-stack. De nouveaux produits et services émergent qui découpent l'espace en fonction des utilisateurs cibles (par exemple, les scientifiques des données par rapport aux analystes), de la disponibilité des compétences et du délai de réalisation des résultats.
  7. La base d'utilisateurs de MDS s'élargit pour inclure les équipes d'analyse et les utilisateurs professionnels. Cela se traduit par une expérience utilisateur améliorée, des interfaces low-code et une automatisation.
  8. Et enfin, on assiste à l'émergence d'approches telles que la « Post-Modern Stack », qui est essentiellement une déconstruction des stacks MDS et MLOps. Ces approches mettent l'accent sur la pertinence pour l'entreprise ainsi que sur la consommation en aval des fonctionnalités générées pour produire de la valeur commerciale.

Qu'est-ce que cela signifie

La consolidation des outils et des plates-formes, des développements de plates-formes plus simples et l'utilisation de services gérés se produisent dans l'ensemble de l'industrie. Cela découle de la nécessité pour les entreprises de faire face à la complexité. C'est une période passionnante pour faire partie de cet espace, et j'ai hâte de voir comment le paysage évolue au cours de l'année.


Chez Scribble Data (l'entreprise que j'ai cofondée), nous sommes parfaitement conscients de cette évolution en cours. Nous nous concentrons sur un problème spécifique : l'ingénierie des fonctionnalités pour les cas d'utilisation d'analyse avancée et de science des données. Cet espace de problèmes n'a cessé de croître en termes d'importance et a évolué de manière cohérente avec les points ci-dessus. Avec la bonne combinaison de technologies et l'orientation de la solution, il est possible d'aligner la valeur du produit sur les cas d'utilisation, tout en obtenant un délai de valorisation (TTV) 5 fois plus rapide pour chaque cas d'utilisation.


Également publié ici