paint-brush
Apache Cassandra : la base de données qui aide Uber et Apple à réduire les risques de leurs projets d'IApar@datastax
1,204 lectures
1,204 lectures

Apache Cassandra : la base de données qui aide Uber et Apple à réduire les risques de leurs projets d'IA

par DataStax4m2023/08/07
Read on Terminal Reader

Trop long; Pour lire

Les utilisateurs à grande échelle de Cassandra, comme Uber et Apple, illustrent comment ce système de base de données peut réduire efficacement le risque dans les projets AI/ML.
featured image - Apache Cassandra : la base de données qui aide Uber et Apple à réduire les risques de leurs projets d'IA
DataStax HackerNoon profile picture
0-item
1-item


Le récent tsunami de l'intelligence artificielle a créé beaucoup de pression pour aller vite juste pour suivre le rythme. Certains pourraient être enclins à sacrifier la stabilité et la qualité pour rouler rapidement avec les outils les plus avancés. Heureusement, il n'a pas à être de cette façon.


Dans le monde de l'IA et de l'apprentissage automatique (AI/ML), le choix d'une base de données peut affecter de manière significative la réussite de votre projet. L'un des principaux facteurs à prendre en compte est le risque associé à l'évolutivité et à la fiabilité du système de base de données. Apache Cassandra, une base de données distribuée hautement évolutive et performante, s'est avérée être un leader du secteur à cet égard. Il offre des fonctionnalités qui réduisent considérablement le risque associé aux projets d'IA/ML, ce qui en fait un choix préféré pour de nombreuses organisations.


Les utilisateurs à grande échelle de Cassandra, comme Uber et Apple , illustrent comment ce système de base de données peut réduire efficacement le risque dans les projets d'IA/ML. Uber utilise Cassandra pour le traitement des données en temps réel et pour la conservation le magasin de fonctionnalités directement dans Cassandra pour les prédictions. La possibilité de démarrer petit et d'évoluer selon les besoins, associée à une grande fiabilité, permet à Uber de gérer de grandes quantités de données sans risque de défaillance du système ou de dégradation des performances. De nombreux systèmes plus récents conçus pour les charges de travail d'IA tentent de créer une évolutivité autour d'une fonctionnalité particulière, mais les utilisateurs qui utilisent l'IA à grande échelle utilisent Cassandra depuis des années.


Évolutivité et performances

Les applications AI/ML traitent souvent de grandes quantités de données et nécessitent un traitement à grande vitesse. Planifier quand vous avez besoin de capacité est une tâche difficile. Le meilleur forfait ? Évitez-le simplement. Au lieu de cela, optez pour une base de données qui peut évoluer rapidement lorsque vous en avez besoin et ne vous laisse jamais avec une capacité surprovisionnée.


La capacité de base de Cassandra à évoluer horizontalement la distingue encore de nombreuses autres bases de données. Au fur et à mesure que vos données augmentent, vous pouvez ajouter plus de nœuds au cluster Cassandra pour gérer l'augmentation du trafic et des données. C'est aussi simple que ça. Cette fonctionnalité est particulièrement cruciale pour les applications AI/ML, qui traitent des ensembles de données de plus en plus croissants.


Uber est un hyperscaler et chaque nouveau produit qu'il introduit ne cesse de repousser ses exigences d'échelle. En tant que l'un des plus grands utilisateurs de Cassandra, il tire parti de cette évolutivité pour gérer ses besoins en données sans cesse croissants et changeants. Le débit élevé d'écriture et de lecture de Cassandra en fait un excellent choix pour le traitement des données en temps réel requis dans ses applications d'IA et de ML.


Traitement en temps réel

Le traitement des données en temps réel est une exigence essentielle pour toute application moderne. Les millisecondes comptent lorsque les utilisateurs recherchent la meilleure expérience. Les applications d'IA/ML ont souvent besoin d'analyser et de répondre aux données à mesure qu'elles arrivent, que ce soit pour des recommandations en temps réel, des analyses prédictives ou des modèles de tarification dynamiques. Cassandra, avec son débit élevé en écriture et en lecture, est bien adaptée à ces exigences de traitement en temps réel. L'architecture de Cassandra lui permet de gérer de gros volumes de données sur de nombreux serveurs de base, offrant une haute disponibilité sans point de défaillance unique. Cela signifie que les données peuvent être écrites et lues presque instantanément dans la base de données, ce qui en fait un excellent choix pour les applications qui nécessitent des réponses en temps réel.


Uber Eats en est un exemple concret. L'application doit traiter les données en temps réel pour vous fournir des recommandations alimentaires et des délais de livraison estimés. Ce traitement en temps réel est rendu possible par les hautes performances de Cassandra. De plus, la réplication par défaut rend les défaillances de l'infrastructure transparentes pour les utilisateurs finaux, ce qui les rend heureux et utilise l'application. L'afflux constant de données changeantes et de cycles sauvages d'utilisation est l'endroit où Cassandra brille. Les organisations qui utilisent Cassandra passent plus de temps à se soucier des bonnes fonctionnalités de l'application et beaucoup moins à la base de données qui les prend en charge.


Devenir mondial avec les données

Avec Cassandra, les données sont automatiquement répliquées sur plusieurs nœuds, et ces répliques assurent la redondance. Si un nœud tombe en panne, les données sont toujours accessibles à partir des répliques. Cette fonctionnalité garantit que vos applications AI/ML restent opérationnelles, même en cas de pannes matérielles ou de problèmes de réseau.


Mais l'architecture distribuée de Cassandra contribue non seulement à sa haute tolérance aux pannes, mais elle vous aide également à rester proche de vos utilisateurs. Certains utilisateurs tiennent presque pour acquis sa réplication globale des données par défaut.


Des entreprises comme Apple et Netflix ont parlé de leurs architectures actives-actives qui couvrent plusieurs zones géographiques à travers le monde depuis si longtemps que ce n'est même pas inhabituel. Outre la tolérance aux pannes, l'aspect centré sur l'utilisateur de cette capacité étonnante est la localité des données. Si vous avez des utilisateurs en Amérique du Nord, en Asie et en Europe, la centralisation des données en un seul endroit entraînera des latences angoissantes pour certains sous-ensembles de vos utilisateurs. La solution consiste simplement à répliquer les données dans chaque emplacement et à donner à chacun une courte fenêtre de latence pour les données.


Dérisquer votre projet

Choisir la bonne pile technologique est un élément important de la réduction des risques de tout projet. Avec Cassandra, vous pouvez commencer petit et évoluer selon vos besoins, offrant ainsi une solution rentable pour votre projet. Cassandra a prouvé sa fiabilité au fil du temps, certaines entreprises faisant fonctionner leurs clusters Cassandra pendant plus de 10 ans sans les éteindre. Technologie plus récente avec fonctionnalités développées spécifiquement pour l'IA est en cours d'ajout, mais certaines des charges de travail AI/ML les plus lourdes sont gérées discrètement et de manière cohérente avec Cassandra depuis un certain temps. Cela dit, cela devient un choix encore plus pertinent pour les charges de travail AI/ML aujourd'hui.


L'évolutivité, les performances, les capacités de traitement en temps réel et la longévité de Cassandra en ont fait un excellent choix pour les applications AI/ML. Alors que les applications d'IA continuent d'évoluer et de devenir de plus en plus intégrées aux opérations commerciales, le besoin de bases de données robustes, fiables et efficaces comme Cassandra ne fera que croître. En choisissant Cassandra, vous ne sélectionnez pas seulement une base de données ; vous pérennisez vos applications AI/ML.


Découvrez comment les bases de données vectorielles comme Cassandra et DataStax Astra DB permettent des projets d'IA générative à grande échelle


Par Patrick McFadin, DataStax .


Également publié ici.