paint-brush
Apache Cassandra:帮助 Uber 和 Apple 降低人工智能项目风险的数据库经过@datastax
1,202 讀數
1,202 讀數

Apache Cassandra:帮助 Uber 和 Apple 降低人工智能项目风险的数据库

经过 DataStax4m2023/08/07
Read on Terminal Reader

太長; 讀書

Cassandra 的大规模用户,例如 Uber 和 Apple,证明了该数据库系统如何有效降低 AI/ML 项目的风险。
featured image - Apache Cassandra:帮助 Uber 和 Apple 降低人工智能项目风险的数据库
DataStax HackerNoon profile picture
0-item
1-item


最近的人工智能海啸给我们带来了很大的压力,需要快速行动才能跟上。有些人可能倾向于牺牲稳定性和质量来使用最先进的工具快速滚动。令人高兴的是,事情不一定非得如此。


在人工智能和机器学习 (AI/ML) 领域,数据库的选择可以显着影响项目的成功。要考虑的关键因素之一是与数据库系统的可扩展性和可靠性相关的风险。 Apache Cassandra是一种高度可扩展、高性能的分布式数据库,已被证明是这方面的行业领导者。它提供的功能可显着降低与 AI/ML 项目相关的风险,使其成为许多组织的首选。


Cassandra 的大规模用户,例如UberApple ,证明了该数据库系统如何有效降低 AI/ML 项目的风险。 Uber 使用 Cassandra 进行实时数据处理和保存特征商店直接在 Cassandra 中进行预测。从小规模开始并根据需要进行扩展的能力,再加上高可靠性,使 Uber 能够管理大量数据,而不会出现系统故障或性能下降的风险。许多为 AI 工作负载构建的新系统正在尝试围绕特定功能构建可扩展性,但大规模执行 AI 的用户多年来一直在使用 Cassandra。


可扩展性和性能

AI/ML 应用程序通常处理大量数据并需要高速处理。规划何时需要容量是一项艰巨的任务。最好的计划?只是避免它。相反,选择一个可以在需要时快速扩展的数据库,并且永远不会给您留下过度配置的容量。


Cassandra 的核心水平扩展能力仍然使其有别于许多其他数据库。随着数据的增长,您可以向 Cassandra 集群添加更多节点来处理增加的流量和数据。就是这么简单。此功能对于处理日益增长的数据集的 AI/ML 应用程序尤其重要。


Uber 是一家超大规模企业,其推出的每一款新产品都在进一步推动其规模要求。作为 Cassandra 最大的用户之一,它利用这种可扩展性来处理不断增长和变化的数据需求。 Cassandra 的高写入和读取吞吐量使其成为 AI 和 ML 应用程序所需的实时数据处理的绝佳选择。


实时处理

实时数据处理是任何现代应用程序的关键要求。当用户寻求最佳体验时,毫秒至关重要。 AI/ML 应用程序通常需要在数据到达时进行分析和响应,无论是实时推荐、预测分析还是动态定价模型。 Cassandra 具有较高的写入和读取吞吐量,非常适合此类实时处理要求。 Cassandra 的架构使其能够跨多个商用服务器处理大量数据,从而提供高可用性且无单点故障。这意味着几乎可以立即将数据写入数据库或从数据库中读取数据,使其成为需要实时响应的应用程序的绝佳选择。


Uber Eats 优食就是一个实际的例子。该应用程序需要实时处理数据,以便为您提供食物推荐和预计配送时间。 Cassandra 的高性能使这种实时处理成为可能。不仅如此,默认复制使基础设施故障对最终用户透明,这使他们能够满意地使用该应用程序。不断涌入的变化数据和疯狂的使用周期是 Cassandra 的亮点。使用 Cassandra 的组织花费更多时间担心正确的应用程序功能,而不是支持它们的数据库。


借助数据走向全球

使用 Cassandra,数据会自动复制到多个节点,并且这些副本提供冗余。如果一个节点发生故障,仍然可以从副本访问数据。此功能可确保您的 AI/ML 应用程序即使在遇到硬件故障或网络问题时也能保持正常运行。


但 Cassandra 的分布式架构不仅有助于其高容错能力,还可以帮助您与用户保持密切联系。一些用户几乎认为其默认的全局数据复制是理所当然的。


Apple 和 Netflix 等公司长期以来一直在谈论其跨越全球多个地区的主动-主动架构,这并不罕见。除了容错之外,这种惊人能力的以用户为中心的方面是数据局部性。如果您的用户位于北美、亚洲和欧洲,那么将数据集中在一个位置将会给部分用户带来痛苦的延迟。解决方案是将数据复制到每个位置,并为每个人提供较短的数据延迟窗口。


降低项目风险

选择正确的技术堆栈是降低任何项目风险的重要组成部分。借助 Cassandra,您可以从小规模开始,然后根据需要进行扩展,为您的项目提供经济高效的解决方案。随着时间的推移,Cassandra 已经证明了其可靠性,一些公司运行其 Cassandra 集群超过 10 年而没有关闭它们。较新的技术专为人工智能开发的功能正在添加中,但一些最繁重的 AI/ML 工作负载已经在相当长的一段时间内通过 Cassandra 进行安静且一致的管理。也就是说,它正在成为当今 AI/ML 工作负载更相关的选择。


Cassandra 的可扩展性、性能、实时处理能力和使用寿命使其成为 AI/ML 应用程序的绝佳选择。随着人工智能应用程序不断发展并日益融入业务运营,对像 Cassandra 这样强大、可靠和高效的数据库的需求只会增长。选择 Cassandra,您不仅选择了一个数据库,还选择了一个数据库。您正在为您的 AI/ML 应用程序提供面向未来的保障。


了解Cassandra 和 DataStax Astra DB 等矢量数据库如何支持大规模生成式 AI 项目


作者:Patrick McFadin, DataStax


也发布在这里。