我们仍然对来找我们寻求从 HDFS 迁移到 MinIO 等现代对象存储的客户数量感到惊讶。我们以为现在每个人都已经完成了转型，但每周我们都会与一家决定进行转型的大型技术型组织进行交谈。 在这些讨论中，他们经常会希望在迁移后保留一些基础架构元素。HDFS 生态系统中诞生的框架和软件得到了大量开发人员的支持，并且在现代数据堆栈中仍然占有一席之地。事实上，我们经常说 HDFS 生态系统带来了很多好处。根本问题在于紧密耦合的存储和计算，而不一定在于大数据时代的工具和服务。 这篇博文将重点介绍如何在不拆除和更换有价值的工具和服务的情况下进行迁移。现实情况是，如果您不实现基础设施现代化，您就无法实现组织所需的 AI/ML 进步，但您不必为了实现这一目标而抛弃一切。 使用 Spark 和 Hive 分解存储和计算 我们已经经历了一些 在某些情况下，这是前进的道路。但是，让我们看看另一种现代化 HDFS 实现的方法。 全面删除并替换迁移的策略 架构涉及 Kubernetes 管理 和 Apache Hive 容器用于数据处理；Spark 与 MinIO 原生集成，而 Hive 使用 YARN。MinIO 在有状态容器中处理对象存储，并在这种架构中依赖多租户配置进行数据隔离。    这 Apache Spark 架构概述：  Kubernetes 高效管理计算节点上无状态的 Apache Spark 和 Apache Hive 容器，确保最佳资源利用率和动态扩展。 计算节点：  MinIO 而 BitRot Protection 意味着您可能会丢失多达一半的驱动器并且仍然可以恢复，而无需维护 Hadoop 所需的每个数据块的三个副本。 存储层： 擦除编码 所有对MinIO对象存储的访问都通过S3 API统一，提供了与存储数据交互的无缝接口。 访问层： 数据安全至关重要。MinIO 使用每个对象密钥加密所有数据，确保对未经授权的访问提供强大的保护。 安全层：  MinIO Enterprise 与 WSO2、Keycloak、Okta、Ping Identity 等身份提供商完全集成，以允许应用程序或用户进行身份验证。 身份管理：  Hadoop 的完全现代化替代品，允许您的组织保留 Hive、YARN 和任何其他可以与对象存储集成的 Hadoop 生态系统数据产品，而对象存储几乎是现代数据堆栈中的所有内容。 接入层的互操作性 对于寻求从 Hadoop 过渡的应用程序来说，S3a 是一个必不可少的端点，它与 Hadoop 生态系统中的各种应用程序兼容。自 2006 年以来，与 S3 兼容的对象存储后端已作为默认功能无缝集成到 Hadoop 生态系统中的众多数据平台中。这种集成可以追溯到 S3 客户端实现在新兴技术中的应用。 在所有与 Hadoop 相关的平台上，采用 模块和 都是标准做法，可确保对 S3 API 提供强大的支持。这种标准化方法有助于应用程序从 HDFS 和 S3 存储后端顺利过渡。只需指定适当的协议，开发人员就可以轻松地将应用程序从 Hadoop 切换到现代对象存储。S3 的协议方案由 s3a:// 表示，而对于 HDFS，则表示为 hdfs://。 hadoop-aws aws-java-sdk-bundle 迁移的好处 可以详细讨论从 Hadoop 迁移到现代对象存储的好处。如果您正在阅读本文，那么您已经大致知道，如果不从 Hadoop 等传统平台迁移，AI 和其他现代数据产品的进步可能会被搁置。原因归结为性能和规模。 毫无疑问，现代工作负载需要出色的性能才能与正在处理的数据量和现在所需的任务复杂性相抗衡。当性能不仅仅是虚荣基准测试，而是一项硬性要求时，Hadoop 替代品的竞争者领域 。 急剧下降 推动迁移的另一个因素是云原生规模。当云的概念不再是一个物理位置，而是一个 只需几分钟，只需一个 .yaml 文件即可完成部署整个数据堆栈等操作。这一实施过程如此迅速，足以让任何 Hadoop 工程师大吃一惊。 运营模式 这一概念的重要组成部分是摆脱供应商锁定所带来的经济效益，这使得组织可以为特定工作负载选择一流的选项。更不用说，组织不再需要维护三个单独的数据副本来保护数据，而使用 和擦除编码。投资面向未来的技术通常也意味着更容易找到和招募有才华的专业人士来处理你的基础设施。人们希望从事推动业务发展的工作，几乎没有什么比 这些因素共同促成了数据堆栈不仅更快、更便宜，而且更适合当前和未来数据驱动的需求。 主动-主动复制 数据 入门 在深入了解我们的架构细节之前，您需要启动并运行一些组件。要从 Hadoop 迁移，显然您必须首先安装它。如果您想模拟这种体验，您可以通过 设置 Hortonworks Hadoop 发行版来开始本教程。 在此处 否则，您可以按照以下安装步骤开始： 下一步，  ，它将通过自动为您配置 YARN 来简化您的服务管理。Ambari 提供了一个用户友好的仪表板来管理 Hadoop 生态系统中的服务并确保一切顺利运行。 设置 Ambari：   安装 Ambari  Spark 对于处理大规模数据至关重要。请按照 启动并运行 Spark 的程序。 安装 Apache Spark： 标准安装  ：根据您的环境，您可以选择两种安装方法： 或者  。 安装 MinIO   Kubernetes Helm Chart 成功安装这些元素后，您可以将 Spark 和 Hive 配置为使用 MinIO 而不是 HDFS。导航到 Ambari UI  并使用默认凭据登录：   ，  http://<ambari-server>:8080/ username: admin, password: admin 在 Ambari 中，导航到服务，然后导航到 HDFS，然后导航到配置面板，如下面的屏幕截图所示。在此部分中，您将配置 Ambari 以使用 S3a 和 MinIO 而不是 HDFS。  向下滚动并导航到  。这是您将配置 S3a 的地方。  Custom core-site   sudo pip install yq alias kv-pairify='yq ".configuration[]" | jq ".[]" | jq -r ".name + \"=\" + .value"' 从这里开始，您的配置将取决于您的基础架构。但是，以下内容可以代表 配置 S3a 的方法，该 S3a 带有在 12 个节点和 1.2TiB 内存上运行的 MinIO。 core-site.xml   cat ${HADOOP_CONF_DIR}/core-site.xml | kv-pairify | grep "mapred" mapred.maxthreads.generate.mapoutput=2 # Num threads to write map outputs mapred.maxthreads.partition.closer=0 # Asynchronous map flushers mapreduce.fileoutputcommitter.algorithm.version=2 # Use the latest committer version mapreduce.job.reduce.slowstart.completedmaps=0.99 # 99% map, then reduce mapreduce.reduce.shuffle.input.buffer.percent=0.9 # Min % buffer in RAM mapreduce.reduce.shuffle.merge.percent=0.9 # Minimum % merges in RAM mapreduce.reduce.speculative=false # Disable speculation for reducing mapreduce.task.io.sort.factor=999 # Threshold before writing to drive mapreduce.task.sort.spill.percent=0.9 # Minimum % before spilling to drive 通过查看此迁移模式的文档，可以探索很多优化方法 以及 Hadoop 关于 S3 的文档 和 。 这里 这里 这里 当您对配置满意时，请重新启动全部。  您还需要导航到 Spark2 配置面板。  向下滚动到 并添加以下属性以使用 MinIO 进行配置：  Custom spark-defaults   spark.hadoop.fs.s3a.access.key minio spark.hadoop.fs.s3a.secret.key minio123 spark.hadoop.fs.s3a.path.style.access true spark.hadoop.fs.s3a.block.size 512M spark.hadoop.fs.s3a.buffer.dir ${hadoop.tmp.dir}/s3a spark.hadoop.fs.s3a.committer.magic.enabled false spark.hadoop.fs.s3a.committer.name directory spark.hadoop.fs.s3a.committer.staging.abort.pending.uploads true spark.hadoop.fs.s3a.committer.staging.conflict-mode append spark.hadoop.fs.s3a.committer.staging.tmp.path /tmp/staging spark.hadoop.fs.s3a.committer.staging.unique-filenames true spark.hadoop.fs.s3a.committer.threads 2048 # number of threads writing to MinIO spark.hadoop.fs.s3a.connection.establish.timeout 5000 spark.hadoop.fs.s3a.connection.maximum 8192 # maximum number of concurrent conns spark.hadoop.fs.s3a.connection.ssl.enabled false spark.hadoop.fs.s3a.connection.timeout 200000 spark.hadoop.fs.s3a.endpoint http://minio:9000 spark.hadoop.fs.s3a.fast.upload.active.blocks 2048 # number of parallel uploads spark.hadoop.fs.s3a.fast.upload.buffer disk # use disk as the buffer for uploads spark.hadoop.fs.s3a.fast.upload true # turn on fast upload mode spark.hadoop.fs.s3a.impl org.apache.hadoop.spark.hadoop.fs.s3a.S3AFileSystem spark.hadoop.fs.s3a.max.total.tasks 2048 # maximum number of parallel tasks spark.hadoop.fs.s3a.multipart.size 512M # size of each multipart chunk spark.hadoop.fs.s3a.multipart.threshold 512M # size before using multipart uploads spark.hadoop.fs.s3a.socket.recv.buffer 65536 # read socket buffer hint spark.hadoop.fs.s3a.socket.send.buffer 65536 # write socket buffer hint spark.hadoop.fs.s3a.threads.max 2048 # maximum number of threads for S3A 应用配置更改后重新启动所有内容。  导航到 Hive 面板完成配置。  向下滚动到 并添加以下属性：  Custom hive-site   hive.blobstore.use.blobstore.as.scratchdir=true hive.exec.input.listing.max.threads=50 hive.load.dynamic.partitions.thread=25 hive.metastore.fshandler.threads=50 hive.mv.files.threads=40 mapreduce.input.fileinputformat.list-status.num-threads=50 您可以找到更多微调配置信息 . 配置更改完成后重新启动全部。  这里 就这样，您现在可以测试您的集成了。 自行探索 这篇博文概述了一种从 Hadoop 迁移的现代方法，无需彻底改造现有系统。通过利用 Kubernetes 管理 Apache Spark 和 Apache Hive，并集成 MinIO 进行有状态对象存储，组织可以实现支持动态扩展和高效资源利用的平衡架构。这种设置不仅保留了数据处理环境的功能，还增强了其功能，使其更加强大且面向未来。 借助 MinIO，您可以从存储解决方案中获益，该解决方案在商用硬件上提供高性能，通过纠删码（消除 Hadoop 数据复制的冗余）降低成本，并绕过供应商锁定和对基于 Cassandra 的元数据存储的需求等限制。这些优势对于希望利用高级 AI/ML 工作负载而不丢弃现有数据系统核心元素的组织至关重要。 欢迎随时联系我们，获取更详细的讨论或具体指导，了解如何定制此迁移策略以满足贵组织的独特需求。无论是通过电子邮件 hello@min.io 还是通过我们的社区 渠道，我们将帮助您充分利用数据基础设施投资。 松弛

The code in this story is for educational purposes. The readers are solely responsible for whatever they build with it.

Walkthroughs, tutorials, guides, and tips. This story will teach you how to do something new or how to do something better.

无需拆除和替换即可从 Hadoop 迁移 — 方法如下

About Author

註釋

標籤

这篇文章刊登在

Related Stories

数字游民请注意：您需要了解泰国新推出的 DTV 签证

加密货币增长：创建有效的用户角色

如何将您的工作流程提高 10 倍：17 个必备应用程序

架构师指南：构建 AI/ML 数据湖参考架构

数字游民请注意：您需要了解泰国新推出的 DTV 签证

加密货币增长：创建有效的用户角色

如何将您的工作流程提高 10 倍：17 个必备应用程序

架构师指南：构建 AI/ML 数据湖参考架构

Light-Mode

Classic

Newspaper

Dark-Mode

Neon Noir

Minty

HN StartUps