我有这个其他人编码的 hadoop 项目(链接)。我有来源。我想在我的集群上实现这个(基本上是 3 台 ubuntu 机器)。但是提到的项目在 EC2 平台上工作(使用 Cloudera 发行版)。
那么,我应该在我的系统上安装什么才能让它拥有运行这样一个项目的软件?
我想到了 Cloudera Manager、Oracle Java。
我有这个其他人编码的 hadoop 项目(链接)。我有来源。我想在我的集群上实现这个(基本上是 3 台 ubuntu 机器)。但是提到的项目在 EC2 平台上工作(使用 Cloudera 发行版)。
那么,我应该在我的系统上安装什么才能让它拥有运行这样一个项目的软件?
我想到了 Cloudera Manager、Oracle Java。
如果该项目适用于 cloudera 发行版(而不是 EMR),您可以安装 cloudera,它应该没问题。只有角落我可以期待有问题 - 如果 s3 被用作文件系统。
如果该项目确实适用于 s3,您有两种方法:
a)尝试将 s3 替换为 hdfs 和所有文件名/路径,它也应该可以正常工作(如果它们是硬编码的)。
b) 安装 OpenStack 的 Swift,它是 S3 的开源替代品,然后尝试在其上运行 Hadoop。披露:我参与了在 Swift 上运行 hadoop 的项目。 https://github.com/Dazo-org/swift