1

由于 oozie 是 Hadoop 平台的工作流引擎,它是否提高了 MapReduce 作业的 DAG 依赖项的执行性能?

我的意思是,由于一个 MapReduce 作业的输出作为 DAG 中下一个 MapReduce 作业的输入,oozie 是否提供了任何机制来将中间结果存储在内存中,从而节省 I/O。

或者它只是一个工作流管理器,协调一系列依赖的 MapReduce?

想知道 oozie 在内部是如何工作的吗?

4

2 回答 2

2

它只是一个工作流管理器。它不会改变例如 MapReduce 的工作方式,即使它运行 M/R 作业。

您所描述的更像是Apache Spark所做的。我还不知道 Oozie 是否直接与 Spark 集成,但是,它不可能是困难的或遥远的。

于 2013-11-01T10:13:36.593 回答
0

它“只是一个工作流管理器,协调一系列 MapReduce”作业。它使用与使用命令行相同的机制来执行作业。

于 2013-11-01T10:14:25.900 回答