1

我正在使用luigi作为 hadoop 作业管道。我阅读了示例和文档,但在将作业推送到 hadoop 服务器之前找不到如何调试我的脚本?

更具体地说,我需要处理一个大数据集,并且运行时间很长,我更喜欢在小测试数据集中测试作业而不是在真实数据集中运行它。

4

1 回答 1

1

据我所知,这不是一件小事,因为您要调试的是实际的 Hadoop 集成。也许有一种方法可以模拟或模拟一个 hadoop 系统……或者只是在你的机器上安装一个最小的 hadoop?

我们对集群任务做类似的事情。我们正在通过一种方便的方法执行命令,该方法允许我们通过切换参数的值在本地或通过 HPC 系统之间切换正在运行的命令。如果您有兴趣,可以在这里查看代码: https ://github.com/samuell/sciluigi/blob/d403b1d04779fcb9d4d949cd2e554a892c86a67d/sciluigi/slurm.py#L99-L113

于 2015-09-01T16:16:03.990 回答