我有几个关于将 Dask 与 Hadoop/Yarn 一起使用的问题。
1 )如何将 Dask 连接到 Hadoop/YARN 并并行化作业?
当我尝试使用:
from dask.distributed import Client
client = Client('Mynamenode:50070')
它导致错误:
CommClosedError:在:流已关闭:尝试调用远程方法“身份”时
我应该传递名称节点还是数据节点的地址?我可以推荐 Zookeeper 吗?
2 )如何使用 Dask 和 HDFS3 从 HDFS 读取数据?
当我尝试使用以下方式读取文件时:
import dask.dataframe as dd
import distributed.hdfs
df = dd.read_csv('hdfs:///user/uname/dataset/temps.csv')
它导致以下错误:
ImportError:没有名为 lib 的模块
我已尝试卸载并重新安装 hdfs3,但错误仍然存在。
我已经安装了knit并尝试使用以下示例启动纱线容器:
http://knit.readthedocs.io/en/latest/examples.html#ipython-parallel
这失败并出现安全错误。
我没有访问集群的权限,因此在集群中的每个节点上安装任何包都是不可能的,sudo
我唯一能做的安装是通过我的.conda
pip
userid
最后,如果有人可以在 Yarn 上发布 Dask 的工作示例,那将非常有帮助。
非常感谢任何帮助,