2

查看 Google 文档,我能够将 Spark 作业提交到 Dataproc 集群并在集群内安装 JupyterLab 以在笔记本上运行迭代操作。

但是,我找不到使用 DataProc 集群资源从本地 Jupyer Notebook(在我的机器上)运行迭代命令的正确配置。

我特别感兴趣的是从我的本地 JupyterLab 创建一个集群,然后使用 pySpark (Koalas) 对 BigQuery 和 GCS 上托管的大型数据帧执行一系列操作。我的目标经验是在我的本地 JupyerLab 中使用 Dataproc,就像它可以用来访问集群机器或 Vertex IA 内的 JupyterLab 安装一样。

有谁知道如何配置它?

4

1 回答 1

0

要针对远程 Dataproc 集群运行本地 Jupyter 笔记本,您的本地计算机需要能够连接到集群主节点虚拟机。

一种方法是使用外部 IP 创建集群并设置防火墙规则以允许您连接到 IP。但它并不安全,我不建议这样做。

另一种方法是创建从本地计算机到主节点的 ssh 隧道:

gcloud compute ssh ${HOSTNAME} \
    --project=${PROJECT} \
    --zone=${ZONE}  -- \
    -D ${PORT} -N

然后将本地 Spark/Jupyter 配置到将连接到远程端点的本地端点。

于 2022-01-13T23:49:48.663 回答