google-cloud-platform - 如何通过本地 Jupyter Notebook 在 Dataproc 中使用考拉

Question

查看 Google 文档，我能够将 Spark 作业提交到 Dataproc 集群并在集群内安装 JupyterLab 以在笔记本上运行迭代操作。

但是，我找不到使用 DataProc 集群资源从本地 Jupyer Notebook（在我的机器上）运行迭代命令的正确配置。

我特别感兴趣的是从我的本地 JupyterLab 创建一个集群，然后使用 pySpark (Koalas) 对 BigQuery 和 GCS 上托管的大型数据帧执行一系列操作。我的目标经验是在我的本地 JupyerLab 中使用 Dataproc，就像它可以用来访问集群机器或 Vertex IA 内的 JupyterLab 安装一样。

有谁知道如何配置它？

score 0 · Accepted Answer

要针对远程 Dataproc 集群运行本地 Jupyter 笔记本，您的本地计算机需要能够连接到集群主节点虚拟机。

一种方法是使用外部 IP 创建集群并设置防火墙规则以允许您连接到 IP。但它并不安全，我不建议这样做。

另一种方法是创建从本地计算机到主节点的 ssh 隧道：

gcloud compute ssh ${HOSTNAME} \
    --project=${PROJECT} \
    --zone=${ZONE}  -- \
    -D ${PORT} -N

然后将本地 Spark/Jupyter 配置到将连接到远程端点的本地端点。

google-cloud-platform - 如何通过本地 Jupyter Notebook 在 Dataproc 中使用考拉

1 回答 1

Related

Reference