查看 Google 文档,我能够将 Spark 作业提交到 Dataproc 集群并在集群内安装 JupyterLab 以在笔记本上运行迭代操作。
但是,我找不到使用 DataProc 集群资源从本地 Jupyer Notebook(在我的机器上)运行迭代命令的正确配置。
我特别感兴趣的是从我的本地 JupyterLab 创建一个集群,然后使用 pySpark (Koalas) 对 BigQuery 和 GCS 上托管的大型数据帧执行一系列操作。我的目标经验是在我的本地 JupyerLab 中使用 Dataproc,就像它可以用来访问集群机器或 Vertex IA 内的 JupyterLab 安装一样。
有谁知道如何配置它?