1

我正在通过以下页面使用 Pyspark 学习 Glue:https ://aws-dojo.com/ws8/labs/configure-crawler/ 。

我的问题是:创建胶水作业需要爬虫和在 Lake Formation 中创建数据库吗?

我的 aws 角色有一些问题,我无权在 LakeFormation 中创建资源,所以我在想是否可以跳过它们只创建胶水作业并测试我的脚本?

例如,我只想为一个输入 .txt 文件测试我的 pyspark 脚本,我将它存储在 S3 中,我还需要爬虫吗?我可以只使用boto3创建粘合作业来测试脚本并进行一些预处理并将数据写回 s3 吗?

4

1 回答 1

2

不,您无需创建爬虫即可运行 Glue 作业。

Crawler 可以读取多个数据源并使 Glue 目录保持最新。例如,当您在 S3 中对数据进行分区时,随着新分区(文件夹)的创建,我们可以安排爬虫作业来读取这些新的 S3 分区并更新 Glue 目录/表中的元数据。

使用元数据更新 Glue 目录后,我们可以使用这些 Glue ETL 或 Athena 或其他进程轻松读取实际数据(在这些胶水目录/表后面)。

在您的情况下,您直接希望在 Glue 作业中读取 S3 文件并将它们写回 S3,因此,您不需要爬虫或 Glue 目录。

于 2021-02-07T16:56:08.193 回答