amazon-web-services - 创建 AWS 粘合作业是否需要爬网程序？

Question

我正在通过以下页面使用 Pyspark 学习 Glue：https ://aws-dojo.com/ws8/labs/configure-crawler/ 。

我的问题是：创建胶水作业需要爬虫和在 Lake Formation 中创建数据库吗？

我的 aws 角色有一些问题，我无权在 LakeFormation 中创建资源，所以我在想是否可以跳过它们只创建胶水作业并测试我的脚本？

例如，我只想为一个输入 .txt 文件测试我的 pyspark 脚本，我将它存储在 S3 中，我还需要爬虫吗？我可以只使用boto3创建粘合作业来测试脚本并进行一些预处理并将数据写回 s3 吗？

score 2 · Accepted Answer

不，您无需创建爬虫即可运行 Glue 作业。

Crawler 可以读取多个数据源并使 Glue 目录保持最新。例如，当您在 S3 中对数据进行分区时，随着新分区（文件夹）的创建，我们可以安排爬虫作业来读取这些新的 S3 分区并更新 Glue 目录/表中的元数据。

使用元数据更新 Glue 目录后，我们可以使用这些 Glue ETL 或 Athena 或其他进程轻松读取实际数据（在这些胶水目录/表后面）。

在您的情况下，您直接希望在 Glue 作业中读取 S3 文件并将它们写回 S3，因此，您不需要爬虫或 Glue 目录。

1 回答 1