我正在通过以下页面使用 Pyspark 学习 Glue:https ://aws-dojo.com/ws8/labs/configure-crawler/ 。
我的问题是:创建胶水作业需要爬虫和在 Lake Formation 中创建数据库吗?
我的 aws 角色有一些问题,我无权在 LakeFormation 中创建资源,所以我在想是否可以跳过它们只创建胶水作业并测试我的脚本?
例如,我只想为一个输入 .txt 文件测试我的 pyspark 脚本,我将它存储在 S3 中,我还需要爬虫吗?我可以只使用boto3
创建粘合作业来测试脚本并进行一些预处理并将数据写回 s3 吗?