我正在尝试从我的 EMR 集群中托管在 S3 上的公共 CommonCrawl 数据中提取 WET 文件。为此,CommonCrawl 有一个cc-pyspark 存储库,他们在其中提供示例和说明,但是,我不理解使事情顺利进行的说明。如何将此存储库部署到我的集群?这应该是我的引导脚本的一部分吗?
最终目标是通过 spark 作业处理 WET 文件中的文本。到目前为止,我一直在使用托管笔记本尝试使用 boto3 下载 WET 文件,但没有成功。
这是我用来引导 EMR 和其他 python 包的代码。