python - 将 pyspark CommonCrawl 存储库部署到 EMR

翻译自：https://stackoverflow.com/questions/64097427 2020-09-28T07:09:04.830

129 次

我正在尝试从我的 EMR 集群中托管在 S3 上的公共 CommonCrawl 数据中提取 WET 文件。为此，CommonCrawl 有一个cc-pyspark 存储库，他们在其中提供示例和说明，但是，我不理解使事情顺利进行的说明。如何将此存储库部署到我的集群？这应该是我的引导脚本的一部分吗？

最终目标是通过 spark 作业处理 WET 文件中的文本。到目前为止，我一直在使用托管笔记本尝试使用 boto3 下载 WET 文件，但没有成功。

这是我用来引导 EMR 和其他 python 包的代码。

python - 将 pyspark CommonCrawl 存储库部署到 EMR

0 回答 0

Related

Reference