amazon-web-services - 使用 AWS Glue 和 Data Pipeline 的 ETL 架构

Question

我正在尝试决定是否将 AWS Glue 或 Amazon Data Pipeline 用于我们的 ETL。我需要将几个表增量复制到 Redshift。几乎所有表都需要复制而无需转换。一个表需要可以使用 Spark 完成的转换。

根据我对这两种服务的理解，最好的解决方案是结合使用两者。Data Pipeline 可以将所有内容复制到 S3。从那里，如果不需要转换，Data Pipeline 可以使用 Redshift COPY 将数据移动到 Redshift。在需要转换的地方，Glue 作业可以应用转换并将数据复制到 Redshift。

这是一个明智的策略还是我误解了这些服务的应用程序？

score 2 · Accepted Answer

我猜它已经过了项目的最后期限，但对于看到这个的人来说：

仅使用 AWS Glue。您可以将 Redshift 定义为源连接器和目标连接器，这意味着您可以从中读取并转储到其中。但是，在您这样做之前，您需要使用一个Crawler来创建特定于 Glue 的模式。

所有这些也可以仅通过带有SqlActivity(s) 的 Data Pipeline 来完成，尽管设置所有内容可能需要更长的时间并且不会便宜很多。

咆哮：我真的很惊讶 AWS 如何只专注于大数据解决方案，却没有为小型/中型/大型数据集提供体面的工具。Glue 是一种过度杀伤力，而 Data Pipeline 使用起来很麻烦/很糟糕。应该有一个简单的 SQL 类型的 Lambda！

amazon-web-services - 使用 AWS Glue 和 Data Pipeline 的 ETL 架构

1 回答 1

Related

Reference