1

我正在尝试决定是否将 AWS Glue 或 Amazon Data Pipeline 用于我们的 ETL。我需要将几个表增量复制到 Redshift。几乎所有表都需要复制而无需转换。一个表需要可以使用 Spark 完成的转换。

根据我对这两种服务的理解,最好的解决方案是结合使用两者。Data Pipeline 可以将所有内容复制到 S3。从那里,如果不需要转换,Data Pipeline 可以使用 Redshift COPY 将数据移动到 Redshift。在需要转换的地方,Glue 作业可以应用转换并将数据复制到 Redshift。

这是一个明智的策略还是我误解了这些服务的应用程序?

4

1 回答 1

2

我猜它已经过了项目的最后期限,但对于看到这个的人来说:

仅使用 AWS Glue。您可以将 Redshift 定义为连接器和目标 连接器,这意味着您可以从中读取并转储到其中。但是,在您这样做之前,您需要使用一个Crawler来创建特定于 Glue 的模式。

所有这些也可以仅通过带有SqlActivity(s) 的 Data Pipeline 来完成,尽管设置所有内容可能需要更长的时间并且不会便宜很多。

咆哮:我真的很惊讶 AWS 如何只专注于大数据解决方案,却没有为小型/中型/大型数据集提供体面的工具。Glue 是一种过度杀伤力,而 Data Pipeline 使用起来很麻烦/很糟糕。应该有一个简单的 SQL 类型的 Lambda!

于 2019-07-11T00:10:29.773 回答