我正在尝试决定是否将 AWS Glue 或 Amazon Data Pipeline 用于我们的 ETL。我需要将几个表增量复制到 Redshift。几乎所有表都需要复制而无需转换。一个表需要可以使用 Spark 完成的转换。
根据我对这两种服务的理解,最好的解决方案是结合使用两者。Data Pipeline 可以将所有内容复制到 S3。从那里,如果不需要转换,Data Pipeline 可以使用 Redshift COPY 将数据移动到 Redshift。在需要转换的地方,Glue 作业可以应用转换并将数据复制到 Redshift。
这是一个明智的策略还是我误解了这些服务的应用程序?