0

此处需要建议:使用 Alteryx 设计器,我从 SQL Server(10M 行)中提取了一个大型数据集,需要移至 Greenplum DB

我尝试使用 Input Data (SQL Server) 和 Output Data (GP) 进行连接,还尝试 Connect In-DB (SQL Server) 和 Write Data In-DB (GP)

任何方法都需要生命来完成,我必须取消该过程(给出一个想法,在周末它运行了 18 小时并且推进不超过 1%)

任何加速此类海量批量数据加载的好建议或技巧都将非常感激!

我可以控制或修改 SQL Server 和 Alteryx 以提高性能,但在 Greenplum 中不能

提前致谢。

问候, 埃里克

4

2 回答 2

0

我将分解您采用的方法。

  • 由于数据库不同,您将无法使用 IN-DB 工具,因此您无法将处理推送到数据库...

  • 使用标准的 Alteryx 工具,您将整个桌子放到您的机器上,然后再次将其推出,有多种方法可以完成此操作,具体取决于您的阻塞位置。

  • 首先查看从 SQL 中提取的数据,10M 行并不多,因此您可以拆分进程并将其编写为 yxdb。如果失败或需要几个小时,那么您将需要查看与 SQL Server 的连接或 SQL Server 上可用的资源。

  • 然后对于推送到 Greenplum,目前没有 PostgreS 批量加载器,因此您可以尝试写入整个表,或者您可以将表的段写入 Greenplum 中的临时表,然后执行命令来组合这些表.

于 2018-09-09T22:44:51.640 回答
0

我们每天将数百万行从 SQL 服务器拉到 Greenplum,我们使用名为 Outsourcer 的开源工具。它是一个很棒的工具,可以处理清理和其他问题。我们在过去 3.5 年里一直在使用这个工具,直到现在都没有问题。它可以处理所有并行性,并在几分钟内加载数百万行。

它支持增量或全负载。如果您需要支持,外包商的 Jon Robert 将在几分钟内回复您的电子邮件。这是该工具的链接

https://www.pivotalguru.com/

于 2018-09-20T21:15:50.180 回答