1

当Frequent Itemset 中的频繁项小于25 时,Spark FPGrowth 可以很好地处理数百万个事务(记录)。超过25 会遇到计算限制(执行程序计算时间不断增长)。对于频繁项集中的 40 多个项目,该过程永远不会返回。

为了重现,我们创建了一个包含 3 个具有相同项目(其中 40 个)的交易的简单数据集,并在 0.9 支持下运行 FPgrowth,该过程永远不会完成。运行在具有 4 核、32GB 和非常小的输入数据集的本地模式下。

以下是我们用来缩小问题范围的示例数据:

在此处输入图像描述

虽然计算随着频繁项集中的每个项目而增长 (2^n -1),但它肯定应该能够处理频繁项集中的 40 个或更多项目。

这是 FPGrowth 实现的限制吗,我是否缺少任何调整参数?谢谢你。

4

0 回答 0