scala - Spark MLlib FPGrowth 不适用于频繁项目集中的 40 多个项目

翻译自：https://stackoverflow.com/questions/70865825 2022-01-26T15:19:41.520

14 次

当Frequent Itemset 中的频繁项小于25 时，Spark FPGrowth 可以很好地处理数百万个事务（记录）。超过25 会遇到计算限制（执行程序计算时间不断增长）。对于频繁项集中的 40 多个项目，该过程永远不会返回。

为了重现，我们创建了一个包含 3 个具有相同项目（其中 40 个）的交易的简单数据集，并在 0.9 支持下运行 FPgrowth，该过程永远不会完成。运行在具有 4 核、32GB 和非常小的输入数据集的本地模式下。

以下是我们用来缩小问题范围的示例数据：

虽然计算随着频繁项集中的每个项目而增长 (2^n -1)，但它肯定应该能够处理频繁项集中的 40 个或更多项目。

这是 FPGrowth 实现的限制吗，我是否缺少任何调整参数？谢谢你。

0 回答 0