我正在使用 Christian Borlget 的FP-Growth和Apriori包来查找频繁项集和关联规则。根据他的论文,fp-growth 在所有情况下都比先验表现更好。
在我的机器上运行 FP-Growth,在一个 ~36MB(~500,000 行)的 csv 文件上,显示:
from fim import apriori, fpgrowth
s = time.time()
fp = fpgrowth(tracts, target='r', supp=0.0065, zmin=2, report="C,S") # tracts is a list of lists
e = time.time()
print(e - s)
41.10438871383667
而 Apriori 的结果是:
s = time.time()
ap = apriori(tracts, target='r', supp=0.0065, zmin=2, report="C,S")
e = time.time()
print(e - s)
34.50810647010803
我在实施中遗漏了什么?