我正在尝试使用该arules
包进行一些购物篮分析,但是当我summary()
在对象上使用该函数itemMatrix
来检查哪些是最常见的项目时,数字不会相加。如果我做:
library(arules)
x <- read.transactions("Supermarket2014-15.csv")
summary(x)
我得到:
transactions as itemMatrix in sparse format with
5001 rows (elements/itemsets/transactions) and
997 columns (items) and a density of 0.003557162
most frequent items:
45 28 42 35 22 (Other)
503 462 444 440 413 15474
但如果我用for
循环检查,甚至在 Excel 中检查,产品 45 的计数是 513 而不是 503。28 也是如此,应该是 499,依此类推。奇怪的是,如果我将所有总数相加,(15474+413+440+444+462+503)
我会得到交易产品总数的正确数字。
数据有几个NA
值,产品是因素。
这是原始数据(Day 范围从 1 到 28,Product 范围从 1 到 50):