0

我正在尝试使用该arules包进行一些购物篮分析,但是当我summary()在对象上使用该函数itemMatrix来检查哪些是最常见的项目时,数字不会相加。如果我做:

library(arules)
x <- read.transactions("Supermarket2014-15.csv")
summary(x)

我得到:

transactions as itemMatrix in sparse format with
 5001 rows (elements/itemsets/transactions) and
 997 columns (items) and a density of 0.003557162 

most frequent items:    
45      28      42      35      22 (Other) 
503     462     444     440     413   15474 

但如果我用for循环检查,甚至在 Excel 中检查,产品 45 的计数是 513 而不是 503。28 也是如此,应该是 499,依此类推。奇怪的是,如果我将所有总数相加,(15474+413+440+444+462+503)我会得到交易产品总数的正确数字。

数据有几个NA值,产品是因素。

字符串(x)

这是原始数据(Day 范围从 1 到 28,Product 范围从 1 到 50):

原始数据

4

1 回答 1

0

如果您查看str(x)调用的结果,那么您会在下面看到@iteminfo一些$labels项目具有诸如"1;1"等标签。这意味着在读入文件后项目没有正确分隔。默认分隔符read.transactions()是一个空格,但您似乎有(一些)分号。试试看。sep=";"_read.transactions()

于 2016-12-28T10:40:00.060 回答