我正在尝试使用 mahout 创建项目相似性。问题是我在输出方面确实很少有相似之处。
这是我的输入数据特征:
- 15.910.847 偏好总数
- 4.047.745 个不同的用户
- 773.015 个不同的项目我已经建立了用户和偏好的分布
第一列是不同用户的数量
第二列是每个用户的偏好计数。例如,我确实有 2.221.760 次使用,它们只有一种偏好。
2221760 1 688258 2 322497 3 192003 4 122446 5 87033 6 63733 7 49556 8 39090 9 31637 10 25634 11
这是我的输入设置:
similarityClassname=SIMILARITY_PEARSON_CORRELATION
maxSimilaritiesPerItem=100000
minPrefsPerUser=0
booleanData=false
threshold=0.75