0

我在stat stack exchange上发布了问题,但不幸的是到目前为止没有答案,所以我在这里克隆它,希望有人能提供帮助。

我是机器学习的新手。最近我试图在这方面学习一些东西并得到以下关注:

我有按类别分类的产品。我也有具有性别和设备型号信息的用户。

首先,我做了一个卡方检验来检查类别和性别+设备信息是否相关联。例如,我的 p 值为 0.000012,所以我声明用户(性别 + 设备)与类别相关联。

所以如果一个新用户带着他的性别(女性)+设备(iPhone):

  1. 作为卡方检验结果,性别+设备和类别之间应该存在关联。因此,我选择了使用 iPhone 的女性消费的前 10 个类别。我有清单,例如 [1. 时尚,2. 移动设备 3. 相机,4. 家居家具,5. 自行车等]

  2. 我还对类别进行了 z 测试(没有任何用户信息),并获得了列表(较高的 z 分数将位于顶部),例如 [1. 移动设备,2.自行车,3.时尚,4.笔记本电脑等]

那么在这种情况下,我应该向该用户提供哪个列表?或者有没有可能将它们结合起来?还是我做错了什么?

提前致谢 :-)

4

1 回答 1

0

严格来说,没有一个测试是合适的。在这两个测试中,您都有一个零假设(性别和模型与类别无关),并且您试图找出该假设错误的概率。但是,这两个测试是参数测试,即要使结果正确,您必须知道概率遵循特定分布(分别为卡方和正态分布)。在您的情况下,您不能做出这样的假设,因此测试不合适。如果要使用显着性检验,则应使用非参数检验,最常见的是 Wilcoxon 和 Friedman 检验。但是,显着性检验通常在问题解决后使用检查所取得的结果是否可以归因于运气。它们不是用来解决问题的。

如果要找到性别、模型和类别之间的相关性,则应该使用一些相关系数,例如Pearson 相关性类内相关性。但是,您没有详细描述您的数据,所以我不确定您要达到什么目的。仅基于性别和型号,您可以做的最安全和最简单的事情可能是返回使用 iPhone 的女性访问次数最多的类别(出现次数)。

于 2014-11-25T11:24:27.600 回答