我要聚类的数据集由约 1000 个样本和 10 个特征组成,它们具有不同的尺度和范围(负、正、两者)。使用 scipy.stats.normaltest() 我发现没有一个特征是正态分布的(所有 p 值 < 1e-4,小到足以拒绝数据取自正态分布的零假设)。但是我知道的所有距离度量都假设数据是正态分布的(我一直在使用 Mahalanobis,直到我意识到数据是多么不均匀)。在这种情况下会使用什么距离度量?或者这是一个简单地必须标准化每个特征并希望这不会引入偏见的地方?
我要聚类的数据集由约 1000 个样本和 10 个特征组成,它们具有不同的尺度和范围(负、正、两者)。使用 scipy.stats.normaltest() 我发现没有一个特征是正态分布的(所有 p 值 < 1e-4,小到足以拒绝数据取自正态分布的零假设)。但是我知道的所有距离度量都假设数据是正态分布的(我一直在使用 Mahalanobis,直到我意识到数据是多么不均匀)。在这种情况下会使用什么距离度量?或者这是一个简单地必须标准化每个特征并希望这不会引入偏见的地方?