cluster-analysis - 用于聚类非正态分布数据的距离度量

Question

我要聚类的数据集由约 1000 个样本和 10 个特征组成，它们具有不同的尺度和范围（负、正、两者）。使用 scipy.stats.normaltest() 我发现没有一个特征是正态分布的（所有 p 值 < 1e-4，小到足以拒绝数据取自正态分布的零假设）。但是我知道的所有距离度量都假设数据是正态分布的（我一直在使用 Mahalanobis，直到我意识到数据是多么不均匀）。在这种情况下会使用什么距离度量？或者这是一个简单地必须标准化每个特征并希望这不会引入偏见的地方？

score 0 · Accepted Answer

为什么您认为所有距离都会假设正常（顺便说一句，与统一数据不同）数据？

考虑欧几里得距离。在许多物理应用中，这个距离非常有意义，因为它是“如乌鸦飞翔”。当运动受限于不能同时使用的两个轴时，曼哈顿距离很有意义。这些完全适用于非正态分布数据。

cluster-analysis - 用于聚类非正态分布数据的距离度量

1 回答 1

Related

Reference