0

我目前在多类分类问题中使用来自 scikit-learn 的 LogisticRegression。我决定使用 LogisticRegression 是因为我已经阅读了几篇文章,将其描述为就其返回的预测概率而言经过良好校准的算法。

对于分类器的每个结果,我检查其预测概率以及分类观察与训练集中具有相同决策类的其余示例之间的距离。

令我惊讶的是,即使某个类的预测置信度超过 90%,余弦相似性度量表明给定示例平均与训练中具有相同类的示例集几乎正交放。

有人可以提供一些线索,说明为什么会观察到这种差异吗?

我希望对于与同一类的其他观察结果相距甚远的示例,LogisticRegression 算法将返回低预测概率。

4

1 回答 1

1

逻辑回归/分类将提供关于决策边界的结果,但不能保证边界同一侧(即属于同一类)的点具有较小的余弦距离(甚至是较小的欧几里得距离)。

考虑 xy 平面中的点,其中 y=0 以下的所有点都属于一个类,而上面的所有点都属于另一类。点 (-1000, 1) 和 (1000, 1) 属于同一类,但它们之间的余弦距离较大。另一方面,点 (1000, 1) 和 (1000, -1) 属于不同的类别,但余弦距离很小。

于 2017-10-05T20:51:14.550 回答