0

我知道 ELKI 目前只包含无监督异常值检测方法,因此 Elki 不会将输入数据划分为训练集和测试集。但是,我已经看到评估在可用时超过了少数类。我想知道:

  1. elki 是否使用所有输入数据进行评估?
  2. 运行时是否考虑评估或仅考虑培训时间?
  3. 评估是否考虑离群值分数来估计假阳性率和真阳性率以评估排名?
  4. 例如,在 LOF 算法中,假设普通类中的实例具有较高的 LOF 分数。在评估中会被认为是假阳性还是真阳性?

谢谢!

4

1 回答 1

1
  1. 是的,所有输入都用于无监督方法。

    标签不得用于运行算法,它们仅在评估时使用。

  2. 报告的运行时间分别针对每个算法。

  3. 这取决于你的评价。大多数度量(例如 ROC AUC)只会考虑排名。要评估实际分数,您首先需要对它们进行标准化。有关将(标准化)分数考虑在内的衡量标准,请参阅

    E. Schubert、R. Wojdanowski、A. Zimek、H.-P。Kriegel
    在第 12 届 SIAM 国际数据挖掘会议 (SDM) 论文集中评估异常值排名和异常值分数
    ,加利福尼亚州阿纳海姆:1047-1058,2012。

  4. 真阳性和假阳性需要二元决策。请参阅 ROC AUC,了解不需要指定阈值来进行二元决策的方法,而是评估所有可能的阈值。

于 2016-02-04T15:51:48.093 回答