阈值 Z:
– 训练样本首先根据所考虑的属性 Y 的值进行排序。这些值的数量是有限的,所以让我们按排序顺序将它们表示为 {v1, v2, ..., vm}。– 任何介于 vi 和 vi+1 之间的阈值将具有相同的效果,将案例划分为属性 Y 的值在 {v1, v2, ..., vi} 的情况和值在 {vi+1, vi+ 的情况2, …, vm}。因此在 Y 上只有 m-1 个可能的分裂,所有这些都应该系统地检查以获得最佳分裂。
通常选择每个区间的中点:(vi+vi+1)/2 作为代表阈值。–C4.5 为每个区间 {vi, vi+1} 选择一个较小的值 vi 作为阈值,而不是中点本身
我只是想知道这是否正确。
可以说我有:
{65, 70, 75, 78, 80, 85, 90, 95, 96}.
我必须进行 m-1 计算才能找到最佳值,所以
{65, 70, 75, 78, 80, 85, 90, 95}.
对于每个拆分(例如 65 和 >= 65 、<70 和 >=70 等等)。我必须计算
增益比,并选择给我更高增益的分割。我对吗?