C50 R包中函数C5.0Control的参数minCases定义为:
必须放入至少两个拆分中的最小样本数的整数。
这是如何实施的?我假设在这种情况下拆分是指拆分操作产生的节点。如我所料,minCases 似乎并不代表必须放在至少一个节点中的最小案例数。
我试图在C 源代码中找到实现。变量 minCases 似乎在第 33 行的extern.h中定义:
extern CaseCount MINITEMS, LEAFRATIO;
例如,它在prune.c的第 249 和 250 行中使用:
if (BranchCases[v] < MINITEMS) { ForEach(i, Bp, Ep) { SmallBranches[Class(Case[i])] += Weight(Case[i]); }
minCases 的真正作用是什么?