我有一个包含 50k 行和 10k 列的大型数据集。我正在尝试使用 auto-sklearn 中的分类器来拟合这些数据。由于资源有限,我将数据分批,打算使用增量学习。是否可以使用 autosklearn.classification.AutoSklearnClassifier。fit()在第一批之后是 autosklearn.classification.AutoSklearnClassifier。refit()在其余批次上?API 文档说:
改装(X, y)
将找到的所有模型重新拟合到新数据。使用交叉验证时是必需的。在训练期间,auto-sklearn 在数据集上拟合每个模型 k 次,但不保留任何经过训练的模型,因此不能用于预测新数据点。此方法适合在调用期间找到的所有模型以适合给定的数据。这种方法也可以与holdout一起使用,以避免只使用66%的训练数据来拟合最终模型。参数:
X :形状的类数组或稀疏矩阵 = [n_samples, n_features] 训练输入样本。y :类数组,shape = [n_samples] 或 [n_samples, n_outputs] 目标。
这是否意味着 refit 仅在对原始数据使用交叉验证时才有效,还是第一行意味着后续批次的数据可以在同一模型上重新训练?
有什么想法/想法吗?