我正在进入机器学习领域,最近我使用线性判别分析研究了线性可分数据的分类。为此,我使用了 scikit-learn 包和函数
.discriminant_analysis.LinearDiscriminantAnalysis
来自 MNIST 手写数字数据库的数据。我已经使用数据库来拟合模型并通过这样做对测试数据进行预测:
LDA(n_components=2)
LDA_fit(data,labels)
LDA_predict(testdata)
哪个工作得很好。我得到了 95% 的不错的准确率。然而,预测函数使用来自所有 784 个维度的数据(对应于 28x28 像素的图像)。我不明白为什么所有维度都用于预测?
我虽然线性判别分析的目的是在低维空间上找到一个投影,该投影允许最大限度地允许类分离,这样理想情况下数据是线性可分的并且分类很容易。
如果所有 784 维都用于预测,LDA 和确定投影矩阵有什么意义?