在将短语向量化并将它们放入矩阵形式时,有些事情让我感到困惑。
当您导入 CountVectorizer 或 TfidfVectorizer 时,
.fit & .transform & .fit_transform 函数有什么区别?
我知道'.fit'会学习ngrams,分成ngrams。
'.transform' 会将其放入短语 x ngram 矩阵中。
'.fit_transform' 作为 .fit 和 .transform 的组合使用
如果是这种情况,如果我只是 vectorize.transform(phrase) 而没有拟合它会发生什么?
我看到本教程设置了适合和转换火车数据,但对于测试数据,它只对预测进行“转换”操作。
提前谢谢大家。