2

在将短语向量化并将它们放入矩阵形式时,有些事情让我感到困惑。

当您导入 CountVectorizer 或 TfidfVectorizer 时,

.fit & .transform & .fit_transform 函数有什么区别?

我知道'.fit'会学习ngrams,分成ngrams。

'.transform' 会将其放入短语 x ngram 矩阵中。

'.fit_transform' 作为 .fit 和 .transform 的组合使用

如果是这种情况,如果我只是 vectorize.transform(phrase) 而没有拟合它会发生什么?

我看到本教程设置了适合和转换火车数据,但对于测试数据,它只对预测进行“转换”操作。

提前谢谢大家。

4

1 回答 1

3

强调:

  1. .transform(X)= 将字典特征转换为二维特征矩阵。
  2. .fit_transform(X)= 学习特征名称 +.transform(X)

要回答您的问题:

.transform只能在学习使用.fit. 直接应用.transform将忽略任何未遇到的特征.fit,因此不会输出任何分类结果。

参考:

于 2018-03-01T14:42:52.500 回答