scikit-learn - 如何为添加到 CountVectorizer 转换数据的非文本特征设置名称？

翻译自：https://stackoverflow.com/questions/50675810 2018-06-04T07:54:51.757

108 次

我有一个代码可以向矢量化数据集添加一个新的非文本特征（文档的长度）：

from sklearn.feature_extraction.text import CountVectorizer
from scipy.sparse import csr_matrix, hstack
def add_feature(X, feature_to_add):
    return hstack([X, csr_matrix(feature_to_add).T], 'csr')
vect = CountVectorizer().fit(X_train)
X_train_vectorized = vect.transform(X_train)
X_train1 = add_feature(X_train_vectorized, X_train.str.len())

我想将此新功能称为“length_of_doc”。怎么做？谢谢你。

scikit-learn - 如何为添加到 CountVectorizer 转换数据的非文本特征设置名称？

0 回答 0

Related

Reference