我正在尝试为包含数字和文本特征的数据集创建预测模型(或分类)使用 Tf-IdfVectorizer,我设法将文本列转换为列表,因此文本列中的每个单元格都是浮点数列表,例如
[0.0 0.3567 0.0 0.0]
(不带逗号)。我的目标功能是一组类。每行可以有多个值,例如
[a, b, c, 1]
[1, d]
[]
问题是如何预处理目标变量,以便我的模型进行分类预测?我尝试了标签编码,但它为每一行创建了新的编码,因此相同的整数被编码为不同行的不同类。
我计划接受超过某个阈值的每一行的所有预测。是否有模型也支持这一点?提前谢谢了