0

我正在尝试为包含数字和文本特征的数据集创建预测模型(或分类)使用 Tf-IdfVectorizer,我设法将文本列转换为列表,因此文本列中的每个单元格都是浮点数列表,例如 [0.0 0.3567 0.0 0.0](不带逗号)。我的目标功能是一组类。每行可以有多个值,例如

[a, b, c, 1]
[1, d]
[]

问题是如何预处理目标变量,以便我的模型进行分类预测?我尝试了标签编码,但它为每一行创建了新的编码,因此相同的整数被编码为不同行的不同类。

我计划接受超过某个阈值的每一行的所有预测。是否有模型也支持这一点?提前谢谢了

4

1 回答 1

0

一种方法是针对每个标签单独训练分类器(每个样本是否具有特定标签将是二进制分类)。另一个想法是将标签二值化并进行多类分类,但最后删除 softmax 函数(它将对数概率归一化为总和为 1)并为每个标签应用逻辑损失。

Keras 在这里非常容易使用。

于 2017-10-12T22:23:15.680 回答