0

嗨,我可以建议从 scala countvectorizer 输出:([label, (nVocab, [i1, i2, ...], [c1, c2, ...])]) 到 libsvm 格式的映射:(label, : : ...) ?

如果您将输入作为字符串,对于初学者,我不确定在哪里拆分以获取字段。

或者,是否有用于此的 scala 实用程序?谢谢,kvd

4

1 回答 1

0

我想通了这一点。countVectorizer 输出可以转换为具有 [size, [indices], [values]] 的 sparseVecor 数据类型。索引和值数组可以压缩并以 libsvm 格式输出。

val countVec = vec(1).asInstanceOf[SparseVector]

经过进一步探索,事实证明我不需要这种转换。我可以使用 classLabel 和 sparseVector 创建一个带标签的点,然后直接传递给机器学习对象。

谢谢,kvd

于 2017-01-27T19:59:59.593 回答