0

我们是否能够通过 pyspark mllib 管道允许缺失(特别是数字)值?

我通常在这里遵循 GBT 管道: https ://spark.apache.org/docs/latest/ml-classification-regression.html#gradient-boosted-tree-classifier

当我在管道之前 fillna() 一切正常,但是当我尝试让缺失的值流过时,我在下面得到这个错误:

原因:org.apache.spark.SparkException:在使用handleInvalid =“keep”组装一行时遇到null。考虑从数据集中删除空值或使用 handleInvalid = "keep" 或 "skip"。

从逻辑上讲,这意味着我可以将 handleInvalid 设置为跳过,但我想开发一个可以处理缺失值的管道;特别是因为基于树的模型可以处理它们

4

0 回答 0