pyspark - 如何在 Pyspark MLlib 模型中允许 NULL/NaN？

翻译自：https://stackoverflow.com/questions/68668026 2021-08-05T13:59:11.147

109 次

我们是否能够通过 pyspark mllib 管道允许缺失（特别是数字）值？

当我在管道之前 fillna() 一切正常，但是当我尝试让缺失的值流过时，我在下面得到这个错误：

原因：org.apache.spark.SparkException：在使用handleInvalid =“keep”组装一行时遇到null。考虑从数据集中删除空值或使用 handleInvalid = "keep" 或 "skip"。

从逻辑上讲，这意味着我可以将 handleInvalid 设置为跳过，但我想开发一个可以处理缺失值的管道；特别是因为基于树的模型可以处理它们

0 回答 0