我们是否能够通过 pyspark mllib 管道允许缺失(特别是数字)值?
我通常在这里遵循 GBT 管道: https ://spark.apache.org/docs/latest/ml-classification-regression.html#gradient-boosted-tree-classifier
当我在管道之前 fillna() 一切正常,但是当我尝试让缺失的值流过时,我在下面得到这个错误:
原因:org.apache.spark.SparkException:在使用handleInvalid =“keep”组装一行时遇到null。考虑从数据集中删除空值或使用 handleInvalid = "keep" 或 "skip"。
从逻辑上讲,这意味着我可以将 handleInvalid 设置为跳过,但我想开发一个可以处理缺失值的管道;特别是因为基于树的模型可以处理它们