我正在使用 python 和 pyspark 来扩展 SPSS Modeler。
我想操作〜5000列,因此使用以下构造:
for target in targets:
inputData = inputData.withColumn(target+appendString, function(target))
这是非常缓慢的。有没有更有效的方法对所有目标列执行此操作?
targets
包含要使用的列名列表,function(target)
是一个占位符,我可以在其中处理不同的列,例如添加和分割。
如果你能帮助我,我会很高兴:)
熊猫