我正在使用 pySpark 读取和计算数据帧的统计信息。
数据框如下所示:
TRANSACTION_URL START_TIME END_TIME SIZE FLAG COL6 COL7 ...
www.google.com 20170113093210 20170113093210 150 1 ... ...
www.cnet.com 20170113114510 20170113093210 150 2 ... ...
我正在向数据框中添加一个新timePeriod
列,添加后,我想保存前 50K 记录并timePeriod
匹配一些预定义的值。
我的意图是使用 dataframe header将这些行保存到 CSV中。
我知道这应该是和的组合,col
但write.csv
我不确定如何正确使用它们来实现我的意图。
我目前的代码是:
encodeUDF = udf(encode_time, StringType())
log_df = log_df.withColumn('timePeriod', encodeUDF(col('START_TIME')))
在添加列之后,我猜我应该使用类似的东西:
log_df.select(col('timePeriod') == 'Weekday').write.csv(....)
有人可以帮我在这里填空,以符合我的意图吗?