我正在尝试使用 pyspark 进行关联规则挖掘。假设我的数据是这样的:
myItems=spark.createDataFrame([(1,'a'),
(1,'b'),
(1,'d'),
(1,'c'),
(2,'a'),
(2,'c'),],
['id','item'])
但根据https://spark.apache.org/docs/2.2.0/ml-frequent-pattern-mining.html,格式应该是:
df = spark.createDataFrame([(1, ['a', 'b', 'd','c']),
(2, ['a', 'c'])],
["id", "items"])
所以我需要将我的数据从垂直传输到水平,并且所有 id 的长度都不同。
我该如何进行这种转移,或者有其他方法可以做到吗?