2

假设 pyspark 中的以下两个 Dataframes 具有相同的行数:
df1:
 |_ Column1a
 |_ Column1b

df2:
 |_ 列 2a
 |_ 列 2b

我希望创建一个只有 Column1a 和 Column 2a 的新 DataFrame“df”。什么可能是最好的解决方案?

4

1 回答 1

0

Denny Lee 的回答就是这样。
它涉及在两个 DataFrames 上创建另一列,即每行的Unique_Row_ID然后我们对Unique_Row_ID执行连接。如果需要,然后删除Unique_Row_ID 。

于 2016-12-01T01:03:04.677 回答