pyspark - 在 PySpark 的两个不同 pyspark.sql.dataframes 中的两列中创建一个 pyspark.sql.dataframe

Question

假设 pyspark 中的以下两个 Dataframes 具有相同的行数：
df1:
|_ Column1a
|_ Column1b

df2:
|_ 列 2a
|_ 列 2b

我希望创建一个只有 Column1a 和 Column 2a 的新 DataFrame“df”。什么可能是最好的解决方案？

score 0 · Accepted Answer

Denny Lee 的回答就是这样。
它涉及在两个 DataFrames 上创建另一列，即每行的Unique_Row_ID。然后我们对Unique_Row_ID执行连接。如果需要，然后删除Unique_Row_ID 。

1 回答 1