我正在从包含 Reading1 和 Reading2 列的 csv 文件中导入数据,并将其存储到 pyspark 数据框中。我的目标是有一个新的列名 Reading 和它的值作为一个包含 Reading1 和 Reading2 值的数组。我怎样才能在 pyspark 中达到同样的效果。
+---+-----------+-----------+
| id| Reading A| Reading B|
+---+-----------------------+
|01 | 0.123 | 0.145 |
|02 | 0.546 | 0.756 |
+---+-----------+-----------+
Desired Output:
+---+------------------+
| id| Reading |
+---+------------------+
|01 | [0.123, 0.145] |
|02 | [0.546, 0.756 |
+---+------------------+-