dictionary - 如何将数据集转换为存储库中的字典。我在铸造厂使用 pyspark

Question

我创建了要同步到数据集的融合表数据。现在，我想使用该数据集在存储库中创建字典。我在回购中使用 pyspark。稍后我想使用要传递的字典，以便它按原样填充描述。Foundry 中是否有可以自动填充列描述的工具？如果是这样，它叫什么？.

如果有人可以帮助我在 repo 中使用 pyspark 从数据集中创建字典，那就太好了。

score 2 · Accepted Answer

以下代码会将您的 pyspark 数据框转换为字典列表：

fusion_rows = map(lambda row: row.asDict(), fusion_df.collect())

但是，在您的特定情况下，您可以使用以下代码段：

col_descriptions = {row["column_name"]: row["description"] for row in fusion_df.collect()}
my_output.write_dataframe(
    my_input.dataframe(),
    column_descriptions=col_descriptions
)

假设您的 Fusion 表如下所示：

+------------+------------------+
| column_name|       description|
+------------+------------------+
|       col_A| description for A|
|       col_B| description for B|
+------------+------------------+

dictionary - 如何将数据集转换为存储库中的字典。我在铸造厂使用 pyspark

1 回答 1

Related

Reference