palantir-foundry - 如何确保在 Foundry Python Transforms 中构建的数据集中文件大小一致？

Question

我的 Foundry 转换在不同的运行中产生不同数量的数据，但我希望每个文件中的行数相似。我可以使用DataFrame.count()然后合并/重新分区，但这需要计算完整的数据集，然后缓存或重新计算。Spark有办法解决这个问题吗？

score 1 · Accepted Answer

您可以使用 spark.sql.files.maxRecordsPerFile 配置选项，方法是根据 @transform 的输出设置它：

output.write_dataframe(
    output_df,
    options={"maxRecordsPerFile": "1000000"},
)

score 1 · Accepted Answer

proggeo如果您唯一关心的是每个文件的记录数，那么的答案很有用。但是，有时对数据进行分桶很有用，因此 Foundry 能够优化下游操作，例如轮廓分析或其他转换。

在这些情况下，您可以使用以下内容：

bucket_column = 'equipment_number'
num_files = 8
output_df = output_df.repartition(num_files, bucket_column)
output.write_dataframe(
    output_df,
    bucket_cols=[bucket_column],
    bucket_count=num_files,
)

如果您的存储桶列分布良好，这将有助于保持每个数据集文件的行数相似。

palantir-foundry - 如何确保在 Foundry Python Transforms 中构建的数据集中文件大小一致？

2 回答 2

Related

Reference