4

背景:我们的业务用户通过邮件收到他们想要导入 Foundry 的 excel 表 (.xlsx)。我们同意文件和选项卡的给定结构和命名约定,以便简单地将它们拖放到特定文件夹中并将它们附加到现有数据集。然后,这个现有数据集的更改会触发管道(原始->干净->本体)。

问题:我们使用“附加列”来清理数据并基于它们应用一些逻辑(_filePath、_byteOffset、_importedAt),但每次添加新的 excel 时,架构似乎都被重置并且“附加列”未被选中。

未勾选的其他列

在将 Excel 工作表导入现有数据集并将其附加到现有数据集后,有没有办法保留“附加列”?

4

1 回答 1

0

不幸的是,通过拖放界面导入总是会替换导入时的现有模式,这就是您丢失其他列的原因。如果您可以将文件创建为 CSV 而不是 XLS,那么您可以附加并保留现有架构,包括附加列。另一种方法(尽管是间接的)是在 raw 和 clean 之间增加一个步骤,调用元数据 API 来添加可选列。

你想设置这些 textParserParam 参数:

textParserParams["addFilePath"] = True
textParserParams["addByteOffset"] = True
textParserParams["addImportedAt"] = True
于 2021-02-26T21:27:10.663 回答