我有一个创建两个数据集的数据连接源:
- 数据集 X(快照)
- 数据集 Y(增量)
这两个数据集来自同一来源。数据集X
包含源表中所有行的当前状态。数据集Y
提取自上次构建以来已更新的所有行。然后将这两个数据集在下游合并到 datasetZ
中, datasetZ
是 datasetX
或 dataset 中每一行的最新版本Y
。这使我们既可以进行低延迟更新,又可以保持良好的分区。
在源表中删除行时,这些行不再存在于 dataset 中,X
但仍存在于 dataset 中Y
。
将这些“已删除”行保留在数据集中的最佳方法是什么Z
?理想情况下,我还可以在Y
不丢失任何“已删除”行的情况下对数据集进行快照。