1

我想从我的上游数据集中读取列描述和类型类,然后我想简单地将它们传递给我的下游数据集。

如何在 Python 转换中做到这一点?

4

1 回答 1

4

如果您将存储库升级到至少 1.206.0,您将能够访问 Transforms Python API 中的一项新功能:读取写入描述类型类。为了可见性,这个问题也与这个高度相关

column_descriptions属性返回一个结构化Dict<str, List<Dict<str, str>>>的 ,例如 的列tags将具有 的 column_typeclasses 对象{'tags': [{"name": "my_name", "kind": "my_kind"}]}。类型类总是由两个组件组成, aname和 a kind,它们出现在上面显示的列表的每个字典中。这是唯一可以传入这个dict的两个key,每个key对应的值必须是str。

此功能的完整文档正在编写中,敬请期待。

from transforms.api import transform, Input, Output


@transform(
    my_output=Output("ri.foundry.main.dataset.my-output-dataset"),
    my_input=Input("ri.foundry.main.dataset.my-input-dataset"),
)
def my_compute_function(my_input, my_output):
    recent = my_input.dataframe().limit(10)

    existing_typeclasses = my_input.column_typeclasses
    existing_descriptions = my_input.column_descriptions

    my_output.write_dataframe(
        recent,
        column_descriptions=existing_descriptions,
        column_typeclasses=existing_typeclasses
    )
于 2021-03-18T18:37:14.697 回答