问题标签 [foundry-python-transform]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
359 浏览

palantir-foundry - Foundry 中是否有可以自动填充列描述的工具?如果是这样,它叫什么?

我们正在寻找在 Foundry 平台中是否有一个工具可以让我们拥有一个字段描述列表,并且当数据集构建时,它可以自动填充这些描述。这是否存在,如果存在,该工具叫什么?

0 投票
1 回答
89 浏览

palantir-foundry - 通过 write_dataframe 添加列描述是否知道它运行的分支?

上下文:我在版本中看到了,1.184.0后来我可以在转换函数中添加列描述。[相关问题] 例如:

问题:此更新数据集描述是否仅在我运行转换的分支上?

0 投票
1 回答
213 浏览

palantir-foundry - 如何在没有 my_compute_function 的情况下访问数据框

如何使用没有 my_compute_function 的数据集。从存储库中的 file1,我想调用另一个文件中定义的函数。在第二个文件中,我想利用数据集 my_input_integration,可能没有 my_compute_function。如何组合来自两个不同存储库文件的数据集。我不想合并到一个文件中,因为我想将第二个文件用作实用程序文件。如果有人能回答这个问题,那就太好了。

存储库文件 1


存储库文件 2

0 投票
2 回答
659 浏览

pyspark - 如何创建 python 库以及如何在 palantir Foundry 中导入它

为了概括 python 函数,我想将函数添加到 python 库中,以便我可以在多个存储库中使用这些函数。请任何人回答以下问题。

1) 如何创建我们自己的 python 库 2) 如何跨多个存储库导入这些库

0 投票
1 回答
98 浏览

palantir-foundry - 有没有办法填充特定于数据集的列描述?

数据集 1 和数据集 2 具有相同的列名但不同的描述。在数据集 1 转换中,我会说我正在处理数据集 1,因此它必须优先考虑该数据集 1 的特定描述。如果我正在为另一个数据集进行转换,我想优先考虑该数据集。有没有办法填充特定于数据集的列描述?

例如,参数中的参数my_compute_function是否可以传递数据集名称,该数据集名称必须具有优先级 Column1,数据集 1 的列描述,{Dataset 1 name}。Column1,数据集 2 的列描述,{Dataset 2 name},...

0 投票
1 回答
496 浏览

pyspark - 为什么我会在我的构建中看到重复的 DataFrame 物化?

我正在执行以下代码:

现在问题出现了,如果我的初始df不是那么简单,而是实际上是一系列连接或其他操作。当我查看我的工作时,我注意到 df 似乎在我的groupBy操作执行时被派生了几次。这里的简单查询计划是:

但是,例如,如果我更改上面的代码以使初始df值成为连接和联合的结果:

你可以在查询计划中看到join+union被派生了好几次,这反映在我的作业执行报告中,我看到任务数相同的阶段一次又一次地运行。

我怎样才能阻止这种重新推导的发生?

0 投票
1 回答
69 浏览

pyspark - 如何根据每日指标计算一系列状态?

我有一个格式为:

我需要创建一个格式为:

我很难找到最好的方法来做到这一点

0 投票
2 回答
735 浏览

pyspark - 为什么我的构建挂起/需要很长时间才能生成具有许多联合的查询计划?

我注意到,当我在此处运行与示例相同的代码但使用unionorunionByNameunionAll而不是 时join,我的查询计划需要更长时间,并且可能导致驱动程序 OOM。

for()此处包含的代码供参考,与循环内部发生的情况略有不同。

我在这里看到了一个明显更长的查询计划,尤其是随着for()循环迭代次数的增加,性能会严重下降。

我怎样才能提高我的表现?

0 投票
1 回答
317 浏览

pyspark - 如何解析 Foundry 中的大型压缩 csv 文件?

我有一个大的 gziped csv 文件 (.csv.gz) 上传到一个大小约为 14GB 的数据集,未压缩时为 40GB。有没有办法使用 Python 转换将其解压缩、读取和写入数据集,而不会导致执行程序 OOM?

0 投票
1 回答
69 浏览

pyspark - 如果铸造代码存储库中的阈值超过阈值,如何发出警告

我获取了一个输入数据集并对其进行了一些转换,然后将其写入输出数据集。

我已经构建了这个输出数据集,现在我必须花时间构建输出数据集并将其与提供的阈值时间进行比较。如果构建持续时间大于给定的阈值,我必须发出警告或警报

例如构建时间:120 分钟阈值:100 分钟由于构建时间超过阈值,它应该抛出一个警告