问题标签 [foundry-code-repositories]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
dataset - 如何从 Foundry 中的代码存储库编写或创建外部数据集
我正在尝试在代码存储库中实现 pytest 功能。我想编写或创建一个数据集,以便可以放入测试用例的结果以供业务分析师查看。这样我想对业务分析师隐藏我的代码。业务分析师或职能团队可以将数据放入数据文件或融合表中,然后查看测试结果。我可以知道创建数据集或将数据写入存储库之外的数据集(可能使用 API)的方法吗?
pyspark - How to write pytest by external dataset in palantir foundry
I am able to write pytest functions by manually giving schema and input values. Using that schema and values I am creating dataframe and passes to code to check all transformations field values in foundry code repository. In place of manually passing schema and values. I want to store all the required data in the dataset outside that repository and use that dataset for pytest function to fetch all the required values and passing over to code to check all the transformed values.
May i know is there anyway to create input dataset outside the foundry code repository and use it as input for pytest function which is inside repository.
pyspark - 使用更改日志装饰器时如何写回输出数据帧?
我正在尝试使用 changelog python transform 装饰器处理包含给定输入数据集的所有记录的完整更改历史的 changelog 数据集。我只想知道如何在对输入数据集执行一些转换后使用 write_dataframe() 函数写回变更日志数据集。
pyspark - 为什么我会在我的构建中看到重复的 DataFrame 物化?
我正在执行以下代码:
现在问题出现了,如果我的初始df
不是那么简单,而是实际上是一系列连接或其他操作。当我查看我的工作时,我注意到 df 似乎在我的groupBy
操作执行时被派生了几次。这里的简单查询计划是:
但是,例如,如果我更改上面的代码以使初始df
值成为连接和联合的结果:
你可以在查询计划中看到join+union被派生了好几次,这反映在我的作业执行报告中,我看到任务数相同的阶段一次又一次地运行。
我怎样才能阻止这种重新推导的发生?
pyspark - 如何在不使用 palantir Foundry 中的 transform 或 transform_df 的情况下从数据集中导入和读取数据?
我想知道是否有任何方法可以在不使用 transform_df 或在代码存储库中转换的情况下导入文件。
基本上我想从数据集中提取数据并返回列表中的所有值。如果我使用 transform 或 transform_df 装饰器,那么在调用返回函数时我将无法访问该输入文件。
palantir-foundry - Palantir Foundry 中的 transform 和 transform_df 有什么区别?
有人可以分别解释为什么我们需要transform
&transform_df
方法吗?
pyspark - 如何根据每日指标计算一系列状态?
我有一个格式为:
我需要创建一个格式为:
我很难找到最好的方法来做到这一点
pyspark - 为什么我的构建挂起/需要很长时间才能生成具有许多联合的查询计划?
我注意到,当我在此处运行与示例相同的代码但使用union
orunionByName
或unionAll
而不是 时join
,我的查询计划需要更长的时间,并且可能导致驱动程序 OOM。
for()
此处包含的代码供参考,与循环内部发生的情况略有不同。
我在这里看到了一个明显更长的查询计划,尤其是随着for()
循环迭代次数的增加,性能会严重下降。
我怎样才能提高我的表现?
pyspark - 如果铸造代码存储库中的阈值超过阈值,如何发出警告
我获取了一个输入数据集并对其进行了一些转换,然后将其写入输出数据集。
我已经构建了这个输出数据集,现在我必须花时间构建输出数据集并将其与提供的阈值时间进行比较。如果构建持续时间大于给定的阈值,我必须发出警告或警报
例如构建时间:120 分钟阈值:100 分钟由于构建时间超过阈值,它应该抛出一个警告
apache-spark - orderBy 和 sort 不适用于完整的数据帧
最终结果按列'timestamp'排序。我有两个脚本,它们仅在提供给“record_status”列(“旧”与“旧”)的一个值上有所不同。由于数据按列'timestamp'排序,因此结果顺序应该相同。但是,顺序不同。看起来,在第一种情况下,排序在联合之前执行,而在联合之后。
使用orderBy
而不是sort
没有任何区别。
为什么会发生以及如何预防?
Script1(完整)- 4 次运行(构建)后的结果:
Script2(完整)- 4 次运行(构建)后的结果:
两种转换中的查询计划都表明必须在联合之后执行排序(检查逻辑计划和物理计划,除了 ID 和 RID 之外,我没有发现任何差异,但所有转换步骤都在同一个地方):
观察:
使用以下配置文件排序效果很好(查询计划不会改变):