问题标签 [foundry-code-repositories]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
4 回答
342 浏览

palantir-foundry - 如何在不影响语义版本的情况下强制增量 Foundry Transforms 作业以非增量方式构建?

如何在不更改转换存储库中的语义版本的情况下强制特定数据集以非增量方式构建?

有关我们特定用例的详细信息:

我们有大约 50 个数据集,由单个增量 python 通过手动注册和 for 循环定义。此转换的输入可以是 100 到 10000 个小 gzip 文件,因此当运行较大的数据集时,它最终会将所有这些分区为少数几个大小合适的 parquet 文件,这对于我们的下游工作来说是完美的。但是,在此作业已增量运行数月后(文件每小时到达),输出中还会有大量小型 parquet 文件。我们希望能够强制对单个数据集进行快照构建,而不必改变转换的语义版本,这将触发所有 50 个数据集的快照构建。这可能吗?

我了解一种潜在的解决方法可能是在转换本身中定义“最大输出文件”,读取现有输出中的当前文件数,并在当前超过最大值时强制执行快照。然而,由于这个管道是时间敏感的(需要在一个小时内运行),这会给管道带来一定程度的不可预测性,因为快照构建需要更长的时间。我们希望能够将这些完整的快照构建设置为每月在周末运行一次。

0 投票
1 回答
185 浏览

palantir-foundry - 为什么我不应该在我的 Python 转换中使用 collect()?

TL;DR:我听说某些 PySpark 函数在 Transforms 中是不可取的,但我不确定哪些函数是错误的,为什么会这样?

为什么我不能collect()在某些情况下将我的数据放到一个列表中并遍历行?

0 投票
2 回答
110 浏览

palantir-foundry - 有没有办法以编程方式从 .csv 设置数据集的架构

例如,我有一个.csv使用 Excel 方言的方法,它使用 Python 的 csv 模块之类的东西doubleQuote来转义引号。

例如,考虑下面的行:

我希望架构变成:

有没有办法以编程/自动化方式设置数据集的模式?

0 投票
1 回答
359 浏览

palantir-foundry - Foundry 中是否有可以自动填充列描述的工具?如果是这样,它叫什么?

我们正在寻找在 Foundry 平台中是否有一个工具可以让我们拥有一个字段描述列表,并且当数据集构建时,它可以自动填充这些描述。这是否存在,如果存在,该工具叫什么?

0 投票
1 回答
576 浏览

palantir-foundry - 如何在我的 Foundry 代码存储库中强制执行最低测试覆盖率?

我不仅想在我的 Foundry 代码存储库中编写单元测试,而且我想强制执行最低限度的覆盖以使检查通过。

确保我使用单元测试至少覆盖了我的代码的一部分是最佳实践,但测试似乎不是标准存储库中的要求。

如何在我的 Foundry 代码库中完成我的两个测试目标?

0 投票
1 回答
123 浏览

dictionary - 如何将数据集转换为存储库中的字典。我在铸造厂使用 pyspark

我创建了要同步到数据集的融合表数据。现在,我想使用该数据集在存储库中创建字典。我在回购中使用 pyspark。稍后我想使用要传递的字典,以便它按原样填充描述。Foundry 中是否有可以自动填充列描述的工具?如果是这样,它叫什么?.

如果有人可以帮助我在 repo 中使用 pyspark 从数据集中创建字典,那就太好了。

0 投票
1 回答
89 浏览

palantir-foundry - 通过 write_dataframe 添加列描述是否知道它运行的分支?

上下文:我在版本中看到了,1.184.0后来我可以在转换函数中添加列描述。[相关问题] 例如:

问题:此更新数据集描述是否仅在我运行转换的分支上?

0 投票
1 回答
213 浏览

palantir-foundry - 如何在没有 my_compute_function 的情况下访问数据框

如何使用没有 my_compute_function 的数据集。从存储库中的 file1,我想调用另一个文件中定义的函数。在第二个文件中,我想利用数据集 my_input_integration,可能没有 my_compute_function。如何组合来自两个不同存储库文件的数据集。我不想合并到一个文件中,因为我想将第二个文件用作实用程序文件。如果有人能回答这个问题,那就太好了。

存储库文件 1


存储库文件 2

0 投票
2 回答
659 浏览

pyspark - 如何创建 python 库以及如何在 palantir Foundry 中导入它

为了概括 python 函数,我想将函数添加到 python 库中,以便我可以在多个存储库中使用这些函数。请任何人回答以下问题。

1) 如何创建我们自己的 python 库 2) 如何跨多个存储库导入这些库

0 投票
1 回答
547 浏览

testing - Foundry 转换的 Python 单元测试?

我想在我的转换为 Foundry 时设置测试,通过测试输入并检查输出是否是预期的。是否可以使用虚拟数据集(存储库中的 .csv 文件)调用转换,或者我应该在转换中创建函数以供测试调用(在代码中创建的数据)?