问题标签 [foundry-code-repositories]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
pyspark - 如何通过将数据框作为输入来编写 pytest 以获取 palantir Foundry 中的所有必需值
我可以pytest
通过手动提供列名和值来创建数据框并将其传递给生产代码以检查 palantir Foundry 代码存储库中所有转换后的字段值来编写函数。
我不想手动传递列名及其各自的值,而是将所有必需的数据存储在数据集中,并将该数据集导入pytest
函数以获取所有必需的值并传递给生产代码以检查所有转换后的字段值。
无论如何都要接受数据集作为planatir代码存储库中测试函数的输入。
pyspark - 如何在 Palantir Foundry 中上传未经身份验证的数据集
我需要上传一个包含列名及其各自值的测试数据集,以测试生产代码的功能。如何在 palantir Foundry 中上传未经身份验证的数据集。有人请建议吗?
palantir-foundry - 如何处理代码存储库中的大文件?
我有一个每天提供一个大的 .txt 文件 (50-75GB) 的数据馈送。该文件包含几个不同的模式,其中每一行对应一个模式。我想将其拆分为每个模式的分区数据集,我怎样才能有效地做到这一点?
palantir-foundry - 如何在 Foundry 转换中读取和写入列描述和类型类?
我想从我的上游数据集中读取列描述和类型类,然后我想简单地将它们传递给我的下游数据集。
如何在 Python 转换中做到这一点?
pyspark - 如何遍历代码存储库中的 json 文件并增量附加到数据集
我已经通过数据连接将一个包含 100,000 个大约 100gb 的原始 json 文件的数据集导入到 Foundry 中。我想使用Python Transforms raw file access
转换来读取文件,将结构和结构的数组展平到数据帧中,作为对 df 的增量更新。我想使用 *.json 文件的文档中的以下示例中的内容,并将其转换为使用@incremental()
装饰器的增量更新。
在@Jeremy David Gamet 的帮助下,我能够开发代码来获得我想要的数据集。
扁平化__df的代码
上面的代码适用于少数文件,因为文件超过 100,0000 我遇到以下错误:
有什么办法吗?
pyspark - 如何在 Palantir Foundry 中合并多个动态输入?
我想在 Palantir Foundry 中合并多个数据集,数据集的名称是动态的,因此我无法transform_df()
静态给出数据集名称。有没有一种方法可以动态地将多个输入输入transform_df
并合并所有这些数据帧?
我尝试遍历数据集,例如:
但是,这不会产生联合输出。
apache-spark - 在 Palantir Foundry 中为特定类型的所有列创建期望
我使用expectations
andCheck
来确定十进制类型的列是否可以转换为 int 或 long 类型。如果列包含整数或小数且小数部分仅包含零,则可以安全地转换该列。我使用正则表达式函数检查它rlike
,因为我找不到任何其他使用expectations
.
问题是,我可以在不明确列出列名的情况下对所有十进制类型的列进行这种检查吗?df.columns
尚不可用,因为我们还没有进入my_compute_function
.
palantir-foundry - 如何使用休息调用将一个数据帧的模式应用于另一个空数据帧
我在铸造厂有两个数据集:df1 和 df2,df1 有带有模式的数据。
df2 是没有应用架构的空数据框。
使用数据代理我能够从 df1 中提取模式
如何通过休息调用将此模式应用于空数据帧 df2?
下面的铸造示例展示了如何提交一个空事务,这个例子没有展示如何应用模式