问题标签 [palantir-foundry]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
2 回答
225 浏览

palantir-foundry - 在 Foundry 中处理压缩文件的最佳方法是什么?

将压缩文件集成到 Foundry 中的推荐方法是什么?我可以看到 3 个选项:

  1. 在盒子上解压缩(如果有这样的选项),并使用数据连接来提取解压缩的文件
  2. 在摄取期间使用一些数据连接插件(如果有的话)解压缩文件
  3. 摄取压缩文件并进行一些转换解压缩。
0 投票
1 回答
61 浏览

palantir-foundry - 在 Contour 中展开、取消嵌套或展平数组

我有一个类型为 的列的数据集array,我想通过分解数组来转换数据集,以便将包含 N 个数组值的每一行转换为 N 行,每行包含该列中数组的单个值。这在 Contour 中可行吗?

0 投票
1 回答
164 浏览

palantir-foundry - 为代码工作簿复制或使用另存为

复制工作簿的最佳方法是什么?我看不到任何另存为按钮。唯一的选择是复制所有节点并粘贴到另一个工作簿中吗?

0 投票
1 回答
110 浏览

palantir-foundry - 如何在 Contour 中加入 NULL 值?

我需要在包含 NULL 的列上加入 Contour 中的两个数据集。

Contour 在执行连接时会丢弃 NULL,但在这种情况下,匹配此数据集中的 NULL 很重要。我怎样才能做到这一点?

0 投票
1 回答
220 浏览

palantir-foundry - Foundry Transform 在重新分区、hive 分区和分桶的各种组合中输出多少文件?

我想我了解重新分区、配置单元分区和分桶如何影响输出文件的数量,但我不太清楚各种功能的交互。有人可以帮助填写以下每种情况下我留空的输出文件的数量吗?目的是了解正确的代码适用于以下情况:我需要对高基数列和低基数列进行分区/分桶,在这种情况下我有频繁的操作来过滤低基数列,然后加入高基数列。

假设我们有一个数据框df,它以 200 个输入分区开始,colA有 10 个唯一值,并且colB有 1000 个唯一值。

首先检查我的理解:

  • df.repartition(100)= 100 个相同大小的输出文件

  • df.repartition('colA')= 10 个不同大小的输出文件,因为每个文件将包含 1 个 colA 值的所有行

  • df.repartition('colB')= 1000 个输出文件

  • df.repartition(50, 'colA')= 50 个输出文件?

  • df.repartition(50, 'colB')= 50 个输出文件,所以有些文件会包含多个 colB 的值?

Hive 分区:

  • output.write_dataframe(df, partition_cols=['colA'])= 1,000 个输出文件(因为我在 10 个配置单元分区 10 中的每个分区中可能有 100 个文件)

  • output.write_dataframe(df, partition_cols=['colB'])= 10,000 个输出文件

  • output.write_dataframe(df, partition_cols=['colA', 'colB'])= 100,000 个输出文件

  • output.write_dataframe(df.repartition('colA'), partition_cols=['colA'])= 10个不同大小的输出文件(每个hive分区1个文件)

分桶:

  • output.write_dataframe(df, bucket_cols=[‘colB’], bucket_count=100)= 100 个输出文件?在一个实验中,情况似乎并非如此

  • output.write_dataframe(df, bucket_cols=[‘colA’], bucket_count=10)= 10 个输出文件?

  • output.write_dataframe(df.repartition(‘colA’), bucket_cols=[‘colA’], bucket_count=10)= ???

现在都在一起了:

  • output.write_dataframe(df, partition_cols=[‘colA’], bucket_cols=[‘colB’], bucket_count=200)= ???

  • output.write_dataframe(df.repartition(‘colA’, ‘colB’), partition_cols=[‘colA’], bucket_cols=[‘colB’], bucket_count=200)= ???-- 这是我最后要使用的命令吗?任何下游都会首先过滤 colA 以利用 hive 分区,然后加入 colB 以利用分桶?

0 投票
1 回答
176 浏览

palantir-foundry - 在 Foundry Code Repositories 中,如何遍历目录中的所有数据集?

我正在尝试从单个 Pyspark 转换中的单个目录读取(全部或多个)数据集。是否可以迭代路径中的所有数据集,而不将单个数据集硬编码为输入?

我想从多个数据集中动态获取不同的列,而不必对单个输入数据集进行硬编码。

0 投票
1 回答
180 浏览

palantir-foundry - 如何在 Foundry 代码存储库中使用本地 IDE 进行 Java 转换?

我有一个 Java 转换代码存储库。使用本地 IDE(如 IntelliJ)编写代码并发布到 Foundry 代码库需要哪些步骤?

0 投票
1 回答
99 浏览

palantir-foundry - 是否可以通过 Foundry 数据连接将数据同步到数据集的特定分支?

我想将通过 Foundry 数据连接摄取的数据同步到数据集的特定分支中。有没有办法配置这种设置?

0 投票
2 回答
198 浏览

palantir-foundry - 我可以将 .png 保存在 Foundry 代码工作簿中吗?

我正在使用 Foundry 代码工作簿生成图像,然后尝试将其保存回 Foundry。我可以很好地生成图像,但正在努力保存它。

您能否帮助我了解如何.png通过代码工作簿保存图像文件?

0 投票
1 回答
132 浏览

palantir-foundry - 在代码工作簿中使用代码存储库

是否可以使用代码存储库构建一个库,然后在代码工作簿中调用该库?