问题标签 [palantir-foundry]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

321 问题

0 投票

2 回答

225 浏览

palantir-foundry - 在 Foundry 中处理压缩文件的最佳方法是什么？

将压缩文件集成到 Foundry 中的推荐方法是什么？我可以看到 3 个选项：

在盒子上解压缩（如果有这样的选项），并使用数据连接来提取解压缩的文件
在摄取期间使用一些数据连接插件（如果有的话）解压缩文件
摄取压缩文件并进行一些转换解压缩。

palantir-foundry foundry-data-connection

2020-09-21T13:36:20.443

0 投票

1 回答

61 浏览

palantir-foundry - 在 Contour 中展开、取消嵌套或展平数组

我有一个类型为的列的数据集array，我想通过分解数组来转换数据集，以便将包含 N 个数组值的每一行转换为 N 行，每行包含该列中数组的单个值。这在 Contour 中可行吗？

palantir-foundry foundry-contour

2020-09-21T13:39:11.180

0 投票

1 回答

164 浏览

palantir-foundry - 为代码工作簿复制或使用另存为

复制工作簿的最佳方法是什么？我看不到任何另存为按钮。唯一的选择是复制所有节点并粘贴到另一个工作簿中吗？

palantir-foundry foundry-code-workbooks

2020-09-21T13:40:13.620

0 投票

1 回答

110 浏览

palantir-foundry - 如何在 Contour 中加入 NULL 值？

我需要在包含 NULL 的列上加入 Contour 中的两个数据集。

Contour 在执行连接时会丢弃 NULL，但在这种情况下，匹配此数据集中的 NULL 很重要。我怎样才能做到这一点？

palantir-foundry foundry-contour

2020-09-21T16:42:10.313

0 投票

1 回答

220 浏览

palantir-foundry - Foundry Transform 在重新分区、hive 分区和分桶的各种组合中输出多少文件？

我想我了解重新分区、配置单元分区和分桶如何影响输出文件的数量，但我不太清楚各种功能的交互。有人可以帮助填写以下每种情况下我留空的输出文件的数量吗？目的是了解正确的代码适用于以下情况：我需要对高基数列和低基数列进行分区/分桶，在这种情况下我有频繁的操作来过滤低基数列，然后加入高基数列。

假设我们有一个数据框df，它以 200 个输入分区开始，colA有 10 个唯一值，并且colB有 1000 个唯一值。

首先检查我的理解：

df.repartition(100)= 100 个相同大小的输出文件
df.repartition('colA')= 10 个不同大小的输出文件，因为每个文件将包含 1 个 colA 值的所有行
df.repartition('colB')= 1000 个输出文件
df.repartition(50, 'colA')= 50 个输出文件？
df.repartition(50, 'colB')= 50 个输出文件，所以有些文件会包含多个 colB 的值？

Hive 分区：

output.write_dataframe(df, partition_cols=['colA'])= 1,000 个输出文件（因为我在 10 个配置单元分区 10 中的每个分区中可能有 100 个文件）
output.write_dataframe(df, partition_cols=['colB'])= 10,000 个输出文件
output.write_dataframe(df, partition_cols=['colA', 'colB'])= 100,000 个输出文件
output.write_dataframe(df.repartition('colA'), partition_cols=['colA'])= 10个不同大小的输出文件（每个hive分区1个文件）

分桶：

output.write_dataframe(df, bucket_cols=[‘colB’], bucket_count=100)= 100 个输出文件？在一个实验中，情况似乎并非如此
output.write_dataframe(df, bucket_cols=[‘colA’], bucket_count=10)= 10 个输出文件？
output.write_dataframe(df.repartition(‘colA’), bucket_cols=[‘colA’], bucket_count=10)= ？？？

现在都在一起了：

output.write_dataframe(df, partition_cols=[‘colA’], bucket_cols=[‘colB’], bucket_count=200)= ？？？
output.write_dataframe(df.repartition(‘colA’, ‘colB’), partition_cols=[‘colA’], bucket_cols=[‘colB’], bucket_count=200)= ？？？-- 这是我最后要使用的命令吗？任何下游都会首先过滤 colA 以利用 hive 分区，然后加入 colB 以利用分桶？

palantir-foundry foundry-code-repositories

2020-09-21T16:48:57.363

0 投票

1 回答

176 浏览