问题标签 [foundry-code-repositories]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

104 问题

0 投票

1 回答

107 浏览

pyspark - 如何将不同的模式应用于单个数据集中的 csvs？

我从一个大的 csvs zip 文件开始，我在 Palantir Foundry 中解压缩了它。

我现在有一个由多个 csv 组成的数据集（每年一个），其中 csv 几乎是相同的模式，但有一些差异。如何将架构单独应用于每个 csv 或规范化它们之间的架构？

2021-12-14T03:38:38.297

0 投票

1 回答

51 浏览

palantir-foundry - 我什么时候更喜欢在静态分配和动态分配中运行作业？

我已经阅读了 Foundry 中的文档以了解两者之间的区别，但我想知道在什么情况下我希望将STATIC_ALLOCATION配置文件应用于我的构建以防止我的执行程序被抢占。

在动态分配模式下运行时，我还有什么其他需要注意的吗？

palantir-foundry foundry-code-repositories foundry-python-transform

2021-12-16T15:34:37.730

0 投票

1 回答

119 浏览

pyspark - 为什么我的代码仓库警告我在 for/while 循环中使用 withColumn？

我注意到我的代码仓库警告我在 for/while 循环中使用 withColumn 是一种反模式。为什么不建议这样做？这不是 PySpark API 的正常使用吗？

pyspark palantir-foundry foundry-code-repositories foundry-python-transform

2021-12-16T15:46:11.603

0 投票

1 回答

70 浏览

pyspark - 当我希望它们出现时，为什么我在 PySpark 代码中看不到日志行？

我有一些 PySpark 代码正在编写，我想在其中执行连接和其他操作，但我想在此阶段成功完成时记录下来。

为什么我没有看到按我期望的顺序记录？即使我的工作仍在继续工作，似乎一切都立即出现了……

pyspark palantir-foundry foundry-code-repositories foundry-python-transform

2021-12-16T19:31:57.987

0 投票

1 回答

61 浏览

pyspark - 如何将日志从代工厂平台的代码库写入新文件

在代码存储库中，当我预览或测试 *.py 文件时，我需要将所有日志放入一个文件中，如果已经存在文件，日志应该随时间附加到该文件中。任何人都可以请为此建议一种方法吗？

说明：我正在做 pytest 来测试我的代码功能，所以我想将测试结果保存到可以是 .txt 的文件中，因为我将指定文件的路径，该文件需要在包含测试结果的指定路径中创建，如果再次运行测试，则应将该测试结果附加到具有时间戳的同一文件中。

pyspark palantir-foundry foundry-code-repositories

2022-01-03T10:52:10.230

0 投票

3 回答

128 浏览

pyspark - 如何在我的 Foundry Magritte 数据集导出中拥有漂亮的文件名和高效的存储使用率？

我正在使用各种 Magritte 导出任务将 Foundry 数据集中的数据以parquet格式导出到 ABFS 系统（但 SFTP、S3、HDFS 和其他基于文件的导出也会出现同样的问题）。

我要导出的数据集相对较小，小于 512 MB，这意味着它们实际上不需要拆分到多个 parquet 文件中，将所有数据放在一个文件中就足够了。我通过以 a 结束之前的转换来完成此操作，以.coalesce(1)将所有数据放在一个文件中。

问题是：

默认情况下，文件名是part-0000-<rid>.snappy.parquet，每个版本都有不同的删除。这意味着，无论何时上传新文件，它都会与其他文件出现在同一个文件夹中，判断哪个是最新版本的唯一方法是最后修改日期。
每个版本的数据都存储在我的外部系统中，这会占用不必要的存储空间，除非我经常进入并删除旧文件。

所有这些都是不必要的复杂性被添加到我的下游系统中，我只想能够在一个步骤中提取最新版本的数据。

pyspark palantir-foundry foundry-code-repositories foundry-python-transform foundry-data-connection

2022-01-10T13:10:30.930

0 投票

1 回答

91 浏览