问题标签 [foundry-code-repositories]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
107 浏览

pyspark - 如何将不同的模式应用于单个数据集中的 csvs?

我从一个大的 csvs zip 文件开始,我在 Palantir Foundry 中解压缩了它。

我现在有一个由多个 csv 组成的数据集(每年一个),其中 csv 几乎是相同的模式,但有一些差异。如何将架构单独应用于每个 csv 或规范化它们之间的架构?

0 投票
1 回答
51 浏览

palantir-foundry - 我什么时候更喜欢在静态分配和动态分配中运行作业?

我已经阅读了 Foundry 中的文档以了解两者之间的区别,但我想知道在什么情况下我希望将STATIC_ALLOCATION配置文件应用于我的构建以防止我的执行程序被抢占。

在动态分配模式下运行时,我还有什么其他需要注意的吗?

0 投票
1 回答
119 浏览

pyspark - 为什么我的代码仓库警告我在 for/while 循环中使用 withColumn?

我注意到我的代码仓库警告我在 for/while 循环中使用 withColumn 是一种反模式。为什么不建议这样做?这不是 PySpark API 的正常使用吗?

0 投票
1 回答
70 浏览

pyspark - 当我希望它们出现时,为什么我在 PySpark 代码中看不到日志行?

我有一些 PySpark 代码正在编写,我想在其中执行连接和其他操作,但我想在此阶段成功完成时记录下来。

为什么我没有看到按我期望的顺序记录?即使我的工作仍在继续工作,似乎一切都立即出现了……

0 投票
1 回答
61 浏览

pyspark - 如何将日志从代工厂平台的代码库写入新文件

在代码存储库中,当我预览或测试 *.py 文件时,我需要将所有日志放入一个文件中,如果已经存在文件,日志应该随时间附加到该文件中。任何人都可以请为此建议一种方法吗?

说明:我正在做 pytest 来测试我的代码功能,所以我想将测试结果保存到可以是 .txt 的文件中,因为我将指定文件的路径,该文件需要在包含测试结果的指定路径中创建,如果再次运行测试,则应将该测试结果附加到具有时间戳的同一文件中。

0 投票
3 回答
128 浏览

pyspark - 如何在我的 Foundry Magritte 数据集导出中拥有漂亮的文件名和高效的存储使用率?

我正在使用各种 Magritte 导出任务将 Foundry 数据集中的数据以parquet格式导出到 ABFS 系统(但 SFTP、S3、HDFS 和其他基于文件的导出也会出现同样的问题)。

我要导出的数据集相对较小,小于 512 MB,这意味着它们实际上不需要拆分到多个 parquet 文件中,将所有数据放在一个文件中就足够了。我通过以 a 结束之前的转换来完成此操作,以.coalesce(1)将所有数据放在一个文件中。

问题是:

  • 默认情况下,文件名是part-0000-<rid>.snappy.parquet,每个版本都有不同的删除。这意味着,无论何时上传新文件,它都会与其他文件出现在同一个文件夹中,判断哪个是最新版本的唯一方法是最后修改日期。
  • 每个版本的数据都存储在我的外部系统中,这会占用不必要的存储空间,除非我经常进入并删除旧文件。

所有这些都是不必要的复杂性被添加到我的下游系统中,我只想能够在一个步骤中提取最新版本的数据。

0 投票
1 回答
91 浏览

palantir-foundry - 是否可以从数据集生成pdf并逐步保存到铸造厂

FPDF是一个允许将 pandas 数据框转换为格式良好的 pdf 报告的库。Foundry 代码仓库或代码工作簿中是否有一项功能可以将 pdf 文件从 spark 或 pandas 数据帧写入到 Foundry 中?

我需要从过滤到几行的铸造数据集创建格式良好的 pdf 报告。

在用户https://stackoverflow.com/users/4922673/jackfischer的帮助下,我能够满足要求,但是代码会覆盖现有文件,如何在每次运行代码时使用新文件增量更新数据集. 我正在使用代码工作簿模板功能将参数传递给逻辑,每次传递新参数时,逻辑如何创建新文件

例子 :

  1. 样本文件.txt
  2. 样本文件2.txt
0 投票
1 回答
51 浏览

palantir-foundry - 为什么我的代码仓库警告我不要使用 union 而是使用 unionByName?

我在我的存储库中看到它警告我要使用union,而我应该使用unionByName. 这些不是一回事吗?我为什么要关心使用哪一个?

0 投票
1 回答
25 浏览

palantir-foundry - 我注意到我的转换作业有许多 ExecuteStats 阶段。有什么办法可以避免这些吗?

我正在优化我的管道的性能,当我为我的 Transform 作业打开 Job Tracker 时,我注意到在作业开始时有几个阶段,称为ExecuteStats.scala. 有没有办法通过删除/跳过这些来优化我的工作?它们通常需要数十秒,并且在我每次运行转换时都会发生。

0 投票
1 回答
64 浏览

apache-spark - 如何使用来自 Foundry Transforms 的 spark.DataFrameReader

我有一个非经典格式的文件,所以我需要直接在原始文件上使用spark.DataFrameReader( spark.read.csv),以便我可以设置适当的解析配置。

我怎样才能做到这一点?