问题标签 [foundry-code-repositories]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

104 问题

0 投票

1 回答

93 浏览

palantir-foundry - 在 Python 中编写逻辑或在 Foundry 的 SQL 转换中编写普通 SQL 有什么区别？

Foundry 的 SQL 转换提供了至少 2 种编写逻辑代码的方法：Python 和纯文本 SQL。

我已经注意到一些不同之处：

SQL 不允许增量计算，
SQL 不允许使用变量、常量或分解函数，
SQL 不允许向输出数据集添加参数，例如“列描述”。

我在某些方面错了，是否还有其他差异（例如执行时间、消耗的资源）？

palantir-foundry foundry-code-repositories

2022-02-05T09:24:45.723

0 投票

0 回答

59 浏览

email - Palantir Foundry 是否提供成功完成工作后发送电子邮件的功能？

我们编写了一个 pyspark 代码来创建我们需要的特定格式的报告。要求是在作业成功执行后使用报告链接发送电子邮件。我了解如何发送失败通知，但是否可以发送成功电子邮件。提前致谢！

email palantir-foundry foundry-code-repositories

2022-02-14T06:25:07.357

0 投票

1 回答

28 浏览

palantir-foundry - 如何确保我的 Foundry 作业使用静态分配运行？

我可以判断我的工作是否使用静态分配，但是我想实际改变我的工作以使用它。我该怎么做呢？

palantir-foundry foundry-code-repositories

2022-02-15T22:44:23.490

0 投票

2 回答

64 浏览

palantir-foundry - Palantir Foundry 如何在计算中允许动态输入数量（代码存储库）

我有一个文件夹，我每个月都会上传一个文件。该文件将在每个月具有相同的格式。

第一个问题

这个想法是将这个文件夹中的所有文件连接到一个文件中。目前我正在硬编码文件名（文件名 [0]、文件名 [1]、文件名 [2]..），但想象一下我以后会有 50 个文件，我应该将它们显式添加到 transform_df 装饰器中吗？有没有其他方法来处理这个？

第二个问题：

目前，我假设有 4 个文件（2021_07、2021_08、2021_09、2021_10），每当我添加显示 2021_12 数据的文件时，我都希望避免更改代码。如果我添加input_5 = Input(path_to_2021_12_do_not_exists) 代码将不会运行并给出错误。

如果没有每月手动向我的代码添加一个新值，我如何为将来的文件实现代码并让代码忽略输入（如果它不存在）？

谢谢

palantir-foundry foundry-code-repositories

2022-02-16T16:03:59.957

0 投票

1 回答

68 浏览

apache-spark - 如何确定我的 Foundry 作业的阶段有偏差？

我的工作似乎需要很长时间才能运行。我听说这可能是由于一种叫做“偏斜”的东西。

我怎么知道我是否受到此影响？

我知道这通常与连接、窗口和其他会导致洗牌的操作相关联，但我不知道如何识别它。

apache-spark palantir-foundry foundry-code-repositories foundry-code-workbooks foundry-contour

2022-02-16T20:15:42.697

0 投票

1 回答

89 浏览

pyspark - 如何确定我的 Foundry 工作的倾斜任务的价值？

我调查了我的工作，并确定我确实有一个倾斜的任务。如何确定导致偏斜的此任务中的实际值是什么？

我的 Python 转换代码如下所示：

pyspark palantir-foundry foundry-code-repositories foundry-python-transform foundry-contour

2022-02-16T21:08:54.377

0 投票

1 回答

82 浏览

apache-spark - 合并（1）与重新分区（1）后的不同排序结果

我有以下脚本返回正确排序的结果：

通知df = df.coalesce(1)前sort。

问题。由于两者都df.coalesce(1)应该df.repartition(1)导致一个分区，所以我尝试df = df.coalesce(1)用df = df.repartition(1). 但随后结果出现未排序。为什么？

额外细节

如果我不干扰分区，结果也显示为未排序：

物理计划使用coalesce(1)：

物理计划使用repartition(1)：

我知道repartition(1) 和 coalesce(1) 之间的问题，这个人说他由于某种原因不能使用coalesce(1)。就我而言，情况恰恰相反。

apache-spark pyspark apache-spark-sql palantir-foundry foundry-code-repositories

2022-02-17T07:54:51.627

0 投票

1 回答

33 浏览

palantir-foundry - Foundry中判断executor还是driver是OOMing

我的一个构建目前正在OOMing。为了更好地确定优化的下一步，我需要确定执行者或驱动程序是否OOMing。

确定执行程序或驱动程序是否在 Foundry 内 OOMing 的最佳方法是什么？

palantir-foundry foundry-code-repositories

2022-02-17T21:02:08.280

0 投票

1 回答

34 浏览

apache-spark - Spark 何时执行“扫描 ExistingRDD”？

我的工作是接收一个巨大的数据集并将其与另一个数据集连接起来。第一次运行时，它花了很长时间，SparkFileScan parquet在读取数据集时执行了 a，但在未来的作业中，查询计划显示Scan ExistingRDD并且构建需要几分钟。

Spark 为什么以及如何能够扫描现有的 RDD？它会退回到扫描支持数据集的 parquet 文件（并因此恢复到更差的性能）吗？

apache-spark pyspark palantir-foundry foundry-code-repositories foundry-code-workbooks

2022-02-22T18:42:54.193

0 投票

1 回答

72 浏览

apache-spark - 挂代工工作；为什么它似乎卡在舞台上？

我从我的工作概述页面中看到，我的工作似乎停留在某个阶段（大多数其他人都花费了合理的时间，其中一个要慢得多）。

当我的一个阶段需要这么长时间才能完成时，这意味着什么？

apache-spark palantir-foundry foundry-code-repositories foundry-code-workbooks

2022-02-23T16:49:17.420

1 2 3 4 5 6 7 8 9 10