问题标签 [foundry-code-repositories]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
apache-spark - 如何更快地计算我的 Foundry“最新版本”数据集?
我有一个数据集摄取对我的数据行的最新编辑,但它只摄取最近编辑的版本。update_ts
(即它在时间戳列上是增量的)。
原表:
更新后的表格:
摄取后,我需要计算所有先前更新的“最新版本”,同时还要考虑任何新的编辑。
这意味着我每次都在进行增量摄取并运行 SNAPSHOT 输出。这对我的构建来说非常慢,因为我注意到每次我想为我的数据计算最新版本时,我都必须查看所有输出行。
交易 n=1(快照):
交易 n=2(追加):
我怎样才能使这个“最新版本”计算更快?
apache-spark - 如何让我的多连接/多联合数据集计算得更快?
我有一系列约 30 个数据集,所有这些数据集都需要连接在一起才能形成一个宽泛的决赛桌。这个最终表需要大约 5 年的单个表(每年一个表)并将它们联合在一起,然后将这个完整的历史与其他表的完整历史(类似地联合)加入一个大的、历史的、宽的表。
这些第一个每年表的布局如下:
与像这样的其他年份表:
然后将它们联合在一起以创建:
同样,合并后的第二种类型的表会导致以下结果:
我现在想加入table_type_1
ontable_type_2
并primary_key
产生year
一个更宽的表。我注意到这个最终的连接需要很长时间并且打乱了很多数据。
我怎样才能让它更快?
palantir-foundry - 有没有办法填充特定于数据集的列描述?
数据集 1 和数据集 2 具有相同的列名但不同的描述。在数据集 1 转换中,我会说我正在处理数据集 1,因此它必须优先考虑该数据集 1 的特定描述。如果我正在为另一个数据集进行转换,我想优先考虑该数据集。有没有办法填充特定于数据集的列描述?
例如,参数中的参数my_compute_function
是否可以传递数据集名称,该数据集名称必须具有优先级 Column1,数据集 1 的列描述,{Dataset 1 name}。Column1,数据集 2 的列描述,{Dataset 2 name},...
palantir-foundry - 在转换函数中更改输出数据集路径
我们可以在 my_compute_function 中动态更改输出数据集路径,如下所示
palantir-foundry - 如何在不使用 tranform 或 tranform_df 的情况下在 palantir Foundry 中导入单个数据集
我想全局导入一个数据集,以便我可以访问文件中的数据集。有什么方法可以在不使用transform
或transform_df
在 Palantir Foundry 代码库中导入单个文件。
基本上我想从数据集中提取数据并返回列表中的所有值。如果我使用 transform 或 transform_df 装饰器,那么在调用返回函数时我将无法访问该输入文件。
或者是否有任何其他方法可以通过使用一个数据帧作为 palantir 代码存储库中函数的输入来返回值列表。
palantir-foundry - 如何减少代工厂数据集中的文件数量?
我的数据集有 20000 个文件,每个文件都非常小。我将如何减少文件数量以及最佳数量是多少?
pytest - 如何通过在 palantir Foundry 中导入数据框来编写 pytest 函数
我可以通过手动提供列名和值来创建数据框并将其传递给生产代码以检查 palantir 代工厂代码存储库中所有转换后的字段值来编写 pytest 函数。
我不想手动传递列名及其各自的值,而是将所有必需的数据存储在数据集中,并将该数据集导入 pytest 函数以获取所有必需的值并传递给生产代码以检查所有转换后的字段值。
无论如何接受数据集作为planatir代码存储库中的测试函数的输入。
pyspark - 如何在本地开发和测试 python 转换代码?
鉴于输入数据集适合本地机器的内存,在本地开发和测试 python 转换代码的推荐方法是什么?
pyspark - 如何在 palantir Foundry 中使用 transform_df 写回数据帧?
我创建了一个库来更新输入数据集列的描述。该函数将三个参数作为输入(input_dataset、output_dataset、配置文件)并最终写回输出数据集的描述。所以现在我们想在各种用例中导入这个库。如何处理我们正在编写 spark 转换的情况,即通过 transform_df 获取输入,因为这里我们不能将输出分配给输出变量。在那种情况下,我如何调用我的描述库函数?在 palantir 代工厂中如何处理这些情况。有什么建议么?