问题标签 [foundry-code-repositories]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
2 回答
43 浏览

palantir-foundry - 是否可以从代工厂代码创作中找到数据集的最后一个代工厂同步日期?

我想以编程方式确定数据集的最后同步日期是否在某个时间范围内,我想知道是否可以将最后同步日期作为列拉入数据集中?

0 投票
1 回答
69 浏览

palantir-foundry - 如何使用其他代码库中定义的函数?

我在代码存储库 (A) 中定义了一组函数。代码库 A 具有以下结构,我的类 objectController 在 'objectController.ts' 中定义:

  • 源代码
    • 索引.ts
    • 对象控制器.ts

如何在另一个代码库 (B) 中使用 objectController.ts 中定义的函数?

0 投票
2 回答
76 浏览

schedule - 我可以在构建而不是数据集上设置时间表吗?

我希望能够为每个构建生成一个新数据集,其中当前日期附加到名称中,如下所示:

是否可以在构建而不是单个数据集上放置一个时间表,以便每天生成新的数据集?

0 投票
1 回答
364 浏览

pyspark - 如何在 Palantir Foundry 中解析 xml 文档?

我有一组.xml要解析的文档。

我以前曾尝试使用获取文件内容并将它们转储到单个单元格中的方法来解析它们,但是我注意到这在实践中不起作用,因为我看到运行时间越来越慢,通常需要完成一项任务运行数十小时:

我的第一个转换获取.xml内容并将其放入单个单元格中,第二个转换获取此字符串并使用 Python 的xml库将字符串解析为文档。然后我可以从这个文档中提取属性并返回一个 DataFrame。

我正在使用UDF来执行将字符串内容映射到我想要的字段的过程。

我怎样才能使它更快/更好地处理大.xml文件?

0 投票
0 回答
61 浏览

apache-spark - 如何在代码存储库中使用 Java/Scala API 获取 Hadoop 路径

我需要阅读其他格式:JSON、二进制、XML 并在代码存储库中的转换中动态推断架构并使用 Spark 数据源 api。

例子:

为此,我需要一个 Foundry 文件系统路径的访问器,类似于:

foundry://...@url:port/datasets/ri.foundry.main.dataset.../views/ri.foundry.main.transaction.../startTransactionRid/ri.foundry.main.transaction...

这可以通过 PySpark API (Python) 实现:

但是,对于 Java/Scala,我没有找到正确的方法。

0 投票
1 回答
71 浏览

palantir-foundry - 数据集构建“OOM”是什么意思?

我听说这个术语用得很多,关于构建 OOMing 或内存不足;这意味着什么?我说的是在 Transforms Python 或 Transforms SQL 中运行数据集构建的上下文。

0 投票
2 回答
55 浏览

palantir-foundry - 如何确保在 Foundry Python Transforms 中构建的数据集中文件大小一致?

我的 Foundry 转换在不同的运行中产生不同数量的数据,但我希望每个文件中的行数相似。我可以使用DataFrame.count()然后合并/重新分区,但这需要计算完整的数据集,然后缓存或重新计算。Spark有办法解决这个问题吗?

0 投票
1 回答
51 浏览

palantir-foundry - 如何在 Python 转换中使用 sqlContext(执行 SQL 查询)?

我在代码存储库中完成了以下操作

它在代码上出错了:

出现错误:

pyspar.sql.utils.AnanlysisException:找不到表或视图:og_dataset_path

如何解决此错误?

0 投票
1 回答
40 浏览

pyspark - DataFrame 上的 count() 是否会将数据具体化到驱动程序/增加 OOM 的风险?

我想df.count()在我的 DataFrame 上运行,但我知道我的数据集总大小非常大。这是否存在将数据具体化回驱动程序的风险/增加驱动程序OOM的风险?

0 投票
1 回答
39 浏览

pyspark - 为什么我没有看到我请求的重新分区的较小任务?

我有一个数据集,我想将每个列的唯一值均匀地重新分区为 10 个桶,并且我想将此结果调整为大量分区,以便每个分区都很小。

col_1保证是中的值之一["CREATE", "UPDATE", "DELETE"]

我的代码如下所示:

我看到我的大多数任务都以零行数据运行并完成,我希望数据均匀分布在我的partition_col1000 个分区中吗?