apache-spark - 如何在代码存储库中使用 Java/Scala API 获取 Hadoop 路径

翻译自：https://stackoverflow.com/questions/70243751 2021-12-06T10:07:01.237

61 次

我需要阅读其他格式：JSON、二进制、XML 并在代码存储库中的转换中动态推断架构并使用 Spark 数据源 api。

例子：

val df = spark.read.json(<hadoop_path>)

为此，我需要一个 Foundry 文件系统路径的访问器，类似于：

foundry://...@url:port/datasets/ri.foundry.main.dataset.../views/ri.foundry.main.transaction.../startTransactionRid/ri.foundry.main.transaction...

这可以通过 PySpark API (Python) 实现：

filesystem = input_transform.filesystem()
hadoop_path = filesystem.hadoop_path

但是，对于 Java/Scala，我没有找到正确的方法。

0 回答 0