我需要阅读其他格式:JSON、二进制、XML 并在代码存储库中的转换中动态推断架构并使用 Spark 数据源 api。
例子:
val df = spark.read.json(<hadoop_path>)
为此,我需要一个 Foundry 文件系统路径的访问器,类似于:
foundry://...@url:port/datasets/ri.foundry.main.dataset.../views/ri.foundry.main.transaction.../startTransactionRid/ri.foundry.main.transaction...
这可以通过 PySpark API (Python) 实现:
filesystem = input_transform.filesystem()
hadoop_path = filesystem.hadoop_path
但是,对于 Java/Scala,我没有找到正确的方法。