1

我正在使用 Spark 2.0.2。将 CSV 文件读入数据集时,如何textinputformat.record.delimiter为类指定 Hadoop 配置项?TextInputFormat

在 Java 中我可以编写代码:spark.read().csv(<path>); 但是,似乎没有办法提供特定于读取的 Hadoop 配置。

可以使用spark.sparkContext().hadoopConfiguration()全局设置项目。

谢谢,

4

2 回答 2

0

你不能。数据源 API 使用自己的配置,从 2.0 开始,它甚至与 Hadoop 配置不兼容。

如果您想使用自定义输入格式或其他 Hadoop 配置SparkContext.hadoopFile,请使用SparkContext.newAPIHadoopRDD或相关类。

于 2016-12-07T03:26:45.253 回答
0

可以使用 spark2.0 中的 option() 设置分隔符

var df = spark.read.option("header", "true").option("delimiter", "\t").csv("/hdfs/file/locaton")
于 2017-01-10T06:13:16.273 回答