我正在使用 Spark 2.0.2。将 CSV 文件读入数据集时,如何textinputformat.record.delimiter
为类指定 Hadoop 配置项?TextInputFormat
在 Java 中我可以编写代码:spark.read().csv(<path>);
但是,似乎没有办法提供特定于读取的 Hadoop 配置。
可以使用spark.sparkContext().hadoopConfiguration()
全局设置项目。
谢谢,
我正在使用 Spark 2.0.2。将 CSV 文件读入数据集时,如何textinputformat.record.delimiter
为类指定 Hadoop 配置项?TextInputFormat
在 Java 中我可以编写代码:spark.read().csv(<path>);
但是,似乎没有办法提供特定于读取的 Hadoop 配置。
可以使用spark.sparkContext().hadoopConfiguration()
全局设置项目。
谢谢,
你不能。数据源 API 使用自己的配置,从 2.0 开始,它甚至与 Hadoop 配置不兼容。
如果您想使用自定义输入格式或其他 Hadoop 配置SparkContext.hadoopFile
,请使用SparkContext.newAPIHadoopRDD
或相关类。
可以使用 spark2.0 中的 option() 设置分隔符
var df = spark.read.option("header", "true").option("delimiter", "\t").csv("/hdfs/file/locaton")