apache-spark - 读取 CSV 时如何指定 Hadoop 配置

Question

我正在使用 Spark 2.0.2。将 CSV 文件读入数据集时，如何textinputformat.record.delimiter为类指定 Hadoop 配置项？TextInputFormat

在 Java 中我可以编写代码：spark.read().csv(<path>); 但是，似乎没有办法提供特定于读取的 Hadoop 配置。

可以使用spark.sparkContext().hadoopConfiguration()全局设置项目。

谢谢，

score 0 · Accepted Answer

你不能。数据源 API 使用自己的配置，从 2.0 开始，它甚至与 Hadoop 配置不兼容。

如果您想使用自定义输入格式或其他 Hadoop 配置SparkContext.hadoopFile，请使用SparkContext.newAPIHadoopRDD或相关类。

score 0 · Accepted Answer

可以使用 spark2.0 中的 option() 设置分隔符

var df = spark.read.option("header", "true").option("delimiter", "\t").csv("/hdfs/file/locaton")

2 回答 2