10

我想从一个简单的 CSV 文件创建一个 Spark 数据集。以下是 CSV 文件的内容:

name,state,number_of_people,coolness_index
trenton,nj,"10","4.5"
bedford,ny,"20","3.3"
patterson,nj,"30","2.2"
camden,nj,"40","8.8"

这是制作数据集的代码:

var location = "s3a://path_to_csv"

case class City(name: String, state: String, number_of_people: Long)

val cities = spark.read
  .option("header", "true")
  .option("charset", "UTF8")
  .option("delimiter",",")
  .csv(location)
  .as[City]

这是错误消息:“无法number_of_people从字符串向上转换为 bigint,因为它可能会截断”

Databricks 在此博客文章中讨论了创建数据集和此特定错误消息。

编码器会急切地检查您的数据是否与预期的模式匹配,在您尝试错误地处理 TB 数据之前提供有用的错误消息。例如,如果我们尝试使用太小的数据类型,这样转换为对象会导致截断(即 numStudents 大于一个字节,其最大值为 255),Analyzer 将发出 AnalysisException。

我正在使用该Long类型,所以我没想到会看到此错误消息。

4

2 回答 2

22

使用模式推断:

val cities = spark.read
  .option("inferSchema", "true")
  ...

或提供架构:

val cities = spark.read
  .schema(StructType(Array(StructField("name", StringType), ...)

或投:

val cities = spark.read
  .option("header", "true")
  .csv(location)
  .withColumn("number_of_people", col("number_of_people").cast(LongType))
  .as[City]
于 2016-09-16T01:05:45.927 回答
3

与您的案例类一样 case class City(name: String, state: String, number_of_people: Long),您只需要一行

private val cityEncoder = Seq(City("", "", 0)).toDS

然后你编码

val cities = spark.read
.option("header", "true")
.option("charset", "UTF8")
.option("delimiter",",")
.csv(location)
.as[City]

会工作的。

这是官方来源 [ http://spark.apache.org/docs/latest/sql-programming-guide.html#overview][1]

于 2017-07-27T10:28:40.463 回答